专栏名称: 雷峰网
中国智能硬件第一媒体
目录
51好读  ›  专栏  ›  雷峰网

还有什么新闻是机器人不会写的?北大万小军详解写稿机器人背后的秘密(附PPT) | CCF-GAIR ...

雷峰网  · 公众号  · 科技媒体  · 2017-07-10 18:31

正文

请到「今天看啥」查看全文


机器写稿有两种方式,一种是原创,一种是二次创作。原创一般是之前没有稿件,只有结构化的数据,我们可以借助结构化的数据去生成新的稿件。比如说我们写一个天气预报的报道,或者写一个年报、财报都直接可以从数据中生成。而关于一个已经有相关报道的事件,我们借助这些报道进行一些拼凑、改写成为新的稿件,这就是二次创作。

原创和二次创作所依赖的技术也是不太一样的。原创采用的是自然语言生成技术,是从结构化数据/意义表达生成自然语言语句。二次创作采用的是自动摘要技术,我们从已有的文字素材去给它摘要,把它生成一个新的稿件。这是两类非常关键的技术。

还有其它的一些相关技术:文本信息推荐技术和文本复述技术。比如说我们在写一个稿件的时候,有时候会想引用一句名人的话或者引用一个唐诗宋词,机器会自动给你推荐。第二个是文本复述技术,我们基于一个个稿件做创作的时候,如果我们直接把原文原始的内容拷贝过来,这个有点抄袭的嫌疑。所以这时候我们就需要做一些复述,会用不同的语言去表达同样的语义。这里有一个例子是说“梅西获得了5座金球奖”,你可以改为“梅西是五届金球奖得主”,也可以改写为“金球奖5次颁给了梅西”,这样就可以避免版权的问题,也可以让我们的改写更加生动。

机器人写稿应用广泛

机器人写稿的应用十分广泛。首先是新闻资讯的自动生成。我们输入结构化的数据,以及已经有的稿件,可以生成长度可控的几十个字到几千字的稿件。例如,一个体育的简讯的生成需要我们从网上抓取关于体育赛事的一些基本的数据,借助这个数据做一些数据分析,文档规划、语句的实现,就可以生成右边的这样一个比较简单的体育的赛事报道。

另一个是体育赛事的长篇报道的自动生成。简讯包含的信息量很少,我们想生成一个长篇的报道来介绍整个比赛的过程。我们经常发现著名的体育比赛下面都有文字直播,通常包含主持人对这样一个比赛的精彩细节的描述,我们通过机器学习的手段,能够把这些精彩的描述挑选出来,放到我们最终的报道中,这个报道就写得比较长,可以达到上千字以上。首先借助机器学习的手段,对直播文字进行语句的智能排序,再进行智能选择,最后生成一个平均长度超过1000字的赛事的报道。我们看到直播文字一般会达到数千字,一般是5000字以上,所以要从5000字中选择和拼凑出1000字以上的长篇报道。







请到「今天看啥」查看全文