作为AI+专场的开场嘉宾,北京大学计算机科学技术研究所研究员万小军发表了主题为《机器写稿技术与应用》的演讲。会后,不少媒体朋友上前与万小军交流,期望能将“机器写稿技术”引入自家媒体。
机器人写稿并不是一个全新的话题了。2016年8月,万小军带领的北大计算机所与今日头套实验室联合推出新一代AI写稿机器人——奥运AI小记者Xiaomingbot。2017年1月,万小军与南方都市报合作研发写稿机器人“小南”。“小明”和“小南”备受关注,引发很多争论,正如邻居小朋友每次考了高分都会让你紧张一样,机器人在智能上的每一次进步,都让人类担心自己的饭碗不保,不少小编“哭晕在厕所”。
当南方都市报将“小南”看作自己的“新同事”的时候,万小军却对雷锋网编辑说,“在我眼里,写稿机器人就是一个程序,目前看到的更多的还是不足。”十几年前,万小军就开始做自然语言处理,开始关注其在新闻上的应用,写稿机器人并不是一个凭空跳出来的拥有华丽简历的神同事,而是技术不断推进和媒体环境变化的产物。在雷锋网对万小军的专访中,我们抛开人工智能何时能超越人类, 机器人能不能自主思考这样漫漫而谈的终极话题,一起来看看这个专注于新闻领域的计算机教授究竟在做什么。
新闻是做自然语言处理最规范的文本雷锋网:您专注的自然语言处理技术主要有哪些应用场景?
万小军:自然语言处理在很多方面都有应用价值,现在的智能问答、人机交互都需要语言的处理,比如说现在的语音交互就需要机器对语言的理解,执行使用者的指令。另外机器翻译、机器写稿都是可应用的方面,机器写稿更侧重于自然语言的生成,是说根据语义数据去生成自然语言文本,机器的语言理解和语言生成是两个相反的过程。
人机对话中也会用到自然语言的生成,机器理解用户的问话之后,要生成语言来回答。在文化娱乐方面,也可以用自然语言生成技术来生成诗词、对联等。
雷锋网:同样都是自然语言生成,人机对话中的语言生成和机器人写稿的语言生成有什么不一样?
万小军:首先是长短不一样,人机对话中生成的回复文本一般比较短,多数情况下只生成一个句子,而机器人写稿则要生成包含多句话的完整文章,写稿过程中需要重点考虑篇章结构组织以及语句之间的连贯性。另一方面,对话的生成要重点考虑跟多轮上下文的衔接,也就是“语境”,而写稿的时候没有这种考虑,能够把一件事情说清楚就行了。最后,人机对话的语言表达可以比较口语化,但机器写稿倾向于使用比较规范和正式的语言表达。
雷锋网:您如何评价微软小冰和度秘这一类的语音助手或者说聊天机器人?
万小军:做聊天机器人如果不限领域的话其实很难做,如果限定一个领域的话就可以做的相对较好,例如专注于天气、体育或者财经。如果允许天马行空地发问,机器人回复的难度就很大。一般来说,针对一个狭窄的领域则可以做得很精细,比如就是针对某类产品的客服机器人。现在的“问答机器人”回答的是相对简单的事实型问题,但是像“百度知道”里绝大部分问题都是复杂型问题,问的是怎么样安装Windows, 托福怎么样考高分,怎么样上北大清华这样的问题,这些问题机器不好回答。你要问中国的首都在哪儿,就很好回答,wiki里都有,抽取出来放到知识库就可以了。现在的智能问答聊天系统还不能回答复杂的问题,解释事情的原委以及对比。我们得一步一步来,先解决简单的然后再考虑复杂的,如果一开始就把复杂的情况都考虑进来那就没法做了。
雷锋网:您在2004年就有论文关注新闻摘要提取,自然语言处理的应用领域很多,为什么选择并且一直专注在新闻领域?
万小军:自然语言处理的各项研究最早都是针对新闻语料开始做的,因为新闻是最规范的文本。如果一开始就在微博、微信和用户评论这样的不规范的文本去做,挑战会很大。所以像“自动分词”、“句法分析”、“语义分析”、“自动摘要”这些自然语言处理任务一开始的测试语料都是新闻文本。我们先看在新闻文本上能不能做好,再去考虑其它的,因为新闻相对于其他文本来说是最简单的。
雷锋网:用在新闻上的算法能够应用在别的文本吗?
万小军:应该是可以的,但是在精度上肯定是有变化的。比如说“分词”这个事情,你在新闻上面分可以达到95%以上,在微博上可能会降几个点,因为难度会更高,但是方法是可以用的。也可以进一步做些针对性处理,提高精度。
雷锋网:您从事新闻文本挖掘已久,您怎么看待新闻这种文字体裁?机器人的新闻写稿得符合哪些基本的要求?(还需要传统的新闻五要素、客观性、准确性这些标准吗?)万小军:在互联网时代,新闻的定义已经跟原来不一样了。以前要求新闻要客观准确,而目前网络上标题党横行,很吸引眼球,很多人看。自媒体时代,人人都可以写稿,新闻不再只是由专业写稿人生产。现在更重要的是实时、有趣。自媒体时代每个人都在发声,机器将微博内容和评论整合起来就能出一篇新闻,这在以前是没有的。新闻的定义在互联网时代发生了变化。
雷锋网:新媒体时代的新闻已经发生了变化,您在与新媒体和传统媒体公司合作“写稿机器人”的时候,感受到新媒体与传统媒体哪些不同?
万小军:他们对机器人写稿的看法有不一样。今日头条会将Xiaomingbot生产的内容直接发布,但是南都还是比较传统一点,在发布到自己的app上时还是会经过人工审核。从传统媒体的立场,他们希望发布的信息要很准确。而自媒体更注重量大,侧重时效,吸引用户阅读。
雷锋网:您与今日头条Xiaomingbot写稿机器人的合作是如何开始的?
万小军:刚开始也是机缘巧合。我们团队当时在ACL上发表了一篇论文(《Towards Constructing Sports News from Live Text Commentary》),是一篇关于利用体育直播文字进行新闻稿写作的论文,我们当时已经做出了DEMO。当时正是2016年里约奥运,他们看到了我们的论文,邀请我们去做报告,然后在两周内,我们就将写稿机器人产品做出来了。我们这次的研究离实用很近,双方的对接也很简单。