首先来看这样一段人类与苹果虚拟助手Siri的对话:
User: Siri, call me anambulance.
Siri: Okay, from nowon I’ll call you “an ambulance.”
用户对苹果的虚拟助手Siri说,帮我叫辆救护车。Siri的回答是,好的,从现在开始,我会叫你“救护车”。
这真是一段让人犯尴尬症的对话。
虽然2011年 Siri 首次发布后不久,苹果公司就修正了这个错误。但是,一个新挑战赛结果显示,目前,计算机仍然缺少常识来避免出现这类尴尬。
本周,在纽约的一场学术会议上,研究者展示了 Winograd Schema 挑战赛的结果,并且提出若干衡量标准,讨论要让计算机变得真正的智能的话究竟还有多少工作要做。
中国选手表现最好,却没能拿下奖金
Winograd Schema挑战赛要求计算机理解一些有歧义的句子,这些句子对于人类来说很容易理解。不过,要正确理解WinogradSchema挑战提供的有歧义的句子,必须要具备一定的常识。比如这句话“市政厅议员不批准示威者的许可证,因为他们害怕暴力”,“他们”指代谁在逻辑上是不清楚的,但是人类能够在语境下理解。
比起随机的选择,参与挑战的程序在选择句子的正确含义上,准确率要高一点。但是,表现最好的两位选手的正确率也仅达到48%。如果只是随机选择答案,正确率是45%。该挑战赛规定,要想获得25,000美元的奖金,正确率至少要达到90%。
本次挑战赛中,表现最好的两位选手分别是来自中国科学技术大学的刘泉(音译)和来自Open University of Cypress 的 Nicos Issak。
“机器的准确率才比随机概率高一点点,这并不让人意外,”纽约大学的研究心理学家、此次竞赛的顾问Gary Marcus 说。这是因为要赋予计算机常识性的知识非常困难。手动将这些知识编码非常地耗时,而且,要让计算机通过对文本进行统计分析来理解真实的世界也不是件容易的事。Winograd Schema 挑战的大部分参与者都尝试把语法分析手工编码和知识库结合起来使用。
世界水平究竟怎么样?
Marcus 还是一家新AI初创公司 Geometric Intelligence 的联合创始人。他说,虽然此前谷歌和 Facebook 的研究员说它们在自然语言理解方面取得了重大进展,但是这两家公司没有参加此次竞赛。“本来应该是这些人高调地走进来然后得100%的正确率,要是那样的话就震撼到我了。”
媒体曾在6月9日的头条文章中报道:加拿大人工智能公司Maluuba发布了一款基于机器学习的自然语言理解程序EpiReader,能理解并处理未经组织的自然语言在机器理解文本,并在常用的CNN和CBT数据集测试中取得了目前为止的最佳成绩,超越行业领导者IBM Waston、Facebook和谷歌 DeepMind。作为该公司顾问,Yoshua Bengio把EpiReader称为一个有意思的进步,并认为该技术将会推动Siri、Cortana、Alex等智能助理的问答能力。
Maluuba对EpiReader的测试是在两个超大型的文本集中进行的:一个由谷歌Deepmind在去年夏天发布,基于CNN和Daily Mail新闻报道,包含了30万篇文章(Maluuba只使用了CNN的部分)。另一个是Facebook于今年2月份推出的The Children's Book Test(CBT),由ProjectGutenberg的98本经典儿童读物组成。
EpiReader在这两个数据集的阅读理解中正确率分别达到74%和67.4%。专家一致认为,在和两个数据集的阅读理解中,这是目前见到的最好成绩,具有里程碑的意义。要知道,人类的准确率也达不到100%,而是在80%左右。
在CNN新闻语料库中,DeepMind的准确率为63.8%,Facebook为66.8%,IBM Waston为69.5%。而在CBT语料库的测试中,Facebook准确率为63%,IBM Waston准确率为63.4%。(见下图)
Winograd Schema 竞赛不仅是AI的进步的一个衡量标准,还说明了要制造直觉更强、更加优秀的聊天
机器人以及训练计算机从文本中提取更多的信息有多难。
谷歌、Facebook、亚马逊以及微软的研究员正在将他们的注意力转移到语言上。他们使用最新的机器学习技术,尤其是“深度学习”神经网络来开发更加智能、更有直觉的聊天机器人和个人助理。随着聊天机器人和语音助理越来越常见以及在图像识别和语音识别取得重大进展,你或许以为机器在理解语言上正做的越来越好。
在表现最好的两名参赛者中,其中一名最佳选手使用了最新的机器学习方法。刘泉的团队(其中包括来自多伦多约克大学和加拿大国家研究委员会的研究员)使用深度学习来训练计算机从数千份文本中理解不同事情之间的关系,例如“打篮球”和“赢了”或者“受伤”之间的关系。
“我很高兴看到深度学习的使用,”Leidos公司的高级研究员Leora Morgenstern说到。Leios是一家科技咨询公司,是此次大赛的组织方之一。
刘泉的团队称,他们的系统在理解大赛出的问题时有一个缺陷,等他们修正这个缺陷后,正确率可达60%。然而Morgenstern提醒说,即使他们真的能做到,机器的正确率还是远远低于人类。
把 Winograd Schema 的句子作为一种衡量机器理解力的方法,最开始是由多伦多大学的一位AI研究员HectorLevesque提出的。根据AI界的先驱Terry Winograd 的名字命名。Terry Winograd是斯坦福大学的教授,发明了第一个对话的计算机程序。
Winograd Schema挑战开始于2014年,是一种升级版的图灵测试。艾伦·图灵是计算机和人工智能之父,20世纪50年代,他在想机器是否有一天会像人类一样思考,而后提出了一个简单的测试机器智能的方法。他的方法就是让一台机器骗过一个人,让这个人以为他是在和另一个人在进行文字对话。
图灵测试的问题在于,计算机只要使用简单的把戏和逃避就能轻松骗过人类。但是,计算机要是没有常识就不能理解Winograd Schema或是其他带歧义的句子。
此次竞赛意义重大。“当你开始和机器进行对话,这种情况就会发生,”Nuance的高级首席研究员Charlie Ortiz说。Nuance是一家做语音识别和语音交互软件的公司,是Winograd Schema挑战赛的赞助方。Ortiz说,即使是与计算机简单的对话也会需要理解常识。“在购物时,如果我说‘我想给我的吉他买一个盒子,它应该很牢固的。’那么,‘它’是指盒子还是吉他呢?”
Marcus 补充说,随着智能设备和可穿戴设备的普及,理解常识将变得越来越重要。“当你向你的手表提出一个问题时,你不用再在50个备选答案中进行选择,”他说。“当你和你的汽车或是手表说话时,你摆脱了打字的麻烦,但是却希望能对前后的对话,也就是上下文保持高度相关性。在说话时,人们会很自然的使用代词指称此前提到的东西。而这些就要求解决现在的问题,让计算机可以做到这样”。