用户: Siri,帮我叫救护车。
Siri: 好的,从现在开始我会叫你“救护车”。
在2011年Siri初次面世的时候,苹果公司很快修复了这个错误。但是一个新的竞赛显示出,计算机仍然缺乏基本的常识来避免这种令人尴尬的混淆。
这个竞赛名为“威诺格拉德模式挑战赛”(Winograd Schema Challenge),是图灵测试的一个变种,由加拿大多伦多大学的计算机科学家赫克托·莱维斯克(Hector Levesque)发起,挑战赛的名字是为了向特里·威诺格拉德(Terry Winograd)教授致敬,他是斯坦福大学的一位教授,人工智能领域的开拓者。
左图为:赫克托·莱维斯克,右图为:特里·威诺格拉德
60多年来,研究人员一直使用图灵测试来评估机器仿人思考的能力,但是这个针对人工智能的评判标准太老旧了,很多旧版图灵测试的题目太过简单,而不能真正测试出计算机的智能水平,急需更新换代。始于2014年的“威诺格拉德模式挑战赛”针对图灵测试进行改进,要求人工智能回答关于语句理解的一些常识性问题。
比如挑战赛中,有这么一道测试题“市议员们拒绝示威者的游行许可,因为他们害怕暴力”,普通人类一眼望去,就会根据上下文判断出这句话清晰的逻辑,然而对于计算机来说,就很难弄清楚这里的“他们”指的是谁,是市议员们呢?还是示威者呢?
一个典型的“威诺格拉德模式挑战赛”的题面包括以下几个关键部分:
首先,具有同类语义的两个名词(本题里指的是:市议员们和示威者 )
第二,有一个指代以上两个名词的模糊代词(本题里指的是:他们)
第三,有一个特别的单词,当这个单词被换成另外一个单词时,那么模糊代词的意义就会改变(本题里,如果把“害怕”换成“主张”,那么句子里的“他们”的意思就会发生改变)
然后,计算机需要回答的问题就是:这个具有模糊含义的代词指的是什么,并给出两个选项让计算机选择。所以计算机面临的就是一个二选一的问题。
按统计过的概率来说,就算胡乱选择,答对题目的准确率是45%,然而这次计算机真实的比赛结果是:最好的成绩是48%。所以,计算机经过谨慎的“思考”得出的准确率,比人蒙着眼睛随便选的准确率才高出那么一点点,这不得不令人唏嘘。
成绩最好的两支队伍,一个由来自中国科学技术大学的刘权带领,另一支队伍由塞浦路斯开放大学的Nicos Issak带领。
这个挑战赛的奖金高达25,000美金,但是要拿到这个奖金,准确率必须要达到90%以上。所以就算是成绩最好的两个队伍也与奖金无缘了。
本次竞赛的顾问之一,纽约大学的心理学家 Gary Marcus说:“机器的成绩只比随机选择好一点点,这并不出乎我的预料。”那是因为,赋予计算机以常识极其困难。手动编码输入这些知识需要花费的时间不可想象,而且用数据统计的方法来学习真实世界的知识对于计算机来说也十分困难。这次挑战赛的很多计算机,都是试图将手动编码的语法理解与基本的现实知识相结合。
另外,人们明显发现,谷歌和Facebook并没有参加这次的活动,而这些公司的研究人员已经多次暗示了他们在自然语言理解方面已经取得了非常大的进展。“这两家公司本可以随意跳着华尔兹进场,并取得100%正确率的成绩,再得意地向世人炫耀。但如果是那样的结果的话,我也会非常震惊的。”Marcus说道。
谷歌、Facebook、亚马逊和微软这些大公司的研究人员正在将他们的注意力转向自然语言理解。他们使用最新的机器学习方法,尤其是“深度学习”神经网络来开发更加聪明、更加敏锐的聊天机器人和个人助手。实际上,随着聊天机器人和语音助理变得越来越普遍,伴随着在图像和语言识别领域取得的巨大进展,人们很容易产生机器在理解语言方面已经十分厉害的错觉。然而真实的情况并不令人乐观,至少这次比赛的结果并不令人满意。
本次竞赛最优秀的两支队伍都使用了最前沿的机器学习方法。刘权的队伍,囊括了来自多伦多纽约大学和加拿大国家研究院诸多的研究人员,使用深度学习来训练计算机识别两次事件之间的关系,例如,从几千篇文章里学习“打篮球”、“游泳”和“受伤”之间的关系。赛后,刘权的队伍声称在修补系统解析竞赛问题的一个漏洞之后,准确率可以达到60%,而来自主办方的 Leora Morgenstern表示,就算这一结果被证实,仍然比人类的准确率低很多。
这次竞赛结果透露出来的讯息非常重要。“当人工智能开始支持对话的时候,这些问题就会暴露出来。比如,如果购物的时候我说,‘我想要给我的吉他买一个箱子,所以它必须得很结实’,那这里的‘它’指的是箱子呢,还是吉他呢?”,Charlie Ortiz说道,他是Nuance公司的高级研究员,这家公司专门从事语音识别软件、图像处理软件的研发和销售工作。
随着智能家居设备和可穿戴产品会变得越来越普遍,常识推理将会变得越来越重要。Marcus说道:”当你询问自己的手表时,你不希望这时它提供50个选项,让你滑动屏幕进行选择。而当你开始与你的车和手表展开对话时,你希望免去打字的繁琐,得到一系列有内在联系的交流对话,人们会很自然地反复提及之前说到的内容,就会经常出现模糊指代,而这就是计算机亟待解决的问题。“
让计算机理解我们,还有很长的一段路要走。