人工智能正以多种方式进入我们的生活——手机智能助手帮助我们完成一系列基础任务,智能家电能自动打扫我们的房屋,地图导航指挥着我们该驶向何方。
在未来的几年中,无论是在家中还是在其他环境中,机器人都可以通过多种方式为人类用户提供帮助。为了更直观,机器人应该能够遵循自然语言的命令和说明,因为这使用户可以像与其他人一样与他们进行通信。
可解释性AI(XAI)是人工智能研究的一个分支,它的关注点在于如何提升人工智能之于人类的可信任度。要实现机器人和人一起和谐工作的愿景,可信度发挥着至关重要的作用。XAI便致力于开发让人类感觉值得信赖的人工智能系统,以促进它们更好地融入人类社会。
考虑到这一点,麻省理工学院的大脑、思维和机器中心的研究人员最近开发了一种基于采样的机器人计划程序,可以训练该程序来理解自然语言命令的序列。他们开发的系统发表在arXiv上预先发表的一篇论文中,该系统将深度神经网络与基于采样的计划程序结合在一起。
进行这项研究的研究人员之一安德烈·巴布(Andrei Barbu)表示:“出于安全考虑,并且因为语言是询问您想要的东西的最便捷界面,确保我们家中的未来机器人能够理解我们是非常重要的。” “我们的工作结合了三方面的研究:机器人计划,深度网络以及我们自己的机器如何理解语言的工作。总体目标是仅给机器人提供一些句子含义的示例,并使其遵循新的命令,从未听过的新句子。”
Barbu和他的同事进行的这项研究的深远目标是更好地理解肢体语言交流。实际上,虽然现在已经很好地理解了语音交流背后的功能和机制,但大多数在动物和人类之间进行的交流都是非语言的。更好地理解肢体语言可能会导致开发更有效的机器人与人之间交流的策略。因此,麻省理工学院的研究人员一直在探索将句子翻译成机器人动作的可能性,反之亦然。他们最近的研究是朝这个方向迈出的第一步。
进行这项研究的另一位研究员郭延龄(Yen-Ling Kuo)表示:“机器人规划人员在探索机器人可以做什么然后让机器人执行动作方面非常了不起。” “我们的作品需要一个句子,将其分解成小块,这些小块被翻译成小的网络,然后重新组合在一起。”
就像语言是由可以按照语法规则组合成句子的单词组成的一样,由Barbu,Kuo和他们的同事Boris Katz开发的网络由经过培训的,可以理解单个概念的较小网络组成。当组合在一起时,这些规则网络可以发现并代表整个句子的含义。
图片来源:Kuo,Katz和Barbu
无独有偶,加州大学洛杉矶分校的研究团队最近也在尝试让机器人向人类用户解释它的行动的内容和目标,并证明这么做是有效的。有趣的是,可信赖度最高的智能自我解释形式,与性能最佳的学习算法并不对应。可见,机器人的XAI能力并不相同——我们不能只单独优化它的性能或自我解释的能力。这要求在设计机器人的过程中既要考虑良好的性能,又要考虑到可信赖度高的自我解释形式。
用户演示、机器学习、任务表现和解释能力的关系图
机器人如何才能做到最高效率地执行用户指定的任务?用户又应如何回应机器人的自我解释行为呢?为了回答这两个问题,加州大学洛杉矶分校的研究团队决定做一个实验,他们尝试让机器人学习如何拧开药瓶的瓶盖。实验中,一个研究人员戴着一个有触觉记忆系统的手套,当他打开瓶子时,手套会记录下人手的姿势和力量。这能帮助机器人通过象征性信息和触觉信息来了解人类的行为。
象征性信息是指有意义的行为动作,比如抓取的动作。触觉信息指的是与身体姿势和动作相关的感觉,例如手指合拢的感觉信息。机器人在吸收了象征性信息后,会对完成打开瓶子的任务所需的步骤序列进行编码。在接触触觉信息后,机器人将形成一种触觉模型,该模型帮助机器人“想象”着自己处于人类用户的视角,并试着预测人类在这种场合会采取什么行动。
事实证明,当把象征性信息和触觉信息结合在一起输入系统时,机器人能够达到自身的最佳性能。与单独分开输入这两种信息相比,同时获得这两种信息的机器人在依照步骤来执行任务和通过夹持器进行实时感知方面表现得更好。也就是说,要让机器人高效率地执行任务,共同输入这两项信息是必不可少的。
象征性信息的总结和语法符号推导过程示意图
而MIT研究人员开发的新型机器人计划器,则更为深入的阐述了这一实验原理,它具有两个关键组成部分。第一个是递归的分层深度神经网络,它控制计划者如何探索周围的环境,同时还预测何时计划的路径很可能实现给定的目标,并分别估计机器人可能进行的每个动作的有效性。第二个是经常在机器人技术研究中使用的基于采样的计划程序,称为快速探索随机树(RRT)。
MIT团队的Barbu解释说:“我们计划人员的主要优势在于,它几乎不需要培训数据。” “如果你想教一个机器人,你不会在家中给它提供数以千计的例子,但是有几个例子是非常合理的。训练机器人应该采取与训练狗一样的动作。”
尽管过去的研究还探索了通过口头命令引导机器人的方法,但其中介绍的技术通常仅适用于离散环境,在这种环境中,机器人只能执行有限的动作。另一方面,研究人员开发的计划程序可以支持与周围环境的各种交互,即使它们涉及到机器人从未遇到过的物体。
对此,加州大学洛杉矶分校研究人员考虑的是,既然机器人能够理解自己要做的任务,它又该怎么向人类用户解释它的行为呢?这种自我解释真的能促进人类对机器人的信任吗?因此在他们的实验中,团队为人类添加了自我解释的流程:在机器人完成打开药瓶的任务后,它需用文本记录的形式提供了一个任务执行总结。团队邀请了150名参与者,分成五组,观察机器人执行打开药瓶的任务的过程。
任务完成后,机器人给其中四组提供不同的任务解释——基于象征性信息的解释文本能详细说明每个步骤的动作内容,基于触觉信息的解释文本则着重于说明机械手臂夹持的位置和姿势,总结性的解释文本则将象征性信息和触觉信息结合在一起,而第五组的参与者只能观看机器人开瓶子的视频,没有得到任何文本反馈。
A)解释面板实物;B)象征性解释文本;C)触觉说明文本;D)文字说明总结
MIT团队发现,同时提供象征性和触觉信息的文本解释最能培养机器人与人类之间的信任。有趣的是,完全基于触觉信息的解释文本在增强人机之间的信赖感方面并无贡献,这表明人类更喜欢机器人逐步解释它们工作的内容。
MIT的Kuo对此的解释是:“当我们的网络混乱时,计划者需要负责接管工作,弄清楚该怎么做,然后网络下次可以接手该做什么时就可以接管。” “我们的模型是由零件组成的,这也赋予了它另一个令人希望的特性:可解释性。”
当他们无法完成给定的任务时,许多现有的机器学习模型将无法提供有关出了什么问题以及遇到的问题的信息。这使得开发人员更难识别模型的缺点并有针对性地更改其架构。另一方面,由Barbu,Kuo和Katz创建的机器人计划器的深度学习组件逐步展示了其推理能力,阐明了所处理的每个单词传达的关于世界的信息以及它如何将分析结果结合在一起。这使研究人员能够找出导致其过去无法成功完成给定操作的问题,并进行体系结构更改以确保其在将来的尝试中能够成功。
Barbu说:“我们对机器人可以在很少的人类帮助下快速学习语言并快速学习新单词的观点感到非常兴奋。” “通常,深度学习被认为是非常耗费数据的;这项工作强化了这样一种观念,即当您建立正确的原则(组成性)并让代理执行有意义的动作时,他们不需要那么多的数据。”
MIT研究人员通过一系列实验评估了规划器的性能,同时还将其性能与现有RRT模型的性能进行了比较。在这些测试中,计划人员成功地获取了单词的含义,并使用所学的知识来表示以前从未遇到过的句子序列,其表现优于与之相比的所有模型。
将来,由这组研究人员开发的模型可以为能够更有效地处理和遵循自然语言命令的机器人的开发提供信息。目前,他们的计划者允许机器人处理和执行简单的指令,例如“捡起桌子上的盘子”,但仍无法捕捉到更复杂的指令的含义,例如“当玩具落在盘子上时捡起娃娃”地板并清洁它。因此,MIT的Barbu,Kuo和Katz目前正在尝试扩大机器人可以理解的句子范围。
Kuo说:“我们的长期未来目标是探索逆向计划的思想。” “这意味着,如果我们可以将语言转变为机器人动作,那么我们也可以观察动作并询问机器人'当他们这样做时,人们在想什么?” 我们希望这将成为解锁机器人肢体语言的关键。”
这两项研究最有趣的结果是,机器人的良好性能与让它们博取人类信任的因素是完全不同的。这也突显了未来人工智能和机器人研究领域的重要目标:专注于追求机器性能和自我解释能力,而不厚己薄彼。
XAI能力并非两个可以实现互补的因素,因此在构建AI系统时,两者都是需要着重考虑的首要目标。这项工作也是系统研究人机关系发展前景的关键环节,若研究人员能从中得出具有突破性的成就,那么,未来研究中更具挑战性的一环将是从“我相信机器人做X”到“我相信机器人”。
机器人要想在人们的日常生活中占有一席之地,必须先获得人类的信任。了解机器人如何提供有助于增进人类的信赖度的自我解释文本,是使人类和机器人能够共同工作、和睦相处的重要一步。