近年来,研究人员一直在尝试开能发使
机器人学习新技能的方法。一种选择是让机器人从人类那里学习这些新技能,在不确定如何操作时从人类用户的反应中学习。
斯坦福大学的研究团队最近开发了另一种用户友好的主动奖励学习方法,可通过让人类用户回答他们的问题来训练机器人。在arXiv上预发表的一篇论文中提出的这种新方法可以训练机器人主动提出一些问题,这些问题对于人类用户来说很容易回答,并且不是多余或不必要的,但对于机器人来说这使得他们学习。
研究人员通过电子邮件告诉记者:“我们的团队对机器人如何学习人类想要的东西很感兴趣。” “一种直观的学习方式是通过提问。例如,您宁愿谨慎驾驶还是主动驾驶自动驾驶汽车?这种自动驾驶汽车应该在人类驾驶的汽车之前还是之后合并?”这项最新研究背后的主要假设是,理想情况下,机器人应该问一些有益的问题,以从人类用户那里获取尽可能多的信息。换句话说,高学习能力的机器人应该能够通过问尽可能少的问题,来理解人类的需求或想要他们做什么。
但是,实际上,大多数基于问题回答的现有培训方法,都没有考虑人类用户回答机器人提出的特定问题有多么容易。这通常会导致用户浪费时间来回答大量不必要的问题或无法确定地进行响应。
研究人员说:“我们发现大多数最先进的算法都显示出(几乎)无法区分的人类替代方案,从而使人们无法正确回答机器人的问题。” “以我们的示例为例,这些方法可能会问:“您是否希望以29 mph或31 mph的速度在人工驾驶汽车前合并?”这对于机器人决定是否在人们希望时速超过30英里/小时,但这种选择(对于人来说)太接近了,人们无法可靠地做出响应。”
为了克服现有主动学习方法的局限性,研究人员开发了一种算法,可以选择更有效的问题来询问用户。该算法确定的问题最大程度地减少了机器人对人类用户偏好的不确定性(即,使信息获取最大化),同时还考虑了人类用户回答这些问题的难易程度。
研究人员说:“受先前工作的缺点的启发,当我们开发这种算法时,我们专注于考虑人类实际回答机器人提出的问题的能力。” “这是基于这样的思想,即只有负责人类回答能力的机器Kaiyun官方网站app登录 能准确,高效地学习人类的需求。”
研究人员通过测量熵的减少(即不确定性的量度)来计算信息增益,该熵的减少是根据机器人提出的问题对人类用户的偏好进行的。换句话说,最大化信息增益的问题将最大程度地减少机器人对人类用户的喜好有什么不确定性。这为机器人提供了一个正式的目标,他们可以用来选择最有用的问题。
“信息增益的一个很好的特点是它固有地最大化了机器人的不确定性(这样机器人就可以从这个问题中学到很多东西),同时也使人类的不确定性最小化(这样,这个问题对人类来说是容易回答的)。使用信息增益生成问题,从而提高主动学习,不仅是因为问题是最大的信息,但也因为人类提供更少的错误反应。
研究人员设计的方法贪婪地选择在每一个时间步长最大化信息增益的问题。从本质上讲,机器人对与之交互的用户的偏好保持一种信念(即概率分布),并从这种信念和可能的问题空间中获取样本。
最终,机器人选择的问题是,在当前可能的人类偏好分布中,提供最多的信息增益。随后,它会根据收到的答案更新用户想要什么的答案。这个过程不断重复,让机器人通过学习用户的偏好逐渐提高性能。
图片来源:
Bıyık等
研究人员说:“我们制定了一种计算简便的方法,可以让我们快速发现人类对真实机器人任务的偏好,优于以往的方法。”在我们的研究中,用户更喜欢我们的方法,而不是其他最先进的技术。”
在他们的研究中,斯坦福大学的团队表明,训练机器人提问最大化信息增益与最先进的方法具有相同的计算复杂性。换句话说,与其他方法产生的问题相比,机器人发现这些信息性问题并不难。
最终,机器人选择了在可能的人类偏好的当前分布范围内提供最大信息收益的问题。随后,它根据收到的答案更新对用户想要的信念。该过程不断重复进行,从而使机器人可以通过了解用户的偏好来逐渐提高其性能。
研究人员说:“我们还指出,我们的方法具有一些理想的数学特性,例如亚模量,这使我们能够采用为先前方法开发的扩展和理论界限,并将其与我们的方法一起使用。” “例如,我们可以使用先前的著作来一次查找多个信息性问题,而不是一次搜索一个问题。”
该团队通过一系列模拟评估了他们的主动奖励学习方法,发现该方法使机器人能够比其他最新方法更快,更准确地掌握人类的喜好。在人们可以正确回答难题或回答为“我不知道”的情况下,也是如此。
研究人员还进行了一项用户研究,其中要求人类参与者回答由他们的方法产生的问题,以及使用其他最新方法产生的其他问题。他们收集的反馈表明,人们发现用他们的方法所产生的问题要容易回答得多。另外,用户通常认为使用新方法的机器人比以前提出的方法更能准确地表达自己的偏好。
研究人员说:“综合考虑我们所有的贡献,我们朝着使机器人能够确定人的偏好迈出了一步。” “我们证明了我们最初希望机器人最大化的真正目标——提出问题以获取尽可能多的信息,这可以用与现有方法相同的计算复杂性来解决。”
将来,由这组研究人员开发的主动奖励学习技术可以帮助更有效地训练机器人,使它们更符合用户的喜好。此外,它还可用于教机器人问人类可以轻松理解和回答的问题。在未来的研究中,研究人员还希望研究训练机器人的方法,以对其动作进行有用的解释。
研究人员说:“我们对机器人感到兴奋,它们不仅能提出好问题,还能解释为什么会提出这些问题。”我们设想这样一个场景:一辆自动驾驶汽车将人类两种不同的合并方案可视化,然后说明它之所以询问这些方案,是因为现在正是交通高峰时间,它想确定自己的行为是否应该更积极。”