再现动物的多样化和敏捷性运动技能一直是
机器人技术中的长期挑战。
在过去尽管手动设计的控制器已经能够模拟许多复杂的行为,但是构建这样的控制器涉及耗时且困难的开发过程,常常需要掌握每种技能的细微差别的大量专业知识。强化学习为自动化控制器开发中涉及的人工工作提供了一种颇具吸引力的选择,但是,设计能够从第三方行为中引发所需行为的学习目标,也可能需要大量专门技能。
但谷歌最近的一个
视频中展现了一种新的可能。前段时间谷歌AI实验室的一组研究人员正在努力开发四足的像狗一样的机器人,该机器人的成果已经得到了证明,该机器人通过研究真正的狗如何运动来学习狗的行为。该团队已在Google AI博客上发布了他们正在做的工作的大纲。
谷歌AI博客本周发表的文章写道,其研究人员开发出一种人工智能系统,可以从动物的动作中学习,从而赋予机器人更大的灵活性。研究人员认为他们的方法可以促进机器人的发展,这些机器人可以完成现实世界中的任务,比如在多层仓库和配送中心之间运输物品。
通过模仿生物的动作来训练机器人来执行任务并不是什么新鲜事,例如,建造汽车的机器人手臂被教导如何模仿人类手臂的预期动作来点焊或拧紧螺栓。但是通过向
机器人展示真实的狗的
视频来教机器人绝对是全新的想法,而这就是Google前段时间所做的研究。
在这项工作中,他们提供了一个模仿学习系统,使有腿机器人可以通过模仿真实世界的动物来学习敏捷的运动技能。证明了通过利用参考运动数据,一种基于学习的方法能够自动综合控制器,以解决腿式机器人的各种指令库行为。通过将有效的领域自适应样本技术整合到训练过程中,谷歌的这套系统能够学习模拟中的自适应策略,然后可以快速将其用于实际部署。为了证明其系统的有效性,他们训练了一个18自由度的四足机器人来执行各种敏捷行为,包括从不同的运动步态到动态的跳跃和转弯。
在他们的研究放出的视频中,该机器人是一只名为Laikago的四足动物,名字来源是紧随Laika之后的(它是太空中的第一只狗),谷歌的研究人员通过向机器人展示真实狗的运动捕捉画面,训练它像真正的狗一样走路,奔跑,行动、甚至是像真的狗一样追逐它自己的尾巴。该团队的框架采用动物(本案例中是一条狗)的动作捕捉片段,并使用强化学习(reinforcement learning)来训练控制策略。为系统提供不同的参考动作,使得研究人员能够“教”一个四足的Unitree Laikago机器人完成一系列动作,比如从快走(以每小时2.6英里的速度)到跳跃或转弯。
为了验证他们的方法,研究人员首先收集了一组真实狗狗的各种技能数据。(训练主要是在物理模拟中进行的,因此可以密切跟踪参考运动的姿态)。然后,通过在奖励函数中使用不同的动作(该函数描述了行为者应该如何表现),研究人员使用了大约2亿个样本来训练一个模拟机器人模仿动作技能。
但是模拟器通常只能提供对真实世界的粗略近似。为了解决这个问题,研究人员采用了一种适应性技术,通过改变机器人的质量和摩擦等物理量来随机化模拟中的动力学。这些值是用编码器映射到一个数字表示(即编码)作为输入传递给机器人控制策略。当将该策略部署到一个真实的机器人上时,研究人员删除了编码器,并搜索出一组允许机器人成功执行技能的变量。
但视频实际上首先是由AI系统进行处理的,该系统会将视频中的动作转换为Laikago的动画版本。为了找出可能的解释错误,该团队向AI系统显示了一只真实狗在行动的多个定格视频(因为数字狗是由金属,电线和马达而不是骨头,肌肉和肌腱制成的)。AI系统根据现实世界中可能遇到的场景,建立可能动作的工具集。一旦模拟建立了知识库,就将其“大脑”上载到Laikago,然后Laikago将模拟中学到的知识作为自己行为的起点。
行动中的Laikago视频显示,该技术确实行之有效。
但该团队表示,他们能够在大约50次试验中,利用不到8分钟的真实数据,使一项策略适应现实世界。此外,他们还演示了现实世界中的机器人学会了模仿狗的各种动作,包括踱步和小跑,以及动画中的关键帧动作,如动态跳跃转弯。
论文作者写道:“我们证明,通过利用参考运动数据,一种单一的基于学习的方法能够为腿式机器人的各种行为自动合成控制器。”“通过将高效样本的领域适应技术整合到训练过程中,我们的系统能够在模拟中学习适应策略,然后能够快速适应现实世界的部署。”
机器狗能够像真正的狗一样走路和行走,甚至模拟了追逐它的尾巴,但是,与其他先进的机器人动物(例如,来自Boston Dynamics的那些动物)相比,它也有一些不足之处,因为这些动物只是通过随机编程来获得技能,灵活性远远不够,控制策略也并不完美——由于算法和硬件的限制,它不能学习高度动态的行为,如大的跳跃和行为,也不像最好的手动设计的控制器那样稳定。例如,机器狗跌跌撞撞或绊倒后重新站起来仍然很麻烦。
但是Google的研究人员并不畏惧,他们相信更多的研究将使他们的机器人带来越来越逼真的行为。研究人员将继续改进控制器的鲁棒性,并开发能够从其他运动数据来源(如视频剪辑)学习的框架。