4000多个类似狗狗的机器人浩浩荡荡地向前行进的场景,即使是在模拟中也会给人带来隐约的威胁感觉。但这可能会为机器学习新技巧指明方向。这个虚拟机器人军团是由瑞士苏黎世联邦理工学院和英伟达的研究人员共同开发的,他们使用漫游的机器人训练一种算法,然后该算法被用来控制现实世界中机器人的腿。
在模拟中,这些ANYmals机器面临着重重挑战,比如虚拟景观中的斜坡、台阶和陡峭山坡。每次机器人成功克服挑战后,它们会“晋级”挑战更困难的关口,进而推动控制算法变得更加复杂。在训练期间,机器人能够很容易地掌握上下楼梯的技能,但克服更复杂的障碍物需要更长时间。应对斜坡被证明特别困难,尽管有些虚拟机器人学会了如何滑下斜坡。
当最终的算法被转移到真实版本的ANYmal上时,它能够在楼梯和街区之间导航,但在更高的速度下遇到了问题。ANYmal是四条腿的机器人,体型与狗狗大小相当,头上有传感器,还有个可拆卸的机械臂。研究人员将其归咎于传感器感知真实世界的方式与模拟相比不够准确。
类似的训练可以帮助机器人学习各种有用的技能,从分拣包裹、缝纫衣服到收割庄稼等。该项目还反映了模拟和定制计算机芯片对应用人工智能(AI)未来发展的重要性。
加州大学伯克利分校教授、CoVariant联合创始人皮特·阿贝尔(Pieterabbeel)表示:“从更高的层面上讲,快速模拟真的是很棒的事情。”CoVariant是一家利用AI和模拟技术训练机器人手臂为物流公司挑选和分拣物品的公司。他说,瑞士苏黎世联邦理工学院和英伟达的研究人员“获得了不错的提速。”
AI在训练机器人完成真实世界的任务方面表现出了巨大潜力,这些任务不容易写入软件,或者需要某种形式的适应。例如,抓取笨拙、易滑或不熟悉的对象的能力,就不太可能被写到代码中。
4000个模拟机器人接受了强化学习的训练,这是一种AI方法,灵感来自于对动物如何通过正反馈和负反馈学习的研究。当机器人移动它们的腿时,一个算法会判断这对它们行走能力的影响,并相应地调整控制算法。
这些模拟运行在英伟达的专用AI芯片上,而不是计算机和服务器中使用的通用芯片上。因此,研究人员说,他们能够在不到通常所需时间的百分之一时间内训练机器人。
使用专门的芯片也带来了挑战,因为英伟达的芯片擅长渲染图形和运行神经网络的关键计算,但它们不太适合模拟物理特性,如攀登和滑动。因此,研究人员不得不想出些聪明的软件变通办法,英伟达负责模拟技术的副总裁雷夫·勒巴雷迪安(Rev Lebardian)说:“我们花了很长时间才把事情做好。”
模拟、AI和专用芯片有可能推进机器人智能提升。英伟达已经开发了软件工具,使使用其芯片模拟和控制开云电竞官网下载app变得更容易。该公司还在西雅图建立了一个机器人研究实验室,同时还销售用于自动驾驶汽车的芯片和软件。
开发3D视频游戏软件的Unity Technologies公司,也涉足开发适合机器人专家使用的软件。该公司负责AI业务的高级副总裁丹尼·兰格(Danny Lange)表示,Unity Technologies注意到有很多研究人员在使用其软件进行模拟,因此他们让它更逼真,并与其他机器人软件兼容。Unity Technologies目前正在与瑞典Algoryx公司合作,该公司正在测试强化学习和模拟是否可以训练林业机器人拾取原木。
强化学习已经存在了几十年,但由于其他技术的进步,最近已经产生了许多值得关注AI里程碑。2015年,强化学习被用来训练一台计算机下围棋,最近它已投入实际应用,执行包括需要经验和判断力的芯片设计自动化工作。问题是,这种学习方式需要大量的时间和数据支持。
例如,Open AI公司花了14天多的时间,通过强化学习,在多个CPU同时运行的情况下,训练一只机械手以粗糙的方式操作魔方。每次机器人接受再培训都要等待两周,这可能会打消企业使用机器人的积极性。早期用强化学习训练机器人的努力将这个过程分散到几个现实世界的机器人上,物理模拟的改进使在虚拟环境中加速学习成为可能。
麻省理工学院的学生安德鲁·斯皮尔伯格(Andrew Spielberg)说,这项新工作“对终端用户来说非常令人兴奋”,他曾使用类似的模拟方法为机器人提供新的物理设计。他指出,谷歌的一个研究小组已经做了相关工作,通过将机器人拆分并在该公司定制的张量处理单元芯片上运行,加快了机器人的学习速度。
塔利·福特(Tully Foote)在开放机器人基金会(Open Robotics Foundation)管理着广泛使用的开源机器人操作系统。他说,模拟对商业用户来说越来越重要,“在部署到硬件之前,在现实场景中验证软件可以节省大量的时间和金钱”。它可以比实时运行得更快,永远不会损坏机器人。如果出现错误,它可以立即自动重置。
但福特补充说,将机器人学习转移到现实世界中要具有更大的挑战性。他说:“现实世界中的不确定性要多得多,污垢、光线、天气、硬件不均匀以及磨损等,这些都需要追踪。”
英伟达副总裁勒巴雷迪安表示,用于训练行走机器人的那种模拟最终可能也会影响到相关算法的设计。他说:“虚拟世界几乎对一切都有价值,但其中最重要的一项肯定是为我们想要创造的AI构建游乐场或训练场。” (腾讯科技审校/金鹿)