你知道在机器人研究中什么最无聊和乏味吗?当然是训练它们抓取不同的物品。现在有了 AI,研究人员再也不用看着这些“傻孩子”学习了,在自监督学习模式下,机器人会通过不同的方式不断尝试抓取物品。不过,这一过程可能要花费数千小时,而且即使机器人大致掌握了抓取的技巧,它也很难理解什么才是最棒的抓取方式。
这种训练方式的问题在于,大多数时间这些技术都在利用最基本的传感器来看待抓取的动作,这样的视角过于二元化,它们只在乎机器人是否拿起了目标物体,只要拿起来就算成功。不过,在现实世界中抓取是否成功可不是这个标准,因为不稳定的抓取会让物体坠落的可能性增大。此外,如果让机器人抓起一个盛了汤的碗,现有的粗暴抓取法肯定不可取,毕竟现实世界不是实验室。
出于这一考虑,CMU 和谷歌的研究人员决定将博弈论和深度学习用在机器人的训练中,而他们用到的方法就是开头提到的“捣乱法”,一台机器人会想方设法让对手无法抓起目标物体。
上周,该项目参与者 Lerrel Pinto、James Davidson 和 Abhinav Gupta 在 ICRA 展示了他们的研究成果,研究人员将这种对抗的方法描述为“双人零和重复博弈法”(零和博弈来自著名的博弈论)。在互相“拆台”的战斗中,双方都用到了卷积神经网络,一方会专注于抓取物品,另一方则要阻止对方抓取物品。
在训练中,一心要抓取物品的机器人不但要躲过对方不断袭来的“黑手”,还要处理重力、惯性和摩擦力等因素带来的影响。如果想进一步提升机器人的抓取能力,还可设定抓到物品机械臂就会摇晃几下的坏招(希望抓娃娃机老板不要学会这一招)。这样一来,加上另一只不停捣乱想要抢夺物品的机械臂,机器人的抓取能力就能提升到新的境界。
如果捣乱的机械臂成功打掉或抢走负责抓取机械臂手中的物品,那么这次抓取任务就算失败,在训练过程中抓取程序会不断从失败中吸取教训。与此同时,负责捣乱的程序则会从成功中找到新的法门,两者会在“嬉戏打闹”中共同进步。这也是该项目具有重大现实意义的原因,机器人要想走出实验室,必须保证能在挑战不断的环境中不犯错。
一台机器人试图从对手那里夺下抓取的物品
研究人员表示,他们的对抗策略确实能加快机器人的训练进程,这种方法培养的系统更加强大。经过测试,三次迭代后,其抓取成功率从 43% 升到了 58%,而没有采用对抗策略训练的机器人,抓取成功率仅为 47%。
该结果可以清楚的表明,有个给机器人“拆台”的伙伴监督和陪练,作用可比傻乎乎的搜集抓取数据大多了。雷锋网注意到,研究人员公布的测试数据显示,6 千次的陪练后,机器人的抓取成功率比机器人自己单练 1.6 万次都要高。因此,对抗策略在机器人训练中明显更有优势。
经过一段时间的训练后,有陪练的机器人抓取成功率提升到了 82%,而没有这个待遇的机器人成功率仅为 68%。更令人惊讶的是,即使降低抓取机器人的力量和抓手的摩擦力,其成功率依然有 65%,而采用单练策略的机器人则下滑至 47%。
在这一过程中,研究人员也使尽了自己“一肚子坏水”,他们专门观摩了单练机器人容易失误的地方,并将这些破绽编入了捣乱机器人的程序中。同时,在训练中捣乱机器人不断的抢夺也是物品掉落的重要因素。当然,只有经历了这样的魔鬼训练,抓取机器Kaiyun官方网站app登录 能练出一身技艺。