“Sim2Real”是描述人工智能创造过程的一种方式,其中机器学习模型被教导在虚拟环境或模拟中做什么,然后在现实世界中应用这些知识。当需要多年的试验和错误才能得出一个有效的模型时,这是很有必要的--在模拟中进行,可以在几分钟或几小时内完成多年的实时训练。
但是,在模拟中做一些事情并不总是可能的;例如,如果一个机器人需要与人互动呢?这不是那么容易模拟的,所以你需要真实世界的数据来开始。你最终会遇到一个鸡和蛋的问题:你没有人类的数据,因为你需要它来制造人类将与之互动的机器人,并首先产生这些数据。
Google的研究人员通过简单的开始和制造一个反馈回路来解决这个难题。
[i-Sim2Real]使用一个简单的人类行为模型作为近似的起点,在模拟训练和在现实世界中部署之间交替进行。在每次迭代中,人类行为模型和政策都会得到完善。
从人类行为的近似值开始是可以的,因为机器人也只是刚刚开始学习。每场比赛都会收集到更多真实的人类数据,从而提高准确性,让人工智能学习更多。
这种方法足够成功,该团队的乒乓球机器人已能够连续对打340次。
它还能够将球送回不同的区域,当然不是准确的数学精度,但是好到可以开始执行策略。
该团队还尝试了一种不同的方法,以实现更多的目标行为,比如从不同的位置将球返回到一个非常具体的地方。同样,这并不是要创造终极乒乓球机(尽管这很可能是一个结果),而是要找到有效训练人类互动的方法,而不是让人们重复成千上万次的相同动作。