OpenAI的专家进行了一个实验,他们让一些软件机器人完成一系列任务,如移动到简单二维虚拟世界中某个特定的位置。而且,他们使用增强学习技术让软件机器人以合作而非竞争的形式来完成挑战,并向那些完成任务的机器人提供奖励。
OpenAI团队在博客上写道:“在实验中,我们将人工智能机器人放入一个简单的世界中,教它们创造一种语言,赋予它们交流能力,接着让它们通过与其他机器人交流来完成任务。如果它们完成某个任务,会获得奖励。”
研究结果表明,机器人会通过不断试错,记住那些能帮助它们完成某一任务的符号、单词和信号,并将这些信息存储在自己的循环神经网络中,从而学会了彼此合作和交流。
研究人员指出:“如果某个机器人意识到,第二个机器人发送其他信息,可以帮它更好地完成任务,那么这个机器人会准确地告诉第二个机器人如何修改信息来使得这些信息尽可能有用。”换句话说,这些机器人是在问,怎样改进自己的“语言”才能得到最多的集体奖励。
随着研究人员提出的任务不断加码,语言也不断进化,最终,机器人学会了通过用不同的单词组成句子彼此交流,从而协同工作。
由于语言持续不断地发展并变得越来越复杂,研究人员希望建造出一台翻译机器人,向人类翻译它们彼此之间的交流。