开发能展现出代理间合作和沟通的AI十分重要。流行桌面游戏《外交》为此类行为提供了有用的测试平台,它包含玩家之间复杂的沟通、谈判和形成同盟,而AI一直很难达成这些。要赢得游戏,《外交》需要推断在场玩家的未来计划、玩家间的承诺,和他们的诚实合作。过去的“AI代理”在单个玩家或两个竞争性玩家的游戏中取得过成功,其中玩家之间没有交流。
英国“深度思维”研究团队此次设计了一种深度强化学习方法,让代理可以协商同盟、共同制定计划。研究人员创造出了模拟玩家的代理,形成团队,尝试胜过其他队伍的策略。通过预测可能的未来游戏状态,这一学习算法允许代理对未来行动达成一致,识别有益交易。为接近人类水平的表现,他们还通过检验一些代理间承诺破裂的场景(代理背离了过去的协议),调查了诚实合作的条件。
这些成果有助于“AI代理”形成灵活沟通机制,使其能根据环境调整策略。此外,这些发现还表明,对违反协议的同伴的制裁倾向会大大降低这类违反者的优势,有助于形成大多可信的交流,尽管情况最初更有利于违反协议者。
我们现在也常会跟AI打交道。它热情洋溢、语调轻快地推销商品,介绍活动,提供售后服务。不过,通常情况下我们很快就能发现电话那头的是AI。它很难灵活变通,也回答不了超出设置之外的问题。在“深度思维”公司的这项研究中,AI已经能上谈判桌了。它们不仅会审时度势,还会合纵连横,并惩罚谈判上的不可信者。当然,人类不可能放心直接让AI谈判,但这类尝试可以让AI形成灵活沟通机制,从而增进它们在其他许多领域的表现。