相关研究报告已经发表在国际性科学杂志《新科学家(New Scientist)》中,DOI:10.1126/science.add4679。
这项研究的学者表示,它代表了一种“非同寻常的结果”,因为Stratego圈内人士认为“这是用现代技术所无法实现的”。
在Stratego中,每个玩家控制40个不同等级的棋子在10×10方格的棋盘上进行博弈。如果双方在棋盘上遭遇,排名更高的棋子将击败排名较低的棋子,但你看不到对方棋子的身份,但这一点就可能造成无数的“意外”,而这并不是穷举法可以简单破解的。
简单来说,Stratego就是一款类似军旗的策略型棋盘游戏,其规则简单到可以供幼儿玩耍,但其策略之深度是成年人也难以吃透的。从“策略”角度来看,Stratego这种战棋要比国际象棋、围棋或扑克牌有着更多的变数,难度系数也更高。
DeepMind研究者Julien Perolat表示,“对我们来说,它最令人意外的行为是[AI]能够牺牲具有价值的棋子来获取有关对手所制定策略的信息”。
多年来,Stratego一直作为AI研究的下一个前沿领域之一进行攻关,旨在测试AI能否如同人类一般做出相对激进、谨慎,或是布局长远的行为,归根结底还是考察AI对于游戏逻辑的判断和临场决策的能力。
Julien Perolat和他同事在此介绍了一种新的方法,它能让AI来更好地学习该游戏。他们利用这种新方法开发了一个名为DeepNash的AI
机器人,它能在该游戏的最复杂版本“Stratego Classic”中展示出堪比人类专家级的表现。
IT之家了解到,DeepNash的核心是一种强化学习算法“R-NaD”。为制作DeepNash,Perolat和团队将R-NaD与深度神经网络架构结合,从而使其在高端竞技层面进行博弈策略的学习和思考。
最终,DeepNash与各种最先进的Stratego机器人和专业玩家进行了博弈测试,而它最终也成果战胜了所有其它的机器人,并在Gravon(一个互联网游戏平台,也是Stratego的最大在线平台)上击败了各路具有专家级水平的真人玩家,截止报告发布时已经在该平台排名前三,而它的对手丝毫没有意识到网线对面竟然是个AI。
除此之位,DeepMind AI在对抗顶级战略游戏机器人时也取得了97%的胜率,其中不乏一些曾赢得世界锦标赛的机器人。
“优秀的棋手往往会记住对手的棋子并预测他们的核心布局,”马耳他大学的Georgios Yannakakis说,“DeepNash两者都做得很好——当然AI可能在记忆力方面比人更有优势,而且他还会用有趣且不可预测的方式进行游戏,例如虚张声势。”
宾夕法尼亚州卡内基梅隆大学的Tuomas Sandholm表示,DeepNash博弈论可以证明AI在与其他人打交道的非博弈情况下也是有用的,例如在商业和国防领域。