在银河系遥远的克普鲁星区,Facebook的一群跳虫(Zerglings)正在焦躁不安的在敌军基地外面徘徊。在脑袋缺根筋的指挥官打开大门后,该社交网络的外星人蜂拥而入,在一场争夺人工智能研究前沿阵地的战斗中对驻扎在里面的部队大开杀戒。
这场血腥事件是一年一度的由AI软件机器人参赛的星际争霸比赛的一部分,今年的比赛刚刚在本周日结束。Facebook悄悄的派了一个名为CherryPi的机器人参赛,这是有其AI研究实验室的8个人设计出来的。
这场秘密的太空站说明Facebook对与Google等就率先达到AI的下一个闪耀的里程碑的竞争是认真的。Google的DeepMind AI研究部门去年因为Alphago击败了围棋世界冠军而登上了新闻头条。今年8月,DeepMind宣布将最新版的星际争霸II作为自己的下一个目标。
就像本领域大多数的AI研究一样,Facebook参加的这场比赛使用的是更旧版的星际争霸,这个版本在难度上被认为对软件和玩家都是一视同仁的。Facebook的AI研究部门由纽约大学教授Yann LeCun牵头,旗下有80多位研究人员,目前已经发表了很多的研究论文,但是还没有取得任何像Google在围棋方面一样令人震惊的成就。关于星际争霸Facebook已经发表了3篇研究论文,但还没有宣布要征服此游戏的任何特别行动。
周日公布的最终结果表明Facebook仍然有一段路要走:在总共28位参赛选手中CherryPi的排名为第6;而前3位都是由独立的编程爱好者写出来的。
Facebook的研究科学家Gabriel Synnaeve把CherryPi说成是将来对星际争霸研究的“基线”。他说:“我们希望看到它跟其他现有机器人的对比情况,尤其是想测试一下是不是还有需要修正的瑕疵。” CherryPi参加了一场马拉松式的竞赛,这是研究AI在娱乐业
应用的学术会议AIIDE的一部分。Facebook还赞助了今年的竞赛,成千上万的机器人对战游戏所用的硬件都是由Facebook出钱的。
自从1950年代以来,像一字棋、跳棋、国际象棋以及围棋这样的游戏一直都是人工智能新思路的试验台。这段日子以来,随着公司日益用AI来作为打磨自身产品和服务的手段,AI还要服务于严肃的商业目的。Facebook、Google等技术公司用AI来改进定向广告和个性化系统,并且给虚拟助手和增强现实等新产品提供支持。
星际争霸对AI研究人员的诱惑力可不仅仅在于操弄武器发号施令的乐趣。尽管该游戏看似比围棋或者国际象棋更平易近人,但是复杂度却要比后者高得多,因为玩家的装备和行动都不是局限在固定的棋盘上并且处在对方的完整视图下面的。围棋棋盘的有效位置数是1后面跟170个0。研究人员估计,要想遍历星际争霸的复杂度,你还需要在那个数后再加100个0。
今年获胜的机器人叫ZZZKBot,开发者是澳大利亚珀斯的软件开发者Chris Coxe,他之前曾在纳斯达克工作过。这个机器人是他自己一个人开发的,后来为了留出更多的时间做做这个他甚至停了一段时间工作。在最终结果出炉前1一天,Coxe曾经这样调侃自己的作品。他说:“这东西只是用来概念验证。源码一点都不好。”
就像迄今为止所有的星际争霸机器人一样,在游戏技能一般的人类玩家面前ZZZKBot也顶不了太久。对异族人部队的调动做出预测和反应需要的计划和记忆远远超出了目前软件的能力范畴。
随着在网上广告和AI方面同时展开竞争的两大巨头表现出兴趣,爱好者做出最好的星际争霸机器人的日子似乎已经屈指可数。这次AIIDE竞赛的组织者,纽芬兰纪念大学教授David Churchill预计,未来几年星际争霸机器人的局面将会发生天翻地覆的变化。
Facebook和Google称自己开发星际争霸机器人的办法跟大多数个人程序员都不一样。领先的机器人大多数是基于创建者制订的规则和策略进行游戏的。Coxes说他的机器人最好的功能之一是简单学习功能,机器人会尝试预先编程的针对其他对战机器人的策略,然后记录下来哪一种策略有效,从而为下一场比赛做准备。两大技术巨头打算更倚重于机器学习,计划让机器人依靠检查过去比赛数据的庞大缓存或者重复实验从头开始制订自己的策略。Facebook并没有按照自己发布的想法开发CherryPi。而机器学习则是Google的Alphago不可战胜的核心。
虽然Facebook的机器人没能赢得星际争霸战,但排名第二的机器人PurpleWave的开发者Dan Gant却看到了CherryPi将来的走势。大多数机器人的选择是根据敌方的相对人数要么正面进攻,要么撤退。但Gant说,从竞赛结果公布前发布的
视频看,CherryPi似乎知道什么时候自己可以足够快地偷袭地方基地。
尽管如此,不要指望独立机器人开发者一夜之间就会消失得无影无踪——或者指望星际争霸很快就会被征服。Churchill说:“问题仍然非常困难。我预计几年之内爱好者做的主要基于规则的机器人仍然会表现出色。”他猜测任何机器人想要击败专家级玩家仍需要5年的时间——但承认也许会更快。
纽约的软件开发者Gant今年停下了手头的工作,用了几个月的时间专门来做PurpleWave。他说技术巨头的加入增加了一项代表着独特学习机会的追求的影响力。他说:“无论你是Facebook还是DeepMind或者是刚刚在学习编程的小孩,大家都在同一个竞技场公平竞技。能限制你的只有自己的努力和能教到自己的东西。”
做出一个星际争霸的超级玩家能给技术巨头带来的不只是满足感。Google说DeepMind的机器学习已经帮助它削减了自己数据中心的制冷成本。微软今年的一篇有关机器学习的研究论文说,预测用户何时会点击的准确率哪怕只提升0.1个百分点也能带来数亿美元的新收入。有能力领导虫族队伍冲锋陷阵击溃任何人类的机器人也许很快就能赚大钱。