1月25日凌晨,DeepMind在伦敦组织线上直播,向全世界的游戏AI研究人员以及游戏爱好者们介绍自己的AI研发最新进展。
参加直播的DeepMind研究人员是DeepMind团队联合研发负责人Oriol Vinyals和David Silver,后者也是AlphaGo项目的核心开发人员,我们都比较熟悉了。
DeepMind 的星际争霸2 AI 名为“AlphaStar”,这个命名方式正如之前的围棋AI“AlphaGo”以及蛋白质折叠计算AI“AlphaFold”。
据DeepMind 介绍,AlphaStar使用神族(Protoss),在2018年12月10日以5:0战绩打败了Team Liquid的职业星际2选手TLO,然后经过更多训练后,在12月19日再次以5:0的完胜战绩打败了来自同一个战队的职业选手MaNa。
直播现场中回放、解说了其中数场比赛的replay。
AlphaStar在比赛中展现出了职业选手般成熟的比赛策略,以及超越职业选手水平的微操,甚至可以同时在地图上多个地点同时展开战斗(人类选手在这种状况下就会吃不少亏)。
在直播中DeepMind还再次让AlphaStar与MaNa现场比赛。这次比赛中的AlphaStar是一个重新训练的新版本,它需要自己控制视角,而不像前面的版本可以直接读取地图上所有的可见内容。这次MaNa终于取得了胜利。
AlphaStar的详细介绍请见下文。
星际争霸 AI背景
自以围棋为代表的完全信息博弈/游戏被 AlphaGo 攻克、取得超出人类顶尖棋手的水平之后,研究人员们立刻向非完全信息博弈发起更加猛烈的进攻。典型的非完全信息博弈比如德州扑克,玩家需要在看不到对手的牌面的状况下做出决策,CMU 的德扑 AI 论文也拿到了 NIPS2017 的最佳论文奖。
而另一方面,深度学习的研究人员们也希望借助深度强化学习的力量探索更复杂的博弈/游戏。德州扑克显然不够难,德扑AI之父表示其中没有用到任何深度学习;再看围棋,虽然围棋中可能出现的局面的总数目是一个天文数字,但具体到每一回合中,比赛的双方只需要选择在棋盘的某一处落一颗棋子即可。
相比之下,现代的竞技类电子游戏的行动空间就复杂得多,比赛可以有2 个以上的玩家参与、每个玩家可以同步做出行动、每个行动可以有不同的时间长短、位移和移动都是空间连续的、攻击防御技能物品等还有很多的变化。
随着当年的狂热玩家们如今成为计算机科学领域的研究人员,电子竞技游戏 AI 研发也快速分出了两大主要阵营:星际争霸/星际争霸2,以及 DOTA2。两者都有广泛的群众基础,玩家们对游戏 AI 喜闻乐见,也有许多高水平的职业选手可供 AI 切磋学习。
虽然都是 RTS(即时战略)游戏,虽然都需要在收集资源和打架之间找到平衡,但星际和 DOTA2 也有不少区别。
星际中需要控制多种不同类型的单位,这些单位有各自的运动和攻击特点,而 DOTA2 中可以从头到尾只控制同一个英雄;星际中每一方只有一位玩家,而 DOTA2 中每一方有五位玩家。由此带来的游戏策略和执行上的区别也让星际 AI 研究和 DOTA2 AI 研究走出了不同的发展路线。
截至本次比赛前,星际 AI 研究领域和 DOTA2 AI 研究领域已经见识过的最强 AI 分别来自三星和 OpenAI。
2018 年AIIDE星际争霸AI挑战赛共有来自全世界的27支团队带着自己的 AI参赛,获得冠军的人族 bot “SAIDA”来自三星。这个 bot 的核心特点是有一个稳定的游戏策略,它会首先考虑防守,然后在游戏中期伺机一波带走对方。这种策略是从韩国的职业星际选手们身上学到的。这个 bot 去年时还不能击败职业选手。
星际争霸 AI 普遍大量使用固定策略和手工规则,三星的bot应用了一些机器学习技术来帮助控制单位、探索地图,开发团队也在尝试更多地应用机器学习技术。参加了同一个比赛的 Facebook 的虫族bot“CherryPi”大量应用了机器学习技术,但只获得第二名。
2018 年8 月,OpenAI 组织线下比赛测试自己的 DOTA2 AI 系统“OpenAIFive”,前一次在有较多比赛限制的情况下对阵欧美前职业选手组成的团队取得了胜利,然后在稍后的 DOTA2 国际邀请赛Ti8 中对阵中国(前)职业选手组成的团队时失败。这之后 OpenAI 在持续不断地进行改进,并声称后来的某个版本已经大幅超越此前线下比赛中的版本。