英国当地时间 1 月 24 日,北京时间1月25日凌晨,DeepMind公布了录制好的全新AI程序AlphaStar在《星际争霸2》中与两位职业选手的比赛过程。每位选手分别与AlphaStar对战五回合,采用的地图是Catalyst LE,游戏版本为4.6.2,AlphaStar 使用神族(Protoss)。
首先接受挑战的是 Liquid 战队的虫族选手TLO。TLO是现役职业选手德国人Dario Wünsch,在2018年WSC Circuit中排名44,在玩家中很有人气。可惜这回,人工智能选手AlphaStar毫不留情地打出了5:0的完虐战绩。
随后出场的是 Liquid 战队另一位选手,今年25岁、有波兰王牌之称的现役职业玩家MaNa。MaNa惯用神族,在2018 WCS Circuit中排名13,被称为神族最强10人之一,可以说是人类顶级玩家。然而,AlphaStar再次以 5:0 的完胜战绩打败了MaNa,成功挑战人类极限。
10:0的战绩,人类竟然惨败……但是别慌!除了此前比赛录像的展示外,DeepMind还让AlphaStar 和MaNa 现场来了一局,不过,这局AlphaStar 输给了人类选手MaNa。MaNa重新赢回了战队和人类的荣耀,捍卫人类智慧的尊严。
由于时间限制,演示中并没有播放所有比赛,所有的录像都已在 DeepMind 官网上放出,大家可以自行前往:https://deepmind.com/research/alphastar-resources/下载观看!
“Alpha系列”的发展之路
DeepMind的AI系统最近几年发展势头大好,可谓科技界的宠儿。对于DeepMind这家公司和近日的新秀AlphaStar,大家或许还有些陌生。但是提到AlphaGo,相信不少人都恍然大悟。
2016年,被国人戏称为“阿尔法狗”的AI程序以4:1打败韩国围棋冠军李世石,而在经过一定时间的训练后,新AlphaGo系统在2017年以3:0战胜排名世界第一的职业围棋选手柯洁,登顶世界围棋排行榜第一,一时名声大噪。但Deepmind公司在人工智能领域的探索并未就此停止。
2017年12月6日,在AlphaGo退役5个月后,DeepMind推出AlphaGo系列的新版本AlphaGo Zero,只用4个小时的训练时间就从零开始学会了国际象棋的规则,并在100场比赛中取得28胜72平的极佳战绩。国际象棋游戏使用Elo进行评级,专业玩家评分在1800到2000之间,大师级别玩家的评分在2500以上,AlphaGo Zero经评估后可能在4000左右。AlphaGo Zero还有训练3天打败旧版AlphaGo的记录,已经具有棋类通用AI雏形,可以被看作是棋类运动中的“无敌增强版”AlphaGo。
在棋类之后,DeepMind开始进攻游戏领域,一开始是小打小闹地训练AI通过观看人类玩家的游戏视频学会了超级马里奥等经典游戏。2017年8月,DeepMind宣布开始训练AI玩暴雪公司旗下的《星际争霸 II》游戏,计划让AI在五年后战胜《星际争霸》世界冠军,引起了广泛关注。现在看来,或许当初五年的计划还过于保守。
18年中旬,DeepMind的人工智能程序在《雷神之锤III竞技场(Quake III Arena)》夺旗游戏中和人类随机组队打团战,击败了人类玩家,在游戏之路上迈出了一步。
DeepMind公司并未专注游戏界,在基础技术上,人工智能也有所建树。18年11月2日,在墨西哥坎昆举行的第13届全球蛋白质结构预测竞赛(Critical Assessment of protein Structure Prediction,CASP)上,组织者宣布,DeepMind 的最新人工智能程序——AlphaFold在一项极其困难的任务中击败了所有对手,成功预测生命基本分子——蛋白质的三维结构,“阿尔法折叠”在医疗领域大放异彩。研发者DeepMind将AlphaFold称为:在展示人工智能研究推动和加速新科学发现方面的“第一个重要里程碑”。
直到19年初,在游戏领域潜心修炼两年的AlphaStar横空出世,在科学和电竞界掀起轩然大波。
为什么选择《星际争霸2》?
在攻克了以围棋为代表的完全信息博弈、取得超出人类顶尖棋手的水平之后,DeepMind的研究人员们立刻向非完全信息博弈发起更加猛烈的进攻。
典型的非完全信息博弈比如德州扑克,玩家需要在看不到对手的牌面的状况下做出决策,CMU 的德扑 AI 论文也拿到了 NIPS 2017 的最佳论文奖。但德州扑克显然不够难,德扑 AI 之父表示其中没有用到任何深度学习。此时,电子竞技就成了最佳选择。
据网友分析,在围棋世界,动作空间只有361种,而星际2大约是1026。围棋可以看到整个棋盘,但是在星际争霸2中我们通常无法看到整个地图,需要派小兵出去侦查。“战争迷雾”意味着玩家的规划、决策、行动,要一段时间后才能看到结果。这意味着,AI需要学到长远的布局谋篇的策略能力。
所以说,游戏载体本身并不重要,重要的是,星际争霸 2 的这些特质,恰恰是人工智能发展中存在的困难:面对许多难以预测的突发情况,人工智能必须要既作出正确的对策,还要根据实际情况细微的调整对策。
事实上,赛前DeepMind团队对于AlphaStar能战胜人类顶尖选手还没有什么信心,但事实证明MaNa最短只战斗了5分36秒就被一波推平,想必很让人怀疑人生……五局全败后,就像当年的李世石一样,两位人类选手也不免有深深的失望和挫败感。MaNa表示AlphaStar的微操太厉害了,要向AI学习一些技术。
那么为何现场表演赛时,MaNa奇迹般地实现了逆风翻盘?
值得注意的是,前十局录像中的AlphaStar看到的游戏界面,和我们打游戏时看到的小地图差不多:一个小型完整地图,能看到自己在地图上的所有单位、以及敌方所有可见单位。也就是说,相比起人类玩家需要不停地进行视野切换,AlphaStar开启的是“上帝视角”,开了一个小小的“挂”。