今天凌晨,谷歌DeepMind与暴雪进行了联合直播,展现了谷歌最新AI程序AlphaStar与《星际争霸2》职业选手比赛的实况,最终新AI程序AlphaStar以10:1战绩击败了两位Team Liquid的职业战队选手。
AlphaStar与《星际争霸2》比赛直播
在直播开始之际,DeepMind在官方博客上详细解释了打造AlphaStar的全过程。DeepMind团队认为,尽管《星际争霸》只是一款游戏,但不失为一款较为复杂的游戏。AlphaStar背后的技术可以用来解决其他的问题。在天气预报、气候建模、语言理解等等领域,以及研究开发安全稳定的人工智能方面,都会有很大帮助。
以下为DeepMind文章主要内容:
在过去几十年里,人类一直用游戏测试评估AI系统。随着技术的进步,科学界寻找复杂的游戏,深入研究智力的方方面面,看看如何才能解决科学问题和现实问题。许多人认为,《星际争霸》是最有挑战的RTS(实时战略)游戏之一,也是有史以来电子竞技领域最古老的游戏之一,它是AI研究的“大挑战”。
现在我们推出一个可以操作《星际争霸2》游戏的程序,名叫AlphaStar,它是一个AI系统,成功打败了世界顶级职业玩家。12月19日,我们举行了测试比赛,AlphaStar打败了Team Liquid战队的Grzegorz "MaNa" Komincz,他是世界最强的职业玩家之一,以5比0获胜,之前AlphaStar已经打败同队的Dario “TLO” Wünsch。比赛是按照职业标准进行的,使用天梯地图,没有任何游戏限制。
在游戏领域,我们已经取得一系列成功,比如Atari、Mario、《雷神之锤3:竞技场》多人夺旗、Dota 2。但是AI技术还是无法应付复杂的《星际争霸》。想拿到好结果,要么是对游戏系统进行重大调整,对游戏规则进行限制,赋予系统超人一般的能力,或者让它玩一些简单地图。即使做了修改,也没有系统可以与职业玩家一较高下。AlphaStar不一样,它玩的是完整版《星际争霸2》,用深度神经网络操作,网络已经用原始游戏数据训练过,通过监督式学习和强化式学习来训练。
《星际争霸》游戏的挑战
《星际争霸2》由暴雪娱乐制作,是一款单位众多的多层次宇宙科幻游戏,在设计上非常挑战人工智能。与前作一样,《星际争霸2》也是游戏史上最宏大和成功的游戏,已有20余年的电竞联赛历史。
该游戏玩法众多,但电竞中最常见的是1对1对战,五局三胜制。开始时,玩家从人类、星灵和异虫三个种族中人选一个进行操作,每个种族都有独特的特点、能力(机关专业选手会专注于一个种族)。开局时,每个玩家都有一些“农民”来采集资源和建造建筑,解锁新科技。这也让玩家可以收集新的资源,建造更复杂的基地和建筑,研发新科技以胜过对手。要取得胜利,玩家必须仔细平衡宏观经济管理,即宏观经济,和每个单位的控制,即微操。
这就需要平衡短期和长期目标,还要应对意外情况,整个系统因而经常变得脆弱僵硬。处理这些问题需要在下列若干人工智能领域解决挑战,取得突破:
游戏理论:《星际争霸》是个游戏,就想剪刀石头布一样,没有单一最佳战略。因此人工智能训练过程中需不断探索和扩展最战略知识前沿。
瑕疵信息:不同于国际象棋或围棋那种一览无余的状态,星际玩家无法直接观察到重要信息,必须积极探索“探路”。
长期规划:和许多现实世界中的问题并非是从“因”立即生“果”一样,游戏是可以从任何一个地方开始,需要1个小时时间出结果,这意味着在游戏开始时的行动可能在很长一段时间不会有收效。
即时性:不像传统桌面游戏,玩家轮流行动,星际玩家必须在游戏时间内持续排兵布阵。
庞大的行动空间:要同时控制上百个单位及建筑,这就导致了大量的可能性,行动是分级别的,可以被修改和扩张。我们将游戏参数化后,每个时间步骤平均约有10到26个合理行为。
由于上述的大量挑战,《星际争霸》成为了人工智能研究中的“大挑战”。自从2009年《母巢之战》应用参数界面问世后,围绕《星际争霸》和《星际争霸2》开展了众多人工智能竞赛。
AlphaStar与MaNa的第二场比赛可视化动图。人工智能的视角,原始观测输入神经网络,神经网络内部活动,一些人工智能考虑可采取的行动,如单击哪里或在哪里建造,以及预测结果。MaNa的视角也在其中,但人工智能看不见他的视角。
AlphaStar是如何训练出来的
AlphaStar的行动由深层神经网络产生,从原始游戏界面接收数据(一队单位及其属性),输出指令结果,在游戏中形成行动。更确切的说,神经网络构架为单位应用了可变形的躯干,带指针网络的深层机器学习核心,以及集中值基准,我们相信这个先进的建模会有助于解决长期结果建模及大量输出空间,如翻译,语言建模和直观表示。
AlphaStar也应用了最新的多代理习得算法。其神经网络最初在监督下与匿名人类对战进行训练,这些素材来自暴雪。这让AlphaStar可以通过模仿来学习星际天梯玩家基本的微操和宏观战术。这使其在一开始就击败了95%的精英电脑玩家,也就是黄金段位的人类玩家。
AlphaStar联赛,代理开始训练时采用人类对战的重播,然后被训练与同一联赛的竞争者对战,每次循环,新的竞争者都会被分入,之前的竞争者则冻结,而对战匹配的可能性和超参数决定了每个代理将进行的学习目标,以便在保留多样性的同时增加难度。代理的超参数依照与其他竞争者的游戏结果通过支援学习制定,最终的代理被从联赛的纳什分布中取样(而非替换)。 AlphaStar联赛,代理开始训练时采用人类对战的重播,然后被训练与同一联赛的竞争者对战,每次循环,新的竞争者都会被分入,之前的竞争者则冻结,而对战匹配的可能性和超参数决定了每个代理将进行的学习目标,以便在保留多样性的同时增加难度。代理的超参数依照与其他竞争者的游戏结果通过支援学习制定,最终的代理被从联赛的纳什分布中取样(而非替换)。