星际争霸2人类1:10输给AI!DeepMind “AlphaStar”进化神速(2)
时间:2019-02-04 00:02 来源:百度新闻 作者:巧天工 点击:次
比赛回放过程中,主持人问到 DeepMind 科学家,平时如何训练 AlphaStar,DeepMind 科学家 Oriol Vinyals、David Silver 表示,首先是模仿学习,团队从许多选手那里获得了很多比赛回放资料,并试图让 AI 通过观察一个人所处的环境,尽可能地模仿某个特定的动作,从而理解星际争霸的基本知识。这其中所使用到的训练资料不但包括专业选手,也包括业余选手。这是 AlphaStar 成型的第一步。 图 | DeepMind 科学家 Oriol Vinyals(图源:Youtube) 图 | DeepMind 科学家 David Silver(图源:Youtube) 之后,团队会使用一个称为“Alpha League”的方法。在这个方法中,Alpha League 的第一个竞争对手就是从人类数据中训练出来的神经网络,然后进行一次又一次的迭代,产生新的 agent 和分支,用以壮大“Alpha League”。 图 | Alpha League 示意图(图源:Youtube) 然后,这些 agent 通过强化学习过程与“Alpha League”中的其他竞争对手进行比赛,以便尽可能有效地击败所有这些不同的策略,此外,还可以通过调整它们的个人学习目标来鼓励竞争对手朝着特定方式演进,比如说旨在获得特定的奖励。 最后,团队在“Alpha League”中选择了最不容易被利用的 agent,称之为“the nash of League”,这就是 TLO 所对战的5个。 为什么是"星际争霸 2"? 比赛前期,DeepMind 与暴雪就联合发布了关于此次比赛的重磅预告:将在北京时间周五凌晨 2 点展示 Deepmind 研发的 AI 在即时战略游戏星际争霸 2 上的进展。如今,这个进展终于揭开神秘面纱。 而 DeepMind 开发星际争霸 2 AI,最早可以追溯到 2016 年。当时,DeepMind 研究科学家 Oriol Vinyals 在暴雪嘉年华现场透露 Deepmind 与星际争霸 2 紧密合作的进展及未来的计划。在 AlphaGo 在 2017 年围棋大获全胜之后,DeepMind 开始对外宣布,团队正在着手让人工智能征服星际争霸 2,这款游戏对人工智能在处理复杂任务上的成功提出了"重大挑战"。 在 2018 年 1 月的 EmTech 大会上,谷歌 DeepMind 科学家 Oriol Vinyals 曾对 DT 君表示,第一版的 AlphaGo 击败了樊麾,后来下一个版本在韩国和李世石进行了对弈并取得了胜利。再后来进一步地训练网络,整个网络比之前强了三倍,赢了柯洁和其他专业棋手。团队是从零开始,一点点积累积数据训练,最后战胜了专业棋手。而除了棋类游戏以外,DeepMind 比较感兴趣的,就是游戏星际争霸 2。 继围棋之后,DeepMind 为什么要选择星际争霸 2 这款游戏为下一个目标呢? 星际争霸 2 是由美国著名游戏公司暴雪娱乐(Blizzard Entertainment)推出的一款以星际战争为题材的即时战略游戏。星际争霸 2 具备策略性、竞争性的特性,在全球都非常火爆,并且每年都会举办大量的比赛,因此也有着海量的玩家基础。 图丨谷歌 DeepMind 科学家 Oriol Vinyals(来源:DeepTech) 据 Oriol Vinyals 当时透露,星际争霸 2 是非常有趣和复杂的游戏,这个游戏基本上是建造一些建筑物以及单位,在同一个地图里不同的组织会相互竞争。在这个游戏中,哪怕只是建造建筑物,也需要做出许多决策。除此之外,还要不断收集和利用资源、建造不同的建筑物、不断扩张,因此整个游戏非常具有挑战性。 而且,和围棋任务较大的不同在于,围棋可以看到整个棋盘,但是在星际争霸 2 中我们通常无法看到整个地图,需要派小兵出去侦查。另外,游戏是不间断进行的。整个游戏甚至会有超过 5000 步的操作。对于增强学习这种方法来说,除了上下左右这些普通的移动,用鼠标点击界面控制不同物体的移动以及不同的行为也是非常难的。 星际争霸 2 的这些特质,恰恰是人工智能在创新之路上需要挑战的——面对许多难以预测的突发情况,人工智能必须要既作出正确的对策,还要根据实际情况细微的调整对策。 (来源:DeepMind) 星际争霸 2 作为"即时战略"游戏,其"即时"和"战略"的特性无疑是锻炼 AI 的较佳途径之一。就拿"即时"来说,或许对于人类,星际 2 的那 300 多个基础操作的"操作空间"(Action Space)并不庞大。但是对于机器,星际 2 的分级操作,外加"升科技"所带来指令的变化,再加上地图的体积,其操作空间是无穷大的。比如"农民建房子"这个简单的行动就有 6 个不同的步骤:点击滑动鼠标选择单位,B 选择建造,S 选择供给站,滑动鼠标选择位置,点击建造。仅在一个 84x84 的屏幕上,机器的操作空间有大约 1 亿个可能的操作。 AlphaGo Zero 创造者:"这个比围棋难多了" 在 DeepMind 与暴雪长期以来的合作中,有几个重要节点: 2017 月 8 月,星际争霸 2 开发团队发布人工智能研究环境 SC2LE(StarCraft II Learning Environment),它包括一个能让研究人员和开发人员与游戏挂钩的机器学习 API,开放了 65000 场比赛的数据缓存,以及 50 万次匿名游戏回放和其他研究成果。其中一些数据对于训练和辅助序列预测和长期记忆研究非常有用,当时团队也希望通过这些工具,帮助研究人员加快星际争霸 2 AI 的开发速度。 图丨 Julian Schrittwieser(来源:麻省理工科技评论) (责任编辑:波少) |