DeepMind 的 AlphaStar 横空出世 《星际争霸2》人类1:10输给AI

发布时间: 2019-02-11 23:52 | 来源: 百度新闻 | 作者:巧天工 | 责任编辑: 波少

  【

DeepMind 的 AlphaStar 横空出世 《星际争霸2》人类1:10输给AI

综合】北京时间1月25日,DeepMind 的AI AlphaStar 首次亮相。DeepMind 在凌晨2:00起公布了其录制的 AI 在《星际争霸 2》中与2位职业选手的比赛过程:AlphaStar 分别以5:0的成绩战胜了两位职业选手 TLO 和 MaNa 。

  据科技媒体DeepTech深科技(000021)介绍,AlphaStar 与两位职业选手的两次比赛相隔了约两周,可以看到经历了从与 TLO 对战时的菜鸟级别,AlphaStar 进化到完美操作的过程,尤其是与 MaNa 的对战,已经初步显示了可以超越人类极限的能力。由于时间限制,演示中并没有播放所有比赛,而是在展示了另外一局比赛录像后,给出了 TLO 五局全败的战绩。不过所有的录像都将在 DeepMind 官网上放出,供人下载。

  除了此次比赛录像,AlphaStar 还和职业选手 MaNa 在现场来了一局比赛,但以1:0的成绩输给了人类选手MaNa 。而且,虽然两位职业选手以全败告终,宣告了 AlphaStar 的实力已经不可同日而语,但现场表演赛充分暴露了 AlphaStar 目前的不足。

  我们不难看出,尽管其神经网络已经趋于长期优化,但似乎仍然会在一定程度上陷入局部最优,被人类发现固定模式,落入圈套。

  比赛回放过程中,主持人问到 DeepMind 科学家,平时如何训练 AlphaStar。DeepMind 科学家 Oriol Vinyals、David Silver 表示,首先是模仿学习,团队从许多选手那里获得了很多比赛回放资料,并试图让 AI 通过观察一个人所处的环境,尽可能地模仿某个特定的动作,从而理解星际争霸的基本知识。这其中所使用到的训练资料不但包括专业选手,也包括业余选手。这是 AlphaStar 成型的第一步。

  之后,团队会使用一个称为“Alpha League”的方法。在这个方法中,Alpha League 的第一个竞争对手就是从人类数据中训练出来的神经网络,然后进行一次又一次的迭代,产生新的 agent 和分支,用以壮大“Alpha League”。

  Alpha League 示意图(图源:Youtube)

  然后,这些 agent 通过强化学习过程与“Alpha League”中的其他竞争对手进行比赛,以便尽可能有效地击败所有这些不同的策略,此外,还可以通过调整它们的个人学习目标来鼓励竞争对手朝着特定方式演进,比如说旨在获得特定的奖励。

  最后,团队在“Alpha League”中选择了最不容易被利用的 agent,称之为“the nash of League”。

  • 上一篇:万万想不到
  • 下一篇:《星际争霸2:虫群之心》不会亮相暴雪嘉年华
  • 英雄联盟更多
    刀塔2更多
    CS:GO更多
    绝地求生更多