智齿AI研究院深度解读:AlphaStar大胜星际争霸2职业玩家的技术秘

发布时间: 2019-01-28 17:57 | 来源: 百度新闻 | 作者:巧天工 | 责任编辑: 波少

智齿AI研究院深度解读:AlphaStar大胜星际争霸2职业玩家的技术秘密

陈晨 2019-01-28 17:28:29 产经

北京时间 1 月 25 日凌晨2点,DeepMind和暴雪娱乐举办了一场网络直播,第一次公布了其录制的 AI 在《星际争霸 2》中与2位职业选手的比赛过程:AlphaStar5:0 战胜职业选手TLO ,5:0战胜 2018 年 WSC 奥斯

智齿AI研究院深度解读:AlphaStar大胜星际争霸2职业玩家的技术秘密

北京时间 1 月 25 日凌晨2点,DeepMind和暴雪娱乐举办了一场网络直播,第一次公布了其录制的 AI 在《星际争霸 2》中与2位职业选手的比赛过程:AlphaStar5:0 战胜职业选手TLO ,5:0战胜 2018 年 WSC 奥斯汀站亚军MaNa 。与两位人类对手的比赛相隔约两周,AI 自学成才,经历了从与 TLO 对战时的菜鸟级别,进化到完美操作的过程,尤其是与 MaNa 的对战,已经初步显示了可以超越人类极限的能力。

这次的演示也是 DeepMind 的星际争霸 2  AI AlphaStar 的首次公开亮相。除了此前比赛录像的展示外,AlphaStar 还和 MaNa 现场来了一局,不过,这局AlphaStar 输给了人类选手  MaNa 。 

今天,我们从技术角度聊聊:星际争霸2人机对战背后,AI获胜的意义与原因。

「智齿AI研究院」吴科 许思佳 苏苏  作者 

AI为什么总是挑战专业游戏玩家?

关注AI、游戏领域的人或多或少会感觉到,AI似乎总是盯着游戏。从国际象棋到围棋、甚至到现在星际争霸2,AI对游戏的挑战屡见不鲜。

这是为什么?我们首先来想想:

1. 国际象棋挑战 

IBM深蓝(DeepBlue)超级计算机1997年5月12日击败卡斯帕罗夫,从那至今,计算机程序已陆续击败不少世界顶级国际象棋选手。

最早时候,计算机通过算力完成对弈,通俗理解便是计算机的“暴力搜索”。一些科学机构认为,那时候的计算机还算不上智能化,由于国际象棋的落子与棋盘本身的搜索空间都较少,因此对AI的算法要求并不高。这也就是为什么1997年深蓝陆续击败了不少世界顶级象棋选手,却并未引起轰动的原因。

后来,谷歌旗下的DeepMind(人工智能公司)的AlphaZero,它通过强化学习算法自我对弈。而当AI开始进行自我对弈的强化学习后,才真正开始体现出智能化能力,也预示着AI在某些方面确实较人更为厉害,甚至于说是超神。

智齿AI研究院深度解读:AlphaStar大胜星际争霸2职业玩家的技术秘密

(图片内容来自企鹅号 - 爱新闻iNews)

2. 围棋大战挑战 

智齿AI研究院深度解读:AlphaStar大胜星际争霸2职业玩家的技术秘密

(图片内容来源:搜狐号-三思派)

围棋具有比国际象棋搜索空间更大、不可控因素更多的特点,但这也恰恰印证了AI在搜索、计算、推理、记忆、学习等方面的能力。在这一阶段,AI加入了更高级的算法——深度学习和强化学习,AI通过与自己博弈,把在围棋中所有的可能进行穷尽试探,从而摸索出多种“套路”,再将这些“套路”应用到与人类的对弈当中,从而让陷入固有模式的人类选手“摸不着头脑”,产生“AI不按照套路出牌”的感觉,最后打败人类。

但是,这并不意味着AI目前已经“超神”。很多科学家和机构认为,就围棋层面来说,AI确实打败了人类,却也暴露出了更严峻的问题,即围棋是信息完全透明的状态下,较为简单地完成任务。然而,在真正的应用场景中乃至商业领域,很多场景并不透明,所以AI需要更大的突破,才算真正的智能。

星际争霸2此次挑战赛,AI进阶的一小步

如何才能实现更新的进展及突破?显然,即时战略类游戏更符合AI的“胃口”,它具有信息不透明的特点,AI需要和人类选手一样,探索地图和了解对手现状才能获取更多信息。星际争霸2的不可预测性远大于围棋,玩家可以在同一时间会有300种基本动作可选择,即使在一个84x84像素的屏幕中,也会产生大约1亿个不同的动作。

面对如此挑战,在对AlphaStar进行研发的过程中,谷歌采用 TPU v3 构建了一个高度可扩展的分布式训练系统,该系统支持很多智能体从星际争霸2的数千个并行示例中学习。因此,它比一般的GPU更强、计算能力更快,并且运用了强化学习的技术算法。AlphaStar此次对战前,得到了星际争霸2团队开放的65000场比赛数据的缓存以及50万次匿名游戏回放和其他研究成果。最终,才使得AlphaStar在算力、算法、数据等多维技术融合下,发觉任务状态穷尽所有可能,完成多种套路的自我学习。

AlphaStar通过多重技术,最终在星际争霸2中具备了全局优势判断的能力,它判断多维任务、状态、事件后作出最优的决策,从而实现了胜利。这就很像我们人类在商业中的长序列决策,即在各种场景、能力、匹配度、针对性等条件中,作出最优解。

我们在做智能客服领域AI时的会话管理模块也与之非常相似,机器人在通过一系列的存储、匹配、推理、策略等诸多维度判断,最终作出与用户的交互决策,从而输出用户需要得到的内容。

智齿AI研究院深度解读:AlphaStar大胜星际争霸2职业玩家的技术秘密

(DeepMind 星际争霸2的深度强化学习平台)

回到本次比赛,AI开始在即时策略类游戏中取得了胜利,充分说明了人类在人工智能领域又向前迈进了一小步。为什么只能算一小步,下面会继续说。但我们去看这小小的一步,也同样充满了各种底层技术的集成与发展的成绩。

AI的神操作,展现了哪些优势?

实际上,AI的优势主要体现在几大方面,如算力、策略能力、学习能力、记忆能力等。而这些能力优势,依靠的不仅仅是深度学习,也包括诸多技术能力的集合和AI背后那些大量数据、算法的支撑。

1. 计算能力 

计算能力顾名思义,是对AI最底层的算力支撑,它可以使AI计算能力更强、速度更快。现阶段大部分AI产品应用的硬件算力支持使用的都是GPU,而谷歌的AlphaStar使用的则是算力更强的TPU,这使得它的计算速度和计算能力都在普遍的AI之上,优势明显。

2. 策略能力 

在星际争霸2的游戏当中,AlphaStar表现出了较为强大策略能力。它通过深度学习与强化学习的相结合,学习和实践了大部分人类的打法套路,最终运用出其不意、却也经过千方百算的方式完成了战略判断和决策,使自己的战略局势始终保持领先地位。AlphaStar虽然在后面也表现出了固有的一些模式漏洞,但不得不说,AI的策略能力更强。

3. 记忆能力 

  • 上一篇:细数WCG六宗罪
  • 下一篇:“阿尔法星”击败职业电竞选手
  • 英雄联盟更多
    刀塔2更多
    CS:GO更多
    绝地求生更多