广告位API接口通信错误,查看德得广告获取帮助

电竞之家_品味电竞生活移动版

主页 > 星际争霸2 >

超人类水准!多图详解星际争霸2 AI AlphaStar(3)

DeepMind 在技术介绍博客中提到,为了让 AlphaStarleague 中有尽量高的多样性,他们实际上有意识地为不同的智能体设置了不同的学习目标(这也符合我们的常识,简单的随机扰动带来的多样性变化是非常有限的)。

有的智能体要专门针对击败某个特定的智能体进行学习,或者为另一些智能体设定额外的内部动机,比如具体地通过建造某种单位来击败所有使用某类策略的智能体。这些目标会在训练过程中进行一些调节。

DeepMind 可视化展示了最终形成的多种不同策略分布,如下图。

超人类水准!多图详解星际争霸2 AI AlphaStar

在AlphaStarleague 的自我对战中,每个智能体的网络权重都会根据强化学习算法更新,优化各自不同的学习目标。权重更新规则来自于一种新的、高效的策略离线actor-critic 算法, 其中含有经验重放、自我模仿学习和策略蒸馏的思想。

AlphaStar 算力需求

为了支持大批不同版本 AlphaStar 智能体的对战与更新,DeepMind 构建了一个大规模可拓展的分布式训练环境,其中使用了最新的谷歌 TPUv3,这个训练环境可以支持成群的AlphaStar 智能体实例同时运行;星际2 游戏主体也有数千个实例同步运行。

AlphaStarleague 的自我对战训练过程用了14 天,每个 AlphaStar 智能体使用了16 个TPU,最终相当于每个智能体都有长达200 年的游戏时间。训练结束后的模型在单块消费级 GPU 上就可以运行。

AlphaStar 的游戏表现

由于 AlphaStar 首先从人类玩家数据进行模仿学习,以及神经网络有一定的计算延时,它的操作频率其实比人类选手还要低一些。MaNa 的 APM 达到了平均390,而AlphaStar 却只有平均280 左右而已。

AlphaStar 的计算延时平均为350 毫秒(从观察到做出行动)。相比之下,以往基于固定策略和手工规则的星际 AI 会保持上千的 APM。

超人类水准!多图详解星际争霸2 AI AlphaStar

DeepMind 也根据 AlphaStar 和 MaNa 的一局比赛制作了智能体视角和内部信息的可视化示意图如下:

其中展示了神经网络接收到的原始数据(左下角小图中蓝色点),神经网络内部的激活状况(中下方左侧小图)、智能体考虑点击和建造建筑的地图区域示意(中下方右侧小图,这也可以理解为智能体的注意力关注的区域)、智能体的操作输出激活情况(右下角小图)以及胜率预测。

图中同步也展示了 MaNa 的视角,游戏中 AlphaStar 是看不到对手的视角的。

超人类水准!多图详解星际争霸2 AI AlphaStar

在文章开头我们提到,两次以5:0 击败 TLO 和 MaNa 的AlphaStar 是无需控制视角的,它可以直接读取地图上所有的可见内容。相比之下,人类选手显然需要手动把视角切换到地图的不同位置才能看到部分信息。从这个角度说,AlphaStar 有欺负人类选手的嫌疑。

DeepMind 也针对这一点做了分析,他们的数据统计认为 AlphaStar 切换关注区域的速度大约是每分钟30 次,这个次数和人类职业选手相当。

当然了,最好的办法还是做实验验证。所以 DeepMind 重新训练了需要自己控制视角的 AlphaStar,也就是在直播中 MaNa 击败的那个版本(不过这个版本只训练了7 天,而不是原始版本的14 天)。

这个版本的 AlphaStar 所能获取的信息仅限于视角包含的部分,指令也一样。DeepMind 提供的训练图表也显示出这带来了一定的表现下降(虽然仍然能较快地追上)。

不过 DeepMind 认为表现下降的幅度非常轻微,也体现出了 AlphaStar 的强大表现主要还是要归功于学习到了有效的游戏策略和强力的微操。

超人类水准!多图详解星际争霸2 AI AlphaStar

DeepMind 的展望

虽然这次的模型用在了星际争霸2 AI 上,但 DeepMind 认为这是个足够复杂、具有代表性的任务,用来解决这个任务的技术也可以用在更多其他的复杂问题上。比如这个为长序列建模设计的网络架构可以用在更多不完全信息的长序列建模任务中,比如天气预测、气候建模、语言理解等等。他们也会继续开发 AlphaStar 项目,并利用其中的技术收获改善更多的任务。

另一方面,DeepMind 认为此次设计的训练策略也是通往安全、鲁棒的 AI 的一条新路径。现阶段的 AI 系统的一大难题就是难以预测系统会在多少种不同的情况下发生失效,星际争霸的人类职业选手们取胜 AI 也往往就是依靠寻找并攻击 AI 的弱点和错误。AlphaStar 中提出的群体训练策略就是一种可靠得多、出错的可能性明显减小的训练策略。

DeepMind 的研究人员们认为这种方法还有很多潜力可以挖掘,也许未来它就会成为安全因素非常关键的问题中的重要一环。而最终,DeepMind希望可以创建出真正智慧的系统,帮助人类解决一些全球最重要、最基础的科学难题。

关于技术细节的更细致全面的介绍,DeepMind 也正在准备一篇论文,并计划投稿到期刊让同行评议。我们可以共同期待正式论文的发出。

(责任编辑:波少)
广告位API接口通信错误,查看德得广告获取帮助