超人类水准!多图详解星际争霸2 AI AlphaStar(2)
时间:2019-03-31 19:34 来源:百度新闻 作者:巧天工 点击:次
“OpenAIFive”是一套精心设计的深度强化学习系统,由5 个独立的神经网络分别控制5 个英雄。研究人员们使用了许多技巧引导智能体学习 DOTA2 中的各种行为,也设计了超参数帮助网络学习团队协作;但比赛过程中智能体之间没有直接的沟通。(更多信息可以阅读此前 报道) AlphaStar技术介绍 在活动预告文中,我们盘点了此前DeepMind 在星际2 AI 研究中的动向。作为以深度强化学习著称的人工智能企业,如今我们见到的DeepMind 的星际2 AI“AlphaStar”自然毫不意外地是一套基于深度强化学习的系统。 18 年12 月的比赛时,观战室中的 OriolVinyals 和DavidSilver(以及你们看出来中间是谁了吗?) AlphaStar 模型设计 AlphaStar是一个把游戏看作长序列建模学习任务的强化学习智能体,它的模型设计也就以长序列建模为能力为核心。模型从游戏接口接收的数据是单位列表和这些单位的属性,经过神经网络计算后输出在游戏中执行的指令。 这个神经网络的基础是 Transformer 网络,并且结合了一个深度 LSTM 网络核心、一个带有指针网络的自动回归策略头,以及一个中心化的评分基准。 这样的网络架构是 DeepMind 对复杂序列建模任务的最新思考结果,他们也相信这样的先进模型可以在其他需要长序列建模、有很大行动空间的机器学习任务(比如机器翻译、语言建模和视觉表示)中同样发挥出优秀的表现。 网络设计的相关论文参见: Transformer 网络- https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf 深度 LSTM 网络- ?doi=10.1.1.676.4320&rep=rep1&type=pdf 自动回归策略头- https://arxiv.org/abs/1708.04782 指针网络- https://papers.nips.cc/paper/5866-pointer-networks.pdf 中心化评分基准- https://www.cs.ox.ac.uk/people/shimon.whiteson/pubs/foersteraaai18.pdf AlphaStar 训练策略 AlphaStar 的初始训练策略与早期的 AlphaGo 相同,DeepMind 的研究人员首先用人类比赛的比赛 replay 对模型进行监督学习训练,以模仿学习的思路让模型快速学习到高水平玩家们在星际争霸天梯中使用的基础策略和微操。这时候的 AlphaStar 就能够以95% 的胜率打败星际争霸2内置的“精英”级别的 AI了。 作为对比,OpenAI 的 DOTA2 AI 是完全从零开始的强化学习,初始阶段花费了很多时间在无意义的游戏操作上 下面当然就是强化学习的自我对弈、继续提升水准的阶段了,而这也是和 AlphaGo 的训练策略有所不同的地方。在之前的报道中我们介绍过,AlphaGo 自我对弈阶段的棋局是由所有之前的迭代过程中出现的表现最好的一个版本生成的,也就是说每一时刻都存在一个“最好的版本”,也不断寻找比它还好要的版本并进行替换。 但对于星际争霸,DeepMind 的研究人员们认为不同的优秀策略之间可能是相互克制的,没有哪一个策略是可以完胜其它所有策略的,所以这次他们的做法是分别更新、记录许多个不同版本的网络(合称为AlphaStar league)。 如上图,AlphaStar 在人类数据上初始训练后,继续进行多轮AlphaStarleague 中的自我对战,而每轮都会在之前的数个比较强的版本基础上进行分叉;分叉前的版本会被固定参数保留下来,一直参与后续的多轮自我对战;不同的版本也可能会被人工安排不同的对战策略和学习目标。 这样的做法就在不断提升网络水平、提高对战难度的同时也保留了足够的多样性。根据每轮自我对战的结果,每个的网络参数都会进行更新;这种做法来自于群体强化学习的思想,保证了持续稳定的表现提升,而且很新的版本也不会“忘记”如何击败很早的版本。 群体自我对弈的过程中可以产生许多不同的策略。有一些策略仅仅是对早期策略的细微完善,也有一些策略会含有全新的建造顺序、单位组合、微操模式;能够稳定击败早期策略的策略也开始出现。 比如在 AlphaStarleague 自我对战的早期,快速 rush 的策略有较高的胜率;但随着训练过程持续,其它的策略开始展现出更高的胜率,比如用更多的工人快速扩大基地,获取更多的资源后建立经济优势;或者用几个兵去对方的基地骚扰,获得发展速度的优势。这种策略的更替演化也和人类选手们数年中的摸索之路非常类似。 如下图,随着总训练时间越来越长,智能体平均使用的单位数目也越来越多。 许多轮自我对战结束后,研究人员们会以 AlphaStarleague 中的纳什分布采样出一个版本来,作为训练结束后最终得到的智能体。这样的做法可以得到已经发现的多种策略的综合最优解。 根据 DeepMind 介绍,击败 TLO(虫族选手操作神族,并不是他最佳水平)和 MaNa 的 AlphaStar 版本分别来自第9 天和第14 天的自我对战(如下图),实际上在观赛中选手和游戏解说也都注意到了两次比赛中AlphaStar 水平的变化。 保证策略多样性的努力 (责任编辑:波少) |