DeepMind首个战胜星际2职业玩家的AI为何无敌?新视角揭秘AI里程碑(2)
时间:2019-02-07 20:03 来源:百度新闻 作者:巧天工 点击:次
由于单个网络可能需要高达数G的内存,或需要训练长达几个小时,因此可扩展性是PBT的关键。因此,PBT既是异步的,又是分布式的。与使用静态超参数运行许多实验不同,使用相同数量的硬件,利用PBT只需要很少的开销——外部循环可以重用内部循环的解决方案进行评估,而且数据通信量也比较低。如果考虑非平稳超参数因素和对较弱解决方案的优先抢占的影响,PBT方案能够节省的成本更多。 这些要求的另一个结果是PBT是稳定状态,这一点与分代进化算法不同。由于对异步进化算法和拉马克进化的自然适应性,稳态进化算法可以允许各个解决方案的优化和评估不间断地进行,从而实现资源效率最大化。 最适合的解决方案能够存活更长时间,自然地提供了一种精英主义/名人堂模式,但并非最优的前代方案也可以保留下来,保持解决方案多样性。 自我对弈也体现了竞争性协同进化(CCEA) 在对AlphaStar一类游戏智能体进行优化时,智能体可以使用自对战来提升水平。 竞争性协同进化算法(CCEA)可以被视为自我对弈的超集(superset),并非只保留当前解决方案及其前身,而是保持和评估整个解决方案的群体。 与自我对弈一样,CEA形成了一个自然的教学过程,但也提供了额外的稳健性,因为产生的解决方案是基于各种其他解决方案进行评估的。 AlphaStar的训练过程。来源:DeepMind 通过在CCEA环境中使用PBT策略,利用基于反向传播的深度强化学习,再加上进化版的奖励函数,能够训练智能体从像素级入手,开始学习玩第一人称游戏。 CEA的设计包括很多方面,这种方法的特征可能导致许多潜在的变体。 AlphaStar还可以归为质量多样性算法 在《星际争霸》中,没有所谓“最好的策略”。因此,最终的AlphaStar智能体由纳什分布的人口组成,构成一组互补的、最不可利用的策略。 为了改进训练方式,增加最终解决方案的多样性,明确鼓励多样性是有意义的。 AlphaStar也可以归为质量多样性(QD)算法。尤其是,智能体可以具有游戏特定的属性,例如构建特定类型的额外单位,以及击败某个其他智能体的标准,击败一组其他智能体的标准,甚至是上述这些要素的混合。 此外,这些特定标准也可以在线调整,这对于QD算法而言属于全新的特性——除了POET以外。这使得智能体可以做到更多的事情:可以从人类数据中提取有用的信息,甚至进行无监督学习。 考虑到一系列不同的策略,下一步将自然而然地推断哪种策略可能最适合对付给定的对手,从而实现在线适应。 讨论 虽然AlphaStar是一个复杂的系统,涉及人工智能研究的许多领域,但我们认为,迄今为止被低估的一点是竞争性协同进化算法策略。它结合了拉马克进化,共同进化和质量多样性,达到了惊人的效果。 希望本文能够让进化计算和深度强化学习社区更好地欣赏和构建这个重要的AI系统。 论文链接: https://arxiv.org/pdf/1902.01724.pdf 加入社群 新智元AI技术+产业社群招募中,欢迎对AI技术+产业落地感兴趣的同学,加小助手微信 aiera2015_1 入群;通过审核后我们将邀请进群,加入社群后请修改群备注(姓名-公司-职位;专业群审核较严,敬请谅解) 加入新智元社群,成就AI新世界! (责任编辑:波少) |