10:1,AlphaStar横空出世,碾压星际争霸2人类职业玩家 TLO 和 MaNa(2)
时间:2019-01-25 17:50 来源:百度新闻 作者:巧天工 点击:次
由于这些难点,星际争霸已成为人工智能研究的“巨大挑战”。星际争霸和星际争霸II正在进行的比赛评估了自2009年BroodWar API推出以来的进展,包括AIIDE星际争霸AI比赛,CIG星际争霸比赛,学生星际争霸AI比赛和星际争霸II AI 排名赛。为了帮助社区进一步探索这些问题,在2016年和2017年与暴雪合作发布了一套名为PySC2的开源工具,包括迄今为止发布的最大的匿名游戏回放集。我们现在在这项工作的基础上,结合工程和算法的突破制造了AlphaStar。 AlphaStar怎么训练的 训练能力比较 AlphaStar的工作原理是首先获取原始游戏数据,并通过游戏中复制的指令学习游戏规则。但是为了理解如何玩,DeepMind必须做大量的训练。 为AlphaStar提供支持的神经网络学习了暴雪公司提供的约50万场匿名人类真实游戏。然后AlphaStar能够通过模仿学习策略,虽然它只是观察人类如何玩游戏。很快,该项目可以在95%的游戏中击败“精英”级游戏AI。 然而,这些信息用于训练各种Agent,每个Agent在一个庞大的虚拟AlphaStar联盟中相互竞争。人工智能与人工智能对决,只为了一个目标:精通游戏。 这项技术被称为多智能体强化学习过程,通过集体经验学习。随着新的Agent加入到联盟中,他们分叉并参与越来越多的比赛,通过强化学习在每个阶段采用新策略,同时不忘记如何击败早期的策略。 随着联盟的扩大,新战略开始出现。然后,随着时间的推移,这些策略的反制策略被开发出来,直到该计划在获得了在战术上对如何获胜的不同的理解,无论其在游戏中面临的怎样具体的挑战。在AlphaStar联盟的早期比赛中,该计划偏爱有风险的“All-in”战略。但是,随着时间的推移,它学会了更具战略性,每个Agent实际上都在试图击败它之前看到的每一个Agent。 联盟中的每个Agent也有自己的目标:例如,一个可能需要击败一种竞争者,而另一个可能需要通过使用特定的游戏单元来专注于获胜。联盟运行了14天,每个AI Agent使用16个张量处理单元(谷歌的AI芯片组)。总体而言,每个Agent经历了长达200年的实时星际争霸游戏,并且数千个并行运行的游戏实例。 最终的AlphaStar Agent将通过数千小时游戏玩法发现的所有最佳策略的精华融入到可以在单个桌面GPU上运行的程序中。 “点击”次数比较 除了复杂性,星际争霸挑战对人工智能系统的主要吸引力还在于它的广泛性和竞争性。在众多竞赛中,有超过240万名玩家,因此DeepMind能够在大量数据上训练AlphaStar。在基准测试中,它每分钟能够执行大约280个动作,远低于专业人类玩家可以实现的动作,但是,重要的是,DeepMind认为,AlphaStar更精确。这也反映在了对抗人类对手的比赛中,例如,在对阵Wünsch的第一场比赛中,AlphaStar每分钟完成277次动作,而人类玩家则为559次。AlphaStar轻松赢得了比赛。 这一点为什么重要呢?DeepMind希望这些通过研究星际争霸所完成的无数突破可以扩展到其他不那么琐碎的应用当中。 例如,AlphaStar的神经网络架构可以模拟和理解可能行为的长序列,并使用混乱和不完全的信息来实现。在视频游戏中,这允许AI快速找到获胜策略并在必要时进行调整。在现实世界中,基于大量数据进行复杂的预测是人工智能的基本挑战。 AlphaStar所取得的成就在这一挑战中向前迈出了重要一步。该计划能够在星际争霸中取得优异成绩,以后也可能有助于更精准的天气预报,气候建模和语言理解。“我们对利用AlphaStar项目的学习和发展在这些领域取得重大进展的潜力感到非常兴奋,”DeepMind团队表示。 拭目以待! 相关报道: https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/
听说点了「好看」的人都变好看了哦 (责任编辑:波少) |