【重磅】DeepMind进军星际争霸2,谷歌Facebook打响通用AI战争(2)
时间:2019-01-27 06:42 来源:百度新闻 作者:巧天工 点击:次
举例来说,如果游戏的目标是击败对手,游戏者必须采用并权衡一系列子目标,比如采集能源或修建建筑。另外,一局游戏的时长可能长至一小时,这意味着游戏早期采取的一些行动可能长时间得不到回报。最后,地图上有很大一部分是的,这意味着智能体必须结合其记忆力和规划能力,才能获胜。 这款游戏还有其他吸引研究者的特质,比如每天都有人数众多的狂热玩家在线比赛,这保证了训练智能体所必需的回放数据,也保证了 AI 智能体不缺有实力的对手。 星际争霸的动作候选空间里有高达 300 种基本动作可被采用,Atari 游戏则大概只有 10 种(如上、下、左、右等)。不仅如此,星际争霸中的动作还是有层次的,可以被调整和增强,其中许多都要在 screen 上占据一个 point。即使screen 尺寸只有 84x84,可选动作也约有 1 亿个。 本次发布意味着,研究者现在可以使用暴雪自己的工具来构建自己的任务和模型,来应对上述挑战了。 这次发布中的 PySC2 环境提供了灵活易用的强化学习智能体界面。在这一初始发布中,DeepMind 将游戏分解成了“feature layer”,其中诸如单位类型、血量、地图可见度这样的元素彼此是孤立的,同时也保留了游戏的核心视觉和空间元素。 AI 在迷你游戏和完整游戏中表现差异巨大 本次发布还包括了一系列迷你游戏(mini-games),这是一种将游戏分解成更可控的部分的技术,可以用于测试智能体在特定任务中的表现,例如移动视角(camera)、采矿或是选择操作单位。DeepMind 在博客中表示,希望研究者能够在这些迷你游戏上测试其技术,同时也为其他研究者提供新的迷你游戏,用以竞赛和评估。 DeepMind 在博客中说,初始研究显示其智能体在迷你游戏上表现良好,但在完整游戏中,即使强大的baseline 智能体,比如 A3C,也无法打败最简单的游戏 AI。下面的视频展示了一个早期训练智能体(左),无法让其农民采矿,而这对于人类来说完全不成问题。训练之后(右),智能体采取的动作更为合理了,但还需要在深度强化学习和相关领域取得更多的突破,才能让其真正应对竞赛要求。 DeepMind 最后在博客中表示,使得他们的智能体学习更强大策略的一个技术是模仿学习(Imitation Learning)。暴雪将持续放出成千上万收集自星际争霸 2 ladder 的匿名游戏回放,多亏这一点,这种训练方法变得容易很多。这将不仅使研究者可以训练有监督智能体进行游戏,而且也将打开其他有趣的研究领域,例如序列预测和 long-term memory。DeepMind 希望此次新工具的发布将进一步推动 AI 社区已经在星际争霸 1 中所做的工作,鼓励更多的深度强化学习研究,使研究者更轻松地聚焦领域前沿研究。
DeepMind 论文:星际争霸 2,强化学习的新挑战
论文摘要: 本文介绍了SC2LE(StarCraft II Learning Environment),这是基于“星际争霸2”游戏的强化学习环境。这个领域为强化学习提出了一个新的大挑战,提出了以前大多数工作未考虑到的更具挑战性的课题。这是一个多智能体问题,并伴有多个玩家的互动。由于智能观察地图中的一部分,所以存在着不完全的信息;它具有涉及数百个单位的选择和控制的巨大的动作空间;它的状态空间巨大,只能从原始输入特征面观察;它需要超过数千步的长期战略,延迟了credit 分配。我们描述了星际争霸2 的观察、动作和奖励参数,并提供了一个开源的基于Python 的界面,用于与游戏引擎进行沟通。除了游戏的主地图,我们提供了一系列迷你游戏,聚焦于星际争霸2 的不同元素。对于游戏的主地图,我们还提供了一个来自人类职业玩家(匿名)的游戏回放数据的附带数据集。我们给出了从该数据训练的预测游戏结果和玩家行为的神经网络的初始基线结果。最后,我们给出了一些权威的深度强化学习智能体应用于星际争霸 2 的初步基线结果。在迷你游戏中,这些智能体学习达到了与新手玩家相当的游戏水平。但是,在主游戏训练中,这些智能体无法取得重大进展。SC2LE为探索深度强化学习算法和架构提供了一个新的、具有挑战性的环境。
上图:星际争霸 2 学习环境 SC2LE,图中展示的是嵌入到一个神经网络智能体中的组件。 PySC2 视角。在图的左边展示了人类可理解的角度,右边彩色的版本则是 feature layer 。比如,例如,地形高度,雾战,爬行,摄像机位置和玩家身份,都显示在功能图层的顶层中。视频: 上图是人类在星际争霸 2 上的玩法与 PySC2 显示的玩法的比较。我们将行动空间设计得尽可能贴近人类行为。第一行显示游戏画面,第二行是人类动作,第三行是PySC2中采取的逻辑动作,第四行是由环境暴露的动作(以红色表示,智能体在每个时间步骤中的选择)。请注意,前两列不具有“构建供应”操作的功能,在这些情况下智能体尚不能使用此功能,因为必须首先选择 worker。
本论文考虑的基础智能体的网络架构 此前,Facebook 刚刚公布了史上最大的《星际争霸:母巢之战》游戏数据集 (责任编辑:波少) |