[导读]在理解和玩复杂的游戏时,计算机比以往任何时候都更加复杂。作为人工智能领导者之一的DeepMind今天通过其最新的AI agent AlphaStar再次证明这一点。在直播期间,这个程序与两名《星际争霸II》职业选手中分别进行了五场比赛,AlphaStar横扫了所有10场比赛。
在理解和玩复杂的游戏时,计算机比以往任何时候都更加复杂。作为人工智能领导者之一的DeepMind今天通过其最新的AIagentAlphaStar再次证明这一点。在直播期间,这个程序与两名《星际争霸II》职业选手中分别进行了五场比赛,AlphaStar横扫了所有10场比赛。
《星际争霸II》职业选手Dario“TLO”Wünsch和Greegorz“MaNa”Komincz是世界顶级玩家之二。但在神经网络驱动的AlphaStar面前,两人不堪一击。暴雪去年向人工智能研究人员开放了《星际争霸2》,这导致了计算机性能的巨大飞跃。
DeepMind已经掌握了国际象棋和围棋,分别是AlphaZero和AlphaGo。这些棋类游戏已经非常复杂了,地球上没有任何计算机可以靠蛮力计算出对弈中下一步落子。而像《星际争霸2》这样的即时战略视频游戏,在每个时刻的可能性方面都呈指数级增长。这展示了深度学习的力量。像AlphaStar这样的人工智能不必学习《星际争霸》每一场比赛中每一个可能来理解它。相反,它专注于成功的策略。
AlphaStar如何学习
AlphaStar之所以如此重要,是因为它的学习方式。它使用多种技术,DeepMind详细介绍了它的工作原理。
“我们从专业人士和玩家那里获得了很多比赛视频,我们试图通过观察人类玩家所处的情况来让AlphaStar了解。”DeepMind研究联合负责人OriolVinyals说道,“然后我们试图让它模仿这些举动。”
DeepMind也不只是用于专业游戏。该公司还关注在公开比赛中得分较高的选手。
但模仿训练只能创造AlphaStar最基本的迭代。DeepMind说这个版本0.1agent相当于一个白金段位的玩家。
为了给AlphaStar的职业比赛做准备,DeepMind必须使用其神经网络训练。
AlphaStarLeague
你怎样才能在某方面做得更好?答案就是学习和实践。AlphaStart通过模仿学习来确定学习部分。然而,对于这种做法,DeepMind建立了它所谓的AlphaStarLeague。这是一个神经网络训练计划,不同版本的AlphaStar会在一周内不间断地互相打游戏。
这是现代机器学习的核心。DeepMind为AI程序设置成功参数。诸如“赢得比赛”。然后每个AIagent都会做出决定,以实现这一目标。然后,获胜的AI将留在AlphaStarLeague中持续下去。
但训练远不止于此。例如,DeepMind还通过设置特定的agent试图在支持特定单位类型的情况下获胜,从而增加了一代又一代AlphaStar发生突变的可能性。
DeepMind将其AlphaStaragent设置为随机突变,并呈现赢得最多的代理的特征。这个过程非常有效,因为A.I.能够快速连续进行多场比赛。在一周或两周的训练结束时,AlphaStar已经玩了200年的《星际争霸II》。
但是计算机不会作弊吗?
DeepMind知道一些星际争霸玩家对计算机控制的对手持怀疑态度。它请来了星际争霸的专家来讨论比赛,并提出了社区一直以来心中疑惑的问题。这些专家关注的是AlphaStar实际上是如何玩和感知游戏的。例如,它能看透战争迷雾吗?对人类玩家来说,这就像一层面纱。或者仅仅是按键的速度比人手的实际移动速度快1000倍?
但DeepMind表示,它试图保持水平。它限制了AlphaStar的每分钟动作(APM),以确保计算机无法通过纯粹的速度获胜。
“总的来说,AlphaStar使用的APMs要比专业人士少得多。,”DeepMind联合负责人DavidSilver表示,“这表明它不是通过疯狂点击,而是通过做一些比这更聪明的事情来获胜。”
AlphaStar也没有超人的反应时间。
“我们测量了它对事物的反应速度。”Silver说,“如果你测量AlphaStar感知游戏之间的时间。从它观察正在发生的事情开始,然后必须处理它,到将它选择的内容传达给游戏。那个时间实际上接近350毫秒。这个反应时间对于人类玩家来说,已经是行动迟缓了。”
最后,DeepMind解释了AlphaStar如何可视化游戏世界。它没有看代码,也不像人类玩家那样移动摄像头。相反,它一直看的是缩放地图,但它无法透过战争迷雾或类似的东西看到。它只能看到地图中有单位的部分。但DeepMind表示,AlphaStar仍然以与人类玩家相同的方式分割其注意力经济。
AlphaStar确实输了一场比赛
直播主要集中在几周前AlphaStar与TLO和MaNa的五场比赛。但是在YouTube和Twitch上收看的观众面前,DeepMind确实与MaNa进行了复赛。而这正是MaNa赢下机器报仇雪恨的时候。
但是上次比赛相比,MaNa和AlphaStar的现场比赛与有一些变化。DeepMind使用了AlphaStar的新原型版本,它实际上使用与玩家完全相同的相机视图。这意味着AlphaStar不能只是守着缩小的视角,它必须接近行动才能看到战斗的细节。
这个版本的AlphaStar也没有那么多时间训练。因此,它没有经历200年的AlphaStar联盟,而是接近20年的游戏时间。但即使在这种“有限”的体验下,它仍然展示了让所有人震惊的策略。
“AlphaStar比赛的方式与我以前的经历完全不同。”MaNa说。“这是一种与众不同的星际争霸。这是一个人从AI那里学到新东西的好机会。”
这是DeepMind最值得骄傲的事情之一。专业玩家可以通过与计算机对战来获取新的战略构想,这是以前任何人都不会想到的。
“说到底,和人工智能比赛是一件很棒的事情。”Vinyals说。“但是由于我们训练AlphaStar的方式,一些动作-比如过度饱和的探测器-也许这可能挑战一些在顶级玩家中流传的智慧。”
智客帮三大工具类软件,是千家网依托于在智能化行业领域二十年的服务经验和资源开发出的智能化软件,让整个智能化产业提升效率。
1、报价优选——简单易用的项目报价管理软件
2、安装优选——智能家居安装与售后服务平台
3、集成商优选——智能化系统集成商快速查询
声明:凡注明为其它来源的信息均转自其它平台,目的在于传递更多信息,并不代表本站观点及立场和对其真实性负责。若有侵权或异议请联系我们删除。
千家智客微信公众号
扫描下方二维码,关注千家智客微信公众号(qianjiacom),随时随地知晓智能行业天下事!