广告位API接口通信错误,查看德得广告获取帮助

电竞之家_品味电竞生活移动版

主页 > 刀塔2 >

Dota2也被AI战胜了!OpenAI打出4200逆天高分 超过90%人类玩家(2)

为了能够及时作出有效应变,OpenAI Five需要长期不断地探索环境。OpenAI Five通过探索获得对应的奖励值,以衡量人们在游戏中做出的进攻、辅助等决定,在减去平均奖励后为OpenAI Five的下一步行动提供选择的基准。

3、协调

OpenAI Five的英雄神经网络之间并没有具体的通信渠道,它们通过被研究人员称为“团队精神”的超参数控制团队合作。“团队精神”范围从0到1,对OpenAI Five的每个英雄如何权衡多少个人奖励与团队奖励提供了权值设置,从而使得系统因地制宜地学习新策略。

4、快速

OpenAI Five使用通用RL训练系统Rapid,研究人员已经使用Rapid解决了OpenAI的竞争性自我对局(Competitive Self-Play)等其他问题。研究团队使用自己的NCCL2封装来并行GPU计算和网络数据传输,并采用Kubernetes,Azure和GCP后端。

Dota2也被AI战胜了!OpenAI打出4200逆天高分 超过90%人类玩家

三、挑战比AlphaGo更高的难度

人们提到AI里程碑式的进步,往往会想到AI战胜国际象棋或围棋世界冠军。如今,新的AI的里程碑则是在像StarCraft或Dota 这样复杂的视频游戏中表现超越人类。比传统棋牌游戏难度更大的是,复杂的视频游戏开始捕捉现实世界的混乱和连续移动。这需要能够适应这类游戏规则的系统具有很高的通用性。

玩Dota 2的AI面临以下几个难点:

1、持续时间长
Dota游戏以每秒30帧的速度运行,平均时间为45分钟,每场游戏平均80,000帧。OpenAI Five每4帧观察一次,产生20,000次移动。几乎所有的举动是战略性的。

2、观察范围受限

象棋和围棋都是全信息游戏,而Dota游戏中敌人可以隐藏,比赛需要根据不完整的数据进行推断,并且需要实时掌握对手的状态信息。AI暂时不具备对视野的控制能力,玩的版本要求双方只能在游戏既定视野中对战,不能根据能力改变视野。

3、高度连续的动作空间

在Dota中,每个英雄可以采取数十个动作。研究人员将每个英雄的空间分割成170,000个可能的行动;不计连续部分,每帧平均有大约1000次有效操作。而围棋的平均动作数为250步,国际象棋则更少,仅有35步。

4、高维度连续的观察空间

Dota在包含十个英雄、数十个建筑物、几十个NPC单位以及诸如符文、树木和病房等一系列游戏特征,这些特征将持续在梯田上移动。OpenAI Five模型通过Valve的Bot API观察Dota游戏的状态,其中大约20,000个浮点数被用于表示允许人类访问的所有信息。相比之下,国际象棋棋盘大约需70个枚举值, 一个Go棋盘大约需400个枚举值。

Dota2也被AI战胜了!OpenAI打出4200逆天高分 超过90%人类玩家

Dota规则也非常复杂,游戏已经被开发了十多年,拥有数十万行复杂代码。这个逻辑需要几毫秒的时间才能执行,而对于国际象棋和围棋而言,只需要几纳秒。此外,游戏每两周更新一次,它大环境语义也在不断改变。针对这些问题,OpenAI Five团队使用Proximal Policy Optimization的大规模版本进行学习,其使用的CPU、图形处理器、游戏每秒观察数等各种参数都较去年的OpenAI 1v1机器人有了全面的提升。

根据当前版本OpenAI Five的测试比赛表现,评论员Blitz估计它大致是Dota玩家的中间水平。在比赛过程中,研究人员发现,OpenAI Five会做出一些专业策略,比如为了长期的团队回报而做出暂时的自我牺牲,以残血将人类玩家诱出高地。这些观察大大增加了研究人员的信心,对于游戏中还没有整合进来的一些元素,他们将在后续尽快加上。

结语:剑指TI8,我们的目标是星辰大海

这仅仅是个开始。尽管OpenAI Five还有很大的障碍需要克服,耗费了大量的人力和财力,它的野心又怎么可能止步于和业余玩家对局?OpenAI Five的研究团队称,他们正在专注于优化系统,希望它能超越人类的表现。

有了去年1v1的完胜成绩,今年8月下旬,在加拿大温哥华举行的顶级Dota 2赛事TI8上,OpenAI Five将进军5v5团战,与真正的专业选手战队一决高下。在此之前的7月28日,OpenAI Five会先行与顶级玩家对战,并通过Twitch的实况转播和大家见面。

如果OpenAI Five能打出漂亮的一仗,它将分食DeepMind的AlphaGo系列带给人们的雷霆。真实世界的AI部署要处理的难题远远比在国际象棋、围棋、Atari游戏中的问题更加复杂,“协作型”AI技将有望学会真实世界中复杂而混乱的重要任务。比如,通过相互配合在在线交易或广告竞价排名中拿下订单,在组队完成多样化生产制造任务,甚至是完成外科手术等等。这些都会使人类双手得到进一步解放。

OpenAI希望有朝一日,借助和Dota 2比赛的经验构建更加通用的系统,为人类社会做出贡献。

原文来自:OpenAI,The Verge,Financial Times

Dota2也被AI战胜了!OpenAI打出4200逆天高分 超过90%人类玩家

(责任编辑:波少)
广告位API接口通信错误,查看德得广告获取帮助