2:0！Dota2世界冠军被OpenAI碾压，人类玩家全程只推掉两座外塔(2)_电竞之家

去年TI8结束后，OpenAI研究员David Farhi曾经向量子位透露过他们的推测：通过强化学习自我对局训练出来的AI，其实并不会买眼，买眼的行为是人类通过硬编码强制AI完成的。而乱插眼，很可能是因为AI想要把它随便丢在什么地方，争取一个空白的物品栏。

5个LSTM，修炼45000年

AI的快速进化，其实是刻苦训练的结果，也就是不断的自我对局。

OpenAI CTO Greg Brockman赛前说，他们的AI相当于已经练习了45000年Dota。

OpenAI之前也说过，AI每天的训练量相当于人类打180年游戏；之前输给过OpenAI的MoonMeanderated则说，AI一天要打200万场比赛。

这样的训练量，远非人类能及，当然对计算力的需求也大到吓人：它们的日常训练，需要256块P100 GPU和12.8万个CPU核心。

2:0！Dota2世界冠军被OpenAI碾压，人类玩家全程只推掉两座外塔

这支“饭量惊人”的OpenAI Five战队，包含5个智能体（agent），每一个都是包含1024个节点的单层LSTM，能够通过V社（Valve）的Bot API观察当前游戏状态，控制英雄去移动、攻击、施放技能、使用道具。

它们能够观察到的信息和人类差不多，包括自身、队友和敌人的状况，比如位置、血量、攻击力、护甲、携带物品、能力等等。

这些信息，对于智能体来说是一个包含20000数值的列表，而它判断之后发出的行动指令，是8个值的列表。

2:0！Dota2世界冠军被OpenAI碾压，人类玩家全程只推掉两座外塔

选手们的训练，使用的是扩展版的近端策略优化（PPO）方法，这也是OpenAI现在默认的强化学习训练方法。这些智能体的目标是最大化未来奖励的指数衰减和。

既然是5个智能体，当然还要让它们能作为一支队伍相互配合。为此，OpenAI设计了一个“团队精神”超参数来统一控制。这个超参数的范围在0到1之间，决定了选手对与自身奖励函数和队友平均奖励函数的关注程度分配。

(责任编辑：波少)