Dota2人类赢下一局！AI以2:1战胜Dota2顶尖团队(3)_电竞之家

Dota2人类赢下一局！AI以2:1战胜Dota2顶尖团队(3)

时间:2019-01-17 11:59 来源:百度新闻作者:巧天工点击:次

OpenAI 的 Dota 2 人工智能系统名为“OpenAI Five”。根据 OpenAI 此前的论文，该系统基于机器学习和神经网络技术，在256 个 GPU 和 12.8 万个 CPU（谷歌云平台）的加持下，通过近端策略优化（PPO）算法，24 小时不间断地进行自主对抗，其每日训练量等同于 180 年的游戏时间。

训练全程未使用人类选手的数据，也没有搜索和观看人类游戏的录像，全靠自学成才。不过目前英雄的出装和技能选择都是人类编写的脚本，AI 在每局游戏中会随机选择一套。

由于 AI 系统要“操控”5 位英雄，OpenAI 为每位英雄分配了一个长短期记忆递归神经网络（LSTM RNN Network）。网络之间没有直接的沟通渠道，只有在同一局游戏中，5 个网络才会通过“团队精神”的超参数值互相协调。该参数介于 0 和 1 之间，用于协调个人和团队的利益分配比重。最终这一数值被设定为 0.97，促使每个网络将团队利益放在首位。

Dota2人类赢下一局！AI以2:1战胜Dota2顶尖团队

在训练中，OpenAI 团队使用了奖惩机制来定义每名英雄获得的“得分”：补刀和破塔等行为被视为奖励，而死亡被视为惩罚。

有意思的是，在 GitHub 开源的奖励机制文档中，杀死对方英雄的比重是-0.6，这是因为“击杀”所得到的金钱和经验会增加很多分数，为了平衡“击杀”带来的奖励，故而将其行为本身设为“惩罚”，降低其带来的分数收益，防止 AI 过分追求击杀。

Dota2人类赢下一局！AI以2:1战胜Dota2顶尖团队

图丨AI系统计算个人奖励比重

以上的种种机制不仅印证了 Dota 2 的本质是“推塔”，而不是“击杀”，更重要的是向我们展现了一个理智的决策机制，是如何进行短期利益和长期利益之间的博弈的。

本质上讲，通过强化学习训练的AI系统是在不断寻找和计算一个“最优解”，可以是局部最优，亦或是全局最优。而比赛中的细节显示，AI系统的确会放弃当下的利益，转而为局势和整体发展着想。

因此 OpenAI 认为，“我们的系统确实在向着长远的方向优化。”

纵观全局，AI 系统展现的战术成长、沟通、协调和取舍可以简单地概括为“为达最终目标的长期规划”。无论是 OpenAI Five 之于 Dota 2，还是 DeepMind Alpha Go之于围棋，人工智能都做出了一些人类难以理解的举动，其中不乏完全没有意义和必要的操作，这归根结底是从零开始学习的结果，AI 系统仍然在摸索并逐步完善。不过事实已经证明，无数个类似的举动最终带来了胜利，也启发了人类。

国外解说 Purge 和 Pixel 在比赛中多次提到，人类选手可以从 AI 身上学到很多技巧，比如仇恨分担和转移。这也是 OpenAI 系统的正确使用方式，人类目前对AI 系统的套路和策略并不了解，相信在多次练习和对战中，人类对抗 AI 的能力一定会有所提高。这反过来也可以用来提升人类玩家的水平。

正如 OpenAI 联合创始人兼 CTO Greg Brockman 所说，因为 OpenAI 背后也是人类智慧的结晶，“无论结果如何，胜利（受益）的一方都是人类。”

Dota2人类赢下一局！AI以2:1战胜Dota2顶尖团队

(责任编辑：波少)

上一篇：Dota2迎霜节更新了哪些珍藏II？18款新珍藏曝光！
下一篇：DOTA2更新：德尊异兽图标更新，新增忍术盗取金钱计数

Dota2人类赢下一局！AI以2:1战胜Dota2顶尖团队(3)

时间:2019-01-17 11:59 来源:百度新闻 作者:巧天工 点击:次

时间:2019-01-17 11:59 来源:百度新闻作者:巧天工点击:次