广告位API接口通信错误,查看德得广告获取帮助

电竞之家_品味电竞生活移动版

主页 > 刀塔2 >

Dota2人类赢下一局!AI以2:1战胜Dota2顶尖团队(3)

OpenAI 的 Dota 2 人工智能系统名为“OpenAI Five”。根据 OpenAI 此前的论文,该系统基于机器学习和神经网络技术,在256 个 GPU 和 12.8 万个 CPU(谷歌云平台)的加持下,通过近端策略优化(PPO)算法,24 小时不间断地进行自主对抗,其每日训练量等同于 180 年的游戏时间。

训练全程未使用人类选手的数据,也没有搜索和观看人类游戏的录像,全靠自学成才。不过目前英雄的出装和技能选择都是人类编写的脚本,AI 在每局游戏中会随机选择一套。

由于 AI 系统要“操控”5 位英雄,OpenAI 为每位英雄分配了一个长短期记忆递归神经网络(LSTM RNN Network)。网络之间没有直接的沟通渠道,只有在同一局游戏中,5 个网络才会通过“团队精神”的超参数值互相协调。该参数介于 0 和 1 之间,用于协调个人和团队的利益分配比重。最终这一数值被设定为 0.97,促使每个网络将团队利益放在首位。

Dota2人类赢下一局!AI以2:1战胜Dota2顶尖团队

在训练中,OpenAI 团队使用了奖惩机制来定义每名英雄获得的“得分”:补刀和破塔等行为被视为奖励,而死亡被视为惩罚。

有意思的是,在 GitHub 开源的奖励机制文档中,杀死对方英雄的比重是-0.6,这是因为“击杀”所得到的金钱和经验会增加很多分数,为了平衡“击杀”带来的奖励,故而将其行为本身设为“惩罚”,降低其带来的分数收益,防止 AI 过分追求击杀。

Dota2人类赢下一局!AI以2:1战胜Dota2顶尖团队

图丨AI系统计算个人奖励比重

以上的种种机制不仅印证了 Dota 2 的本质是“推塔”,而不是“击杀”,更重要的是向我们展现了一个理智的决策机制,是如何进行短期利益和长期利益之间的博弈的。

本质上讲,通过强化学习训练的AI系统是在不断寻找和计算一个“最优解”,可以是局部最优,亦或是全局最优。而比赛中的细节显示,AI系统的确会放弃当下的利益,转而为局势和整体发展着想。

因此 OpenAI 认为,“我们的系统确实在向着长远的方向优化。”

纵观全局,AI 系统展现的战术成长、沟通、协调和取舍可以简单地概括为“为达最终目标的长期规划”。无论是 OpenAI Five 之于 Dota 2,还是 DeepMind Alpha Go之于围棋,人工智能都做出了一些人类难以理解的举动,其中不乏完全没有意义和必要的操作,这归根结底是从零开始学习的结果,AI 系统仍然在摸索并逐步完善。不过事实已经证明,无数个类似的举动最终带来了胜利,也启发了人类。

国外解说 Purge 和 Pixel 在比赛中多次提到,人类选手可以从 AI 身上学到很多技巧,比如仇恨分担和转移。这也是 OpenAI 系统的正确使用方式,人类目前对AI 系统的套路和策略并不了解,相信在多次练习和对战中,人类对抗 AI 的能力一定会有所提高。这反过来也可以用来提升人类玩家的水平。

正如 OpenAI 联合创始人兼 CTO Greg Brockman 所说,因为 OpenAI 背后也是人类智慧的结晶,“无论结果如何,胜利(受益)的一方都是人类。”

Dota2人类赢下一局!AI以2:1战胜Dota2顶尖团队

(责任编辑:波少)
广告位API接口通信错误,查看德得广告获取帮助