Dota2人类赢下一局!AI以2:1战胜Dota2顶尖团队(3)
时间:2019-01-17 11:59 来源:百度新闻 作者:巧天工 点击:次
OpenAI 的 Dota 2 人工智能系统名为“OpenAI Five”。根据 OpenAI 此前的论文,该系统基于机器学习和神经网络技术,在256 个 GPU 和 12.8 万个 CPU(谷歌云平台)的加持下,通过近端策略优化(PPO)算法,24 小时不间断地进行自主对抗,其每日训练量等同于 180 年的游戏时间。 训练全程未使用人类选手的数据,也没有搜索和观看人类游戏的录像,全靠自学成才。不过目前英雄的出装和技能选择都是人类编写的脚本,AI 在每局游戏中会随机选择一套。 由于 AI 系统要“操控”5 位英雄,OpenAI 为每位英雄分配了一个长短期记忆递归神经网络(LSTM RNN Network)。网络之间没有直接的沟通渠道,只有在同一局游戏中,5 个网络才会通过“团队精神”的超参数值互相协调。该参数介于 0 和 1 之间,用于协调个人和团队的利益分配比重。最终这一数值被设定为 0.97,促使每个网络将团队利益放在首位。 在训练中,OpenAI 团队使用了奖惩机制来定义每名英雄获得的“得分”:补刀和破塔等行为被视为奖励,而死亡被视为惩罚。 有意思的是,在 GitHub 开源的奖励机制文档中,杀死对方英雄的比重是-0.6,这是因为“击杀”所得到的金钱和经验会增加很多分数,为了平衡“击杀”带来的奖励,故而将其行为本身设为“惩罚”,降低其带来的分数收益,防止 AI 过分追求击杀。 图丨AI系统计算个人奖励比重 以上的种种机制不仅印证了 Dota 2 的本质是“推塔”,而不是“击杀”,更重要的是向我们展现了一个理智的决策机制,是如何进行短期利益和长期利益之间的博弈的。 本质上讲,通过强化学习训练的AI系统是在不断寻找和计算一个“最优解”,可以是局部最优,亦或是全局最优。而比赛中的细节显示,AI系统的确会放弃当下的利益,转而为局势和整体发展着想。 因此 OpenAI 认为,“我们的系统确实在向着长远的方向优化。” 纵观全局,AI 系统展现的战术成长、沟通、协调和取舍可以简单地概括为“为达最终目标的长期规划”。无论是 OpenAI Five 之于 Dota 2,还是 DeepMind Alpha Go之于围棋,人工智能都做出了一些人类难以理解的举动,其中不乏完全没有意义和必要的操作,这归根结底是从零开始学习的结果,AI 系统仍然在摸索并逐步完善。不过事实已经证明,无数个类似的举动最终带来了胜利,也启发了人类。 国外解说 Purge 和 Pixel 在比赛中多次提到,人类选手可以从 AI 身上学到很多技巧,比如仇恨分担和转移。这也是 OpenAI 系统的正确使用方式,人类目前对AI 系统的套路和策略并不了解,相信在多次练习和对战中,人类对抗 AI 的能力一定会有所提高。这反过来也可以用来提升人类玩家的水平。 正如 OpenAI 联合创始人兼 CTO Greg Brockman 所说,因为 OpenAI 背后也是人类智慧的结晶,“无论结果如何,胜利(受益)的一方都是人类。” |