厉害了!Dota2世界冠军被OpenAI碾压(2)
时间:2019-04-19 23:33 来源:百度新闻 作者:巧天工 点击:次
去年TI8结束后,OpenAI研究员David Farhi曾经向量子位透露过他们的推测:通过强化学习自我对局训练出来的AI,其实并不会买眼,买眼的行为是人类通过硬编码强制AI完成的。而乱插眼,很可能是因为AI想要把它随便丢在什么地方,争取一个空白的物品栏。 5个LSTM,修炼45000年 AI的快速进化,其实是刻苦训练的结果,也就是不断的自我对局。 OpenAI CTO Greg Brockman赛前说,他们的AI相当于已经练习了45000年Dota。 OpenAI之前也说过,AI每天的训练量相当于人类打180年游戏;之前输给过OpenAI的MoonMeanderated则说,AI一天要打200万场比赛。 这样的训练量,远非人类能及,当然对计算力的需求也大到吓人:它们的日常训练,需要256块P100 GPU和12.8万个CPU核心。 这支“饭量惊人”的OpenAI Five战队,包含5个智能体(agent),每一个都是包含1024个节点的单层LSTM,能够通过V社(Valve)的Bot API观察当前游戏状态,控制英雄去移动、攻击、施放技能、使用道具。 它们能够观察到的信息和人类差不多,包括自身、队友和敌人的状况,比如位置、血量、攻击力、护甲、携带物品、能力等等。 这些信息,对于智能体来说是一个包含20000数值的列表,而它判断之后发出的行动指令,是8个值的列表。 如果要以一种拟人的方式描述,AI“眼中”的游戏大概是这个样子: 选手们的训练,使用的是扩展版的近端策略优化(PPO)方法,这也是OpenAI现在默认的强化学习训练方法。这些智能体的目标是最大化未来奖励的指数衰减和。 既然是5个智能体,当然还要让它们能作为一支队伍相互配合。为此,OpenAI设计了一个“团队精神”超参数来统一控制。这个超参数的范围在0到1之间,决定了选手对与自身奖励函数和队友平均奖励函数的关注程度分配。 本期人类代表 最后,为不太熟悉OG的朋友简单介绍一下今天的人类代表。 OG,就是去年TI8上3:2击败PSG.LGD,拿下冠军的那支队伍,现在的阵容和去年夺冠时一样: 一二号位Ana(Anathan Pham) Ana以刷钱能力著称,甚至有“世界第一打野”之称,而对线能力是他的短板。这位澳洲华裔选手,去年TI8之后休息了一段时间,今年3月刚刚正式归队。 一二号位Topson(Topias Taavitsainen) 他是2018年刚刚加入OG的新人,曾经在欧服天梯上排名第一,可谓“路人王”。他迅速从毫无大赛经验的业余玩家,成为TI8冠军。因此,他在众多职业选手中显得“思路清奇”,却也常被批评“发挥不稳定”。 三号位Ceb(Sébastien Debs) Ceb,又叫7ckngMad,原本是OG的教练,2018年3月,当时的中单Resolut1on离队后,他先是入队做替补,又正式成为战队里的职业选手。 四号位JerAx(Jesse Vainikka) 2016年,JerAx从Liquid转入OG,在现在的OG阵容里算是一名老将。他曾被称为“欧洲土猫王”,也是一名非常擅长掌控游戏节奏、带起前期优势的辅助。 五号位N0tail(Johan Sundstein) N0tail也被国内网友称为“大爹”,是OG创始人,去年刚刚从1号位转到5号位。 最后,量子位想说,如果你也对上面5名人类代表不满意,赶快去OpenAI Five Arena注册吧! (责任编辑:波少) |