广告位API接口通信错误,查看德得广告获取帮助

电竞之家_品味电竞生活移动版

主页 > 星际争霸2 >

玩转《星际争霸》?谷歌AI碾压人类职业玩家(2)

在与TLO的五场比赛后,DeepMind团队让AlphaStar重新接受训练。在经过14天的实时训练后,来自锦标赛式训练环境的胜出者接受训练的时间相当于200年,而这种差别是显而易见的。AI不再犯明显的战术错误。它的决定对人类观察者来说仍然不是总有意义的,但是很难识别出任何明显的错误。

AlphaStar接下来与更高等级的职业玩家——格列戈尔兹·科明兹(Grzegorz? Komincz,绰号MaNa)对决,不像TLO,MaNa操作他最喜欢的种族(星际争霸有三个种族,而且大多数职业玩家专练不同的种族)。即使MaNa没有犯明显的错误,他也依然被打败了,这在很大程度上要归功于AI分裂和操纵其单位的能力,其协调性是任何人类都无法媲美的。AlphaStar再次赢了每场比赛。

唐杰表示:“这真的很有趣,也令人印象深刻。我一直在寻找的更高层次的东西,那就是战略与机制。也就是说,AI是否擅长提出游戏的大方向,或者只是通过巧妙地执行糟糕的策略而获胜?AlphaStar在这两方面的表现都很出色。它提出的高水平策略与职业玩家水平的人类玩家非常相似,它还有完美的机制可以遵循。”

之后,DeepMind又回到了绘图板上。在这10场比赛中,AI有个人类玩家所没有的巨大优势:它能够看到地图上所有可见的部分,而人类玩家必须操纵摄像头才能看到。DeepMind训练了新版本的AlphaStar,它必须自己操纵摄像头。然后是200年的训练,并从自我对决中挑选最好的AI代理。

在随后现场直播的比赛中,这款新的AlphaStar AI输给了MaNa,它似乎受到了自身需要操作摄像头的严重阻碍,无法像早期游戏中其他版本的AlphaStar所采取的许多惊人策略。对于DeepMind来说,这次失利可能是个令人失望的结局,但这款AI只训练了七天。看起来,当它有机会接受进一步训练时,它将可能重新赢得比赛。DeepMind发现,管理摄像头的AI只是稍弱了一点,并在奋起直追。

目前AlphaStar的模型当然还有弱点。事实上,早期AlphaStar AI的许多缺陷让人想起DeepMind AlphaGo的早期比赛。早期发布的AlphaGo通常获胜,但经常会出现人类能够识别的错误。DeepMind团队始终在改进它,如今AlphaZero不会犯任何人类可能会注意到的错误。

很明显,AlphaStar在《星际争霸》方面仍有改进的空间。它相对于人类的战略优势很大程度上来自于这样一个事实:作为一台计算机,它更擅长于微观管理。它的军队擅长侧翼包抄和智取人类军队,部分原因是它能同时指挥五支军队,而这是任何人类都无法做到的。

在这些游戏中,很少有战术在职业游戏中得到广泛应用,因为AI的成功主要不是因为它在考虑人类局限性从而打败了人类,而是因为它找到了能够融入自身优势的战术。虽然从技术上讲,AI的每分钟操作和反应时间都在人类的控制范围之内,但由于它的精确度更高,似乎仍有优势。更公平的做法可能是进一步限制AlphaStar的能力。

人类在很多方面仍然比最好的AI具备更大优势。例如,MaNa根据AlphaStar最初的五场比赛调整了自己对AlphaStar的反应,这可能会让他在直播比赛中获得优势。AlphaStar做不到这一点,我们不太了解能够让AI在一场游戏中学到很多东西,然后在下一场游戏中应用这些经验的训练方法。

尽管如此,解说员反复强调,AlphaStar在很多方面都与人类惊人地相似。它知道如何佯攻,如何发动早期攻击,如何应对伏击,如何在地形上导航。早在需要煞费苦心地给电脑发布指令的时候,唐杰就一直在为游戏开发AI。他说:“从那时起,我们在现代AI和现代强化学习所能做出的各种决定方面取得了巨大的进步,真是令人印象深刻。”

在AlphaStar输掉的一场比赛中,有一件事它不知道该怎么做,那就是“好好比赛”。一旦比赛无望,它就像人类玩家那样认输。也许下次我们看到它的时候,它就会明白这些道理了,也许就再也不需要这些指导了。 (编译/小小)

杜瑶

(责任编辑:波少)
广告位API接口通信错误,查看德得广告获取帮助