广告位API接口通信错误,查看德得广告获取帮助

电竞之家_品味电竞生活移动版

主页 > 星际争霸2 >

星际2职业高手首次被AI击溃,AlphaStar一战成名(3)

  连胜之后,DeepMind团队总会有大胆的想法冒出来——他们迭代了第二版AlphaStar,这一版和人类观察地图的方式是一样的,也要不停选择将视野切换到哪,只能看到屏幕上视野范围内的信息,而且只能在这个范围内操作。

  视野切换版AlphaStar经过7天训练,达到了和第一版差不多的水平。

  不过,这个版本的智能体原型还是在今天的直播中输给了MaNa,成为了10-1里的1。

  DeepMind对他们的AI仍然充满信心,他们在博客中说,这个智能体只训练了7天,希望能在不久的将来,能测试一个完全训练好了的视野版智能体。

  现在,AlphaStar还只能玩神族。DeepMind说,他们为了在内部测试中减少训练时间和变量,决定先只玩一个种族。

  不过,这不代表它就学不会其他种族。同样的训练流程,换个种族还是一样用。

  星际界的樊麾和带路党

  这次人机大战背后,有很多人的努力,我们这次重点介绍三个人。

  首先是AlphaStar的两个人类对手。

  TLO是一位德国职业星际2选手,原名Dario Wünsch,1990年7月13日出生。现在效力于职业游戏战队Liquid。

  之前TLO有个称号:随机天王。星际2的公测阶段,他使用哪个种族都得心应手,不过后来,TLO开始逐渐专攻于虫族。

  根据官方公布的数据,TLO在2018 WCS Circuit排名:44。

星际2职业高手首次被AI击溃,AlphaStar一战成名

  国内关于TLO的资料,不少都是几年前的对战,现在TLO应该已经在自己职业生涯的末期,可以算是一位久经沙场的老将。

  MaNa是一位出生于波兰的职业星际2选手,原名Grzegorz Komincz,1993年12月14日出生,目前也效力于Liquid。

  与TLO相比,MaNa是一个正值当打之年的选手。

  而且,他更擅长的是神族。尽管他打出GG的速度更快……

  MaNa去年获得WCS Austin的第二名。根据官方公布的数据,他在2018 WCS Circuit排名:13。

星际2职业高手首次被AI击溃,AlphaStar一战成名

  MaNa和TLO和AlphaStar的对战,发生在去年12月。地点在伦敦,就是DeepMind的总部。这不禁让人想起当年AlphaGo的故事。

  AlphaGo名不见经传时,也是悄悄把樊麾请到了伦敦,然后把樊麾杀得有点怀疑“棋”生。然后开始向全世界公布突破性的进展。

  TLO和MaNa,应该就是星际2界的樊麾了吧。

  第三个是AlphaStar的教父:Oriol Vinyals。

  他是DeepMind星际2项目的核心负责人。我们在此前的报道里介绍过他。1990年代,十几岁的Oriol Vinyals成了西班牙《星际争霸》全国冠军。

  他之所以玩这款科幻策略游戏,是因为比其他打打杀杀的游戏更需要动脑子。维纽斯说:“没上大学之前,这款游戏就让我在生活中怀有更强的战略思维。”

  Vinyals的战略思维的确获得了回报:在巴塞罗那学习了电信工程和数学之后,维纽斯去过微软研究院实习,获得了加州大学伯克利的计算机博士学位,接着加入谷歌大脑团队,开始从事人工智能开发工作,然后又转入谷歌旗下DeepMind团队。

  他又跟“星际争霸”打起了交道。

  但这一次不是他亲自玩,而是教给机器人怎么玩。在人工智能成为全球最优秀的围棋选手后,星际成为了下一个攻克目标。

  AI打星际的意义

  早在2003年人类就开始尝试用AI解决即时战略(RTS)游戏问题。那时候AI还连围棋问题还没有解决,而RTS比围棋还要复杂。

星际2职业高手首次被AI击溃,AlphaStar一战成名

  直到2016年,“阿尔法狗”打败了李世石。DeepMind在解决围棋问题后,很快把目光转向了《星际2》。

  与国际象棋或围棋不同,星际玩家面对的是“不完美信息博弈”。

  在玩家做决策之前,围棋棋盘上所有的信息都能直接看到。而游戏中的“战争迷雾”却让你无法看到对方的操作、阴影中有哪些单位。

  这意味着玩家的规划、决策、行动,要一段时间后才能看到结果。这类问题在现实世界中具有重要意义。

  为了获胜,玩家必须在宏观战略和微观操作之间取得平衡。

  平衡短期和长期目标并适应意外情况的需要,对脆弱和缺乏灵活性的系统构成了巨大挑战。

  掌握这个问题需要在几个AI研究挑战中取得突破,包括:

  博弈论:星际争霸没有单一的最佳策略。因此,AI训练过程需要不断探索和拓展战略知识的前沿。

  不完美信息:不像象棋或围棋那样,棋手什么都看得到,关键信息对星际玩家来说是隐藏的,必须通过“侦察”来主动发现。

  长期规划:像许多现实世界中的问题一样,因果关系不是立竿见影的。游戏可能需要一个小时才能结束,这意味着游戏早期采取的行动可能在很长一段时间内都不会有回报。

  实时:不同于传统的棋类游戏,星际争霸玩家必须随着游戏时间的推移不断地执行动作。

  更大的操作空间:必须实时控制数百个不同的单元和建筑物,从而形成可能的组合空间。此外,操作是分层的,可以修改和扩充。

  为了进一步探索这些问题,DeepMind与暴雪2017年合作发布了一套名为PySC2的开源工具,在此基础上,结合工程和算法突破,才有了现在的AlphaStar。

星际2职业高手首次被AI击溃,AlphaStar一战成名

  除了DeepMind以外,其他公司和高校去年也积极备战:

  4月,南京大学的俞扬团队,研究了《星际2》的分层强化学习方法,在对战最高等级的无作弊电脑情况下,胜率超过93%。

  9月,腾讯AI Lab发布论文称,他们构建的AI首次在完整的虫族VS虫族比赛中击败了星际2的内置机器人Bot。

  11月,加州大学伯克利分校在星际2中使用了一种新型模块化AI架构,用虫族对抗电脑难度5级的虫族时,分别达到 94%(有战争迷雾)和 87%(无战争迷雾)的胜率。

  下一步

星际2职业高手首次被AI击溃,AlphaStar一战成名

  今天AI搞定了《星际2》,DeepMind显然不满足于此,他们的下一步会是什么?

  哈萨比斯在赛后说,虽然星际争霸“只是”一个非常复杂的游戏,但他对AlphaStar背后的技术更感兴趣。其中包含的超长序列的预测,未来可以用在天气预测和气候建模中。

  他还透露将在期刊上发表经过同行评审的论文,详细描述AlphaStar的技术细节。一起期待吧~

(责任编辑:波少)
广告位API接口通信错误,查看德得广告获取帮助