广告位API接口通信错误,查看德得广告获取帮助

电竞之家_品味电竞生活移动版

主页 > 星际争霸2 >

《星际2》最强AI复现计划:如何打造自己的AlphaStar(4)

  基于注意力机制的序列转换目前已经发展成为一个大的模型家族(刚刚在自然语言处理领域大放异彩的BERT也是其中一员),Deepmind 提到 AlphaStar 的输出策略的计算模型是一种产生“指针”来“引用”自己的输入序列从而构建输出序列的自回归(auto-regression)模型。

  ?基于多智能体的批评家

  AlphaStar 的强化学习核心是“实干家-批评者”(AC)算法族。其具体的选择是引入一种更加适应多个AI共同学习,但每个AI的观测受限的学习环境的估值方法。其基本原理是采用“要不然”式估值(原名为Counterfactual Multiagent,直译为“反事实多智能体”),批评家在评判AI之前做的一项决策的价值时,使用“要是当时不这么做”的话平均下来会有若干回报,那么当初这么做的优势(劣势)也就相应得出。

  以上大致是我们从目前已有的知识所能推测的AlphaStar的详细训练方案。在Deepmind正式论文发表之后,补足其中少量细节,我们就可以沿用这套方法,创建自己的星际争霸2训练环境。

  参考资料

  [1] https://deepmind.com/documents/110/sc2le.pdf

  [2] https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/

  [3] https://papers.nips.cc/paper/5866-pointer-networks.pdf

  [4] https://www.cs.ox.ac.uk/people/shimon.whiteson/pubs/foersteraaai18.pdf

  [5] https://arxiv.org/pdf/1802.01561.pdf

  [6] https://arxiv.org/abs/1602.01783

  [7] https://arxiv.org/pdf/1511.06295.pdf

(责任编辑:波少)
广告位API接口通信错误,查看德得广告获取帮助