《星际2》最强AI复现计划：如何打造自己的AlphaStar(4)_电竞之家

《星际2》最强AI复现计划：如何打造自己的AlphaStar(4)

时间:2019-02-14 13:47 来源:百度新闻作者:巧天工点击:次

　　基于注意力机制的序列转换目前已经发展成为一个大的模型家族（刚刚在自然语言处理领域大放异彩的BERT也是其中一员），Deepmind 提到 AlphaStar 的输出策略的计算模型是一种产生“指针”来“引用”自己的输入序列从而构建输出序列的自回归(auto-regression)模型。

　　?基于多智能体的批评家

　　AlphaStar 的强化学习核心是“实干家-批评者”（AC）算法族。其具体的选择是引入一种更加适应多个AI共同学习，但每个AI的观测受限的学习环境的估值方法。其基本原理是采用“要不然”式估值（原名为Counterfactual Multiagent，直译为“反事实多智能体”），批评家在评判AI之前做的一项决策的价值时，使用“要是当时不这么做”的话平均下来会有若干回报，那么当初这么做的优势（劣势）也就相应得出。

　　以上大致是我们从目前已有的知识所能推测的AlphaStar的详细训练方案。在Deepmind正式论文发表之后，补足其中少量细节，我们就可以沿用这套方法，创建自己的星际争霸2训练环境。

　　参考资料

　　[1] https://deepmind.com/documents/110/sc2le.pdf

　　[2] https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/

　　[3] https://papers.nips.cc/paper/5866-pointer-networks.pdf

　　[4] https://www.cs.ox.ac.uk/people/shimon.whiteson/pubs/foersteraaai18.pdf

　　[5] https://arxiv.org/pdf/1802.01561.pdf

　　[6] https://arxiv.org/abs/1602.01783

　　[7] https://arxiv.org/pdf/1511.06295.pdf

(责任编辑：波少)

上一篇：2019星际争霸 II电竞计划：银白升级黄金次级联赛
下一篇：电子竞技新纪元 2019年星际2电竞计划全新起航

《星际2》最强AI复现计划：如何打造自己的AlphaStar(4)

时间:2019-02-14 13:47 来源:百度新闻 作者:巧天工 点击:次

时间:2019-02-14 13:47 来源:百度新闻作者:巧天工点击:次