《星际2》最强AI复现计划:如何打造自己的AlphaStar(4)
时间:2019-02-14 13:47 来源:百度新闻 作者:巧天工 点击:次
基于注意力机制的序列转换目前已经发展成为一个大的模型家族(刚刚在自然语言处理领域大放异彩的BERT也是其中一员),Deepmind 提到 AlphaStar 的输出策略的计算模型是一种产生“指针”来“引用”自己的输入序列从而构建输出序列的自回归(auto-regression)模型。 ?基于多智能体的批评家 AlphaStar 的强化学习核心是“实干家-批评者”(AC)算法族。其具体的选择是引入一种更加适应多个AI共同学习,但每个AI的观测受限的学习环境的估值方法。其基本原理是采用“要不然”式估值(原名为Counterfactual Multiagent,直译为“反事实多智能体”),批评家在评判AI之前做的一项决策的价值时,使用“要是当时不这么做”的话平均下来会有若干回报,那么当初这么做的优势(劣势)也就相应得出。 以上大致是我们从目前已有的知识所能推测的AlphaStar的详细训练方案。在Deepmind正式论文发表之后,补足其中少量细节,我们就可以沿用这套方法,创建自己的星际争霸2训练环境。 参考资料 [1] https://deepmind.com/documents/110/sc2le.pdf [2] https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/ [3] https://papers.nips.cc/paper/5866-pointer-networks.pdf [4] https://www.cs.ox.ac.uk/people/shimon.whiteson/pubs/foersteraaai18.pdf [5] https://arxiv.org/pdf/1802.01561.pdf [6] https://arxiv.org/abs/1602.01783 [7] https://arxiv.org/pdf/1511.06295.pdf (责任编辑:波少) |