“击败星际争霸II职业玩家”的AlphaStar是在作弊？(3)_电竞之家

“击败星际争霸II职业玩家”的AlphaStar是在作弊？(3)

时间:2019-01-30 20:56 来源:百度新闻作者:巧天工点击:次

（action space）巨大无比，我记得他们在一开始做的基线（baseline）算法里面用了 language model 输出精确到单位的行动（unit-level action），但在 DM 的 blog 里面却说每个时间节点上只有 10 到 26 种不同的合法行动，然后在他们的 demonstration 里面“considered Build/Train”下面有 33 个输出。这些都让人非常困惑。或许他们在监督学习的时候已经建立了一些子策略（比如说通过聚类的方法），然后在训练的时候直接调用这些子策略就行了。但具体细节不明，期待完整论文出来。

另外，这次 AlphaStar 没有用基于模型进行规划的办法，目前看起来是完全用经典的 off-policy actor-critic 加大量 CPU 硬来，就有这样的效果。关于 AlphaStar 输掉的那局。实话说被简单的空投战术重复几次给拖死了，让人大跌眼镜。联想到 OpenAI Five 对职业选手也输了，主要还是应变能力不强，无法对新战术新模式及时建模。

（MCTS）对当前局面进行临时建模和分析，但不完全信息博弈因为得要估计对手情况就没有那么简单。AlphaStar 目前似乎是无模型的（model-free，Reddit 上的解答确认了这一点）（model-free）的方法可以完全达到树搜索的效果——但至少我们能看到在围棋上，就算是用相当好的模型比如说 OpenGo，要是每盘都不用搜索而只用策略网络的最大概率值来落子，还是会经常犯错。所以说，若是在不完全信息博弈里面用上了基于模型（model-based）（model-free）

在这之上，更难的一个问题是如何让 AI 具有高层推理的能力。人对将来的预测是非常灵活且极为稳定的，可能会想到一秒后，也可能会想到一年后，而且对新模式可以很快概括总结并加以利用。但真写点算法去模仿人的预测能力，就会出现各种各样的问题，比如说对没探索过的地方过于自信，多次预测产生累计误差等等。那么到底什么样的预测模型是稳定有效且灵活的，目前还是研究热点，没有一个统一的答案。对应到星际上，人在全局战略上的优化效率要远远高于 AlphaStar，比如说一句“造两个凤凰去灭了那个来空投的棱镜”，可能就顶 AlphaStar 自对弈几天几夜。这个效率的差距（可能是指数级的）是否可以用大量计算资源去填补，会是和顶尖高手对局胜败的关键所在。

https://medium.com/@aleksipietikinen/an-analysis-on-how-deepminds-starcraft-2-ai-s-superhuman-speed-could-be-a-band-aid-fix-for-the-1702fb8344d6

https://www.zhihu.com/question/310011363/answer/582457993

本文来自微信公众号：，转载请联系该公众号获得授权。

*文章为作者独立观点，不代表虎嗅网立场

本文由机器之心授权虎嗅网发表，并经虎嗅网编辑。转载此文请于文首标明作者姓名，保持文章完整性（包括虎嗅注及其余作者身份信息），并请附上出处（虎嗅网）及本页链接。原文链接：https://www.huxiu.com/article/283103.html

未按照规范转载者，虎嗅保留追究相应责任的权利

(责任编辑：波少)

上一篇：《星际争霸2》国服免费游玩今天开启 4.0版本更新上线
下一篇：《星际争霸2》今日凌晨开始韩国公测

“击败星际争霸II职业玩家”的AlphaStar是在作弊？(3)

时间:2019-01-30 20:56 来源:百度新闻 作者:巧天工 点击:次

时间:2019-01-30 20:56 来源:百度新闻作者:巧天工点击:次