“击败星际争霸II职业玩家”的AlphaStar是在作弊?(3)
时间:2019-01-30 20:56 来源:百度新闻 作者:巧天工 点击:次
(action space)巨大无比,我记得他们在一开始做的基线(baseline)算法里面用了 language model 输出精确到单位的行动(unit-level action),但在 DM 的 blog 里面却说每个时间节点上只有 10 到 26 种不同的合法行动,然后在他们的 demonstration 里面“considered Build/Train”下面有 33 个输出。这些都让人非常困惑。或许他们在监督学习的时候已经建立了一些子策略(比如说通过聚类的方法),然后在训练的时候直接调用这些子策略就行了。但具体细节不明,期待完整论文出来。 另外,这次 AlphaStar 没有用基于模型进行规划的办法,目前看起来是完全用经典的 off-policy actor-critic 加大量 CPU 硬来,就有这样的效果。关于 AlphaStar 输掉的那局。实话说被简单的空投战术重复几次给拖死了,让人大跌眼镜。联想到 OpenAI Five 对职业选手也输了,主要还是应变能力不强,无法对新战术新模式及时建模。 (MCTS)对当前局面进行临时建模和分析,但不完全信息博弈因为得要估计对手情况就没有那么简单。AlphaStar 目前似乎是无模型的(model-free,Reddit 上的解答确认了这一点)(model-free)的方法可以完全达到树搜索的效果——但至少我们能看到在围棋上,就算是用相当好的模型比如说 OpenGo,要是每盘都不用搜索而只用策略网络的最大概率值来落子,还是会经常犯错。所以说,若是在不完全信息博弈里面用上了基于模型(model-based)(model-free) 在这之上,更难的一个问题是如何让 AI 具有高层推理的能力。人对将来的预测是非常灵活且极为稳定的,可能会想到一秒后,也可能会想到一年后,而且对新模式可以很快概括总结并加以利用。但真写点算法去模仿人的预测能力,就会出现各种各样的问题,比如说对没探索过的地方过于自信,多次预测产生累计误差等等。那么到底什么样的预测模型是稳定有效且灵活的,目前还是研究热点,没有一个统一的答案。对应到星际上,人在全局战略上的优化效率要远远高于 AlphaStar,比如说一句“造两个凤凰去灭了那个来空投的棱镜”,可能就顶 AlphaStar 自对弈几天几夜。这个效率的差距(可能是指数级的)是否可以用大量计算资源去填补,会是和顶尖高手对局胜败的关键所在。 https://medium.com/@aleksipietikinen/an-analysis-on-how-deepminds-starcraft-2-ai-s-superhuman-speed-could-be-a-band-aid-fix-for-the-1702fb8344d6 https://www.zhihu.com/question/310011363/answer/582457993 本文来自微信公众号:,转载请联系该公众号获得授权。 *文章为作者独立观点,不代表虎嗅网立场 本文由 机器之心 授权 虎嗅网 发表,并经虎嗅网编辑。转载此文请于文首标明作者姓名,保持文章完整性(包括虎嗅注及其余作者身份信息),并请附上出处(虎嗅网)及本页链接。原文链接:https://www.huxiu.com/article/283103.html 未按照规范转载者,虎嗅保留追究相应责任的权利 (责任编辑:波少) |