浙大提出会打德扑的「自我博弈」AI,还会玩射击游戏(2)
时间:2019-03-25 21:49 来源:百度新闻 作者:巧天工 点击:次
浙大研究人员在改进版无限制州扑克(Leduc Hold』em)中对 ANFSP 和 NFSP 进行比较。为了简化计算,浙大研究人员在无限制德州扑克中将每轮的最大赌注大小限制为 2。实验研究了改进版无限制德州扑克中 ANFSP 对纳什均衡的收敛性,并以学得策略的可利用性作为比较标准。 图 5 显示在改进版无限制德州扑克中 ANFSP 接近纳什均衡。可利用性持续降低,并在 140w 个游戏片段后稳定在 0.64 左右。训练时间约 2 小时。 图 5:ANFSP 在改进版无限制德扑中的可利用性 在第一人称射击游戏(FPS)中的评估 为了在信息不完整的复杂游戏中评估本文算法的有效性,研究人员在一个 FPS 游戏上训练了该算法,并且让它与人类对战。本次实验中使用的 FPS 平台是由浙大研究人员设计的。游戏场景是两个队伍(10 VS 10)的攻防对抗。在训练过程中,一方是 MC-NFSP,另一方是由上千场人类游戏(SL-Human)训练的记忆。该实验在固定的封闭式 255 x 255 正方形地图上进行。整个地图被分为 12 x 12 个区域,每个区域有一个 20 x 20 的正方形。 图 7:FPS 游戏环境 与本文之前的研究不同,这两个网络是同时为外部队伍和内部队伍构建和训练的。图 8 显示了外部队伍的训练结果(内部队伍的训练结果与此类似)。从图中不难看出,训练收敛得非常快(少于 150 个片段,每个片段有 5 场游戏)。外部队伍对战 SL-Human 的胜率提高了 80%,而训练损失接近 0。 图 8:在 FPS 游戏上的评估结果 论文:Monte Carlo Neural Fictitious Self-Play: Achieve Approximate Nash equilibrium of Imperfect-Information Games 论文地址:https://arxiv.org/abs/1903.09569 摘要:人工智能领域的研究人员已经用 AI 在信息完整的大规模游戏上达到了人类水准,但要在信息不完整的大规模游戏(即战争游戏、足球教练或商业策略游戏)上实现最优结果(即近似纳什均衡)仍是一大挑战。神经虚拟自我对弈(NFSP)算法可以通过自我对弈,在没有先验领域知识的情况下有效学习信息不完整游戏的近似纳什均衡。但是,它依赖于深度 Q 网络,但这种网络是离线的而且很难融入对手策略不断变化的在线游戏,因此深度 Q 网络无法在游戏中用大规模搜索和深度搜索来达到近似纳什均衡。本文中,我们提出了蒙特卡洛神经虚拟自我对弈(MC-NFSP)算法,该方法结合了蒙特卡洛树搜索和 NFSP,大大提高了模型在信息不完整的大规模零和游戏中的表现。实验证明,该算法可以利用大规模深度搜索达到 NFSP 无法实现的近似纳什均衡。此外,我们开发了异步神经虚拟自我对弈(ANFSP)算法,该算法使用异步架构和并行架构来收集游戏经验。在实验中,我们发现并行 actor-learner 能够进一步加速和稳定训练。 (责任编辑:波少) |