谷歌明星科学家:即使《星际争霸 2》衰落,其学习环境的架构和理念还可延伸至无人驾驶、人脸识别
游戏
2018-02-03 08:30
-
评论
分享到微信
使用微信扫码将网页分享到微信
本文发布于 DeepTech 深科技(微信公众号:mit-tr),转载已获得作者授权。
2018 年 1 月 28 日,一位来自谷歌 DeepMind 的科学家在 DT 君主办的 EmTech China 峰会的圆桌讨论环节中透露,基于《星际争霸 2》搭建的 AI 学习环境竟可以被拓展至其他领域,不仅限于其他电子游戏,甚至是无人驾驶和人脸识别。
(Oriol Vinyals 在演讲)
这位科学家正是Oriol Vinyals,他曾于 2016 年入选麻省理工科技评论 35 岁以下年度创新 35 人,即 TR 35。当然,Oriol 也是《星际争霸 2》AI 学习环境,SC2LE 的开发者。
什么是 SC2LE?第一篇关于 SC2LE 的论文于 2017 年 8 月发布,该论文讲述了基于《星际争霸 2》的学习环境,AI 如何通过这款游戏去训练自身,最终达到和玩家持平,甚至超越职业选手的水平。
(SC2LE 运行原理)
Oriol 表示,这款游戏对于 DeepMind,或者对于 AI 来说,是一个训练空间,或者可以说是媒介。任何 AI 算法都需要媒介,越真实越好。
谈话间,他在现场播放了两段没有经过真实训练的 AI 机器人运动视频,结果发现,这些机器人只要碰到一些小小的阻碍就会立刻摔倒,还有可能导致系统崩溃。
随后,他又为观众展示了两个虚拟角色跑步的模型,并解释道:“虽然这个训练环境是虚拟的,但它非常真实,包括了所有现实中的物理规则。因此,即使没有经过实际测试,然而其结果也比刚才那则演示更有意义。”
(职业玩家)
实际上,《星际争霸 2》则能很好的提供这样一个环境。Oriol 以游戏中最基本的单位 “SCV” 来举例,一个 “SCV” 可能有四种操作方式:采集资源、建造建筑、侦查、扩张。
然而,仅仅这四种操作方式就包含了无数的变化。Oriol 指出,AI 想要控制一个 SCV,需要先给予控制台一个选中它的指令,再点选目的地。不过,光进行这个操作还不够,还需要另一个控制台同时负责键盘的模拟,才能让一个 SCV 完成动作。
与此同时,Oriol 展示了一位专业玩家的视频。职业玩家快速地敲击键盘,画面来回切换。Oriol 赞叹道,这种游戏模式“就像表演乐器”一样。
然而,突然他打断了演示,并告诉在场观众:“这仅仅是 SCV 的操作而已,而《星际争霸 2》中,每个种族都有十余种单位,他们的功能不同、能执行的指令不同。”
Oriol 停顿了一下,他说道:“人类玩家在弹指间所执行的操作,对于 SC2LE 来说要分成两块并且执行很多部,非常繁琐。然而,整场游戏看下来,人类玩家平均要进行 5000 次这样的操作。”
(DeepMind 创造《星际争霸 2》学习环境)
这也就意味着,若 AI 想要战胜人类,那么它每执行一步策略,就要考虑数千步策略。不过,也正是这种近乎无限的变化空间,给了 DeepMind 一个更好的环境,因为真实的环境要比这复杂许多倍。
基于《星际争霸 2》,但是这并不只是游戏 AI在圆桌讨论环节,有嘉宾提出,围绕该学习环境最多的问题,莫过于它有什么用处了?Oriol 听到这个问题后笑了笑,说这其实是他走到哪都会被问到的问题。
他表示,《星际争霸 2》是个电子游戏,它终究会被淘汰,这在所难免,但基于这款游戏的学习环境给了 DeepMind 一个适用面更广且可拓展的框架和算法,让开发者可以在别的问题上,用已有的方式来思考解决办法,使其事半功倍。
“同时,这对于我们(DeepMind)来说也是一个能力的训练。《星际争霸 2》的环境非常复杂,一个人类玩家可以轻松解决的问题,对于 AI 来说可能需要调用一整个数据中心的资源才能解决问题,这不是我们想看到的。所以,我们学会了分解问题,把《星际争霸 2》分解为了许多小块,比如刚才说到的,我们通过 60 x 40 的单元格去训练 AI,而不是通过全局游戏去让 AI 理解这个问题。”
(Linux 上的 SC2LE 只有 60 x 40 的单元格,右边则是基于这些单元格的评价)
事实上,一张《星际争霸 2》的地图可能包含了数十万个单元格,但 DeepMind 把这些单元格分解成了许多相同或者相似的小单元格去思考问题。最终简化了步骤,降低了资源的消耗。