打字猴:1.70054109e+09
1700541090
1700541091
1700541092
1700541093 (b)月球登陆者
1700541094
1700541095
1700541096
1700541097
1700541098 (c)双足行走者
1700541099
1700541100
1700541101
1700541102
1700541103 (d)毁灭战士
1700541104
1700541105 图14.17 Gym中的各种小游戏
1700541106
1700541107 OpenAI显然不满足于此。2016年年底,继4月发布Gym之后,OpenAI又推出一个新平台——Universe(见图14.18)。Universe的目标是评估和训练通用AI。同Gym上的定制游戏不同,Universe瞄准的环境是世界范围的各种游戏、网页及其他应用,与人类一样面对相同复杂和实时程度的环境,至少在信息世界这个层面上,物理世界还有待传感器和硬件的进步。具体地讲,游戏程序被打包到一个Docker容器里,提供给外部的接口,人与机器一样的,谁都不能访问游戏程序的内部,只能接收屏幕上的画面,和发送键盘和鼠标指令。
1700541108
1700541109
1700541110
1700541111
1700541112 图14.18 OpenAI 开发的通用AI平台Universe示意图
1700541113
1700541114 Universe的目标是让设计者开发单一的智能体,去完成Universe中的各类游戏和任务。当一个陌生游戏和任务出现时,智能体可以借助过往经验,快速地适应并执行新的游戏和任务。我们都知道,虽然AlphaGo 击败了人类世界围棋冠军,但是它仍然属于狭义AI,即可以在特定领域实现超人的表现,但缺乏领域外执行任务的能力,就像AlphaGo不能陪你一起玩其他游戏。为了实现具有解决一般问题能力的系统,就要让AI拥有人类常识,这样才能够快速解决新的任务。因此,智能体需要携带经验到新任务中,而不能采用传统的训练步骤,初始化为全随机数,然后不断试错,重新学习参数。这或许是迈向通用 AI的重要一步,所以我们必须让智能体去经历一系列不同的任务,以便它能发展出关于世界的认知以及解决问题的通用策略,并在新任务中得到使用。
1700541115
1700541116 最典型的任务就是基于浏览器窗口的各项任务。互联网是一个蕴藏丰富信息的大宝藏。Universe提供了一个浏览器环境,要求AI能浏览网页并在网页间导航,像人类一样使用显示器、键盘和鼠标。当前的主要任务是学习与各类网页元素交互,如点击按钮、下拉菜单等。将来,AI可以完成更复杂的任务,如搜索、购物、预定航班等。
1700541117
1700541118 ■ 星际争霸:走向通用AI
1700541119
1700541120 面对策略类电脑游戏,挑战难点不仅仅是像素点阵组成的画面,更在于高级认知水平的表现,考察AI能否综合对多种单位、多种要素等的分析,设计复杂的计划,并随时根据情况灵活调整计划,尤其是即时类策略游戏,被视为AI最难玩的游戏。星际争霸(StarCraft)就是一款这样的游戏,于1998年由暴雪娱乐公司发行(见图14.19)。它的资料片母巢之战(Brood War)提供了专给AI程序使用的API,激发起很多AI研究者的研究热情[65]。
1700541121
1700541122 在平台方面,DeepMind在成功使用深度学习攻克Atari游戏后,宣布和暴雪公司合作,将StarCraft II作为新一代AI测试环境,发布SC2LE平台,开放给AI研究者测试他们的算法。SC2LE平台包括暴雪公司开发的Machine Learning API、匿名化后的比赛录像数据集、DeepMind开发的PySC2工具箱和一系列简单的RL迷你游戏[66]。Facebook也早在2016年就宣布开源TorchCraft,目的是让每个人都能编写星际争霸AI程序。TorchCraft是一个能让深度学习在即时战略类游戏上开展研究的库,使用的计算框架是Torch[67]。
1700541123
1700541124
1700541125
1700541126
1700541127 图14.19 暴雪公司出品的游戏“星际争霸”
1700541128
1700541129 在算法方面,Facebook在2016年提出微操作任务,来定义战斗中军事单位的短时、低等级控制问题,称这些场景为微操作场景[68]。为了解决微操作场景下的控制问题,他们运用深度神经网络的控制器和启发式强化学习算法,在策略空间结合使用直接探索和梯度反向传播两种方法来寻找最佳策略。阿里巴巴的一批人也在2017年参与到这场AI挑战赛中,提出一个多智能体协同学习的框架,通过学习一个多智能体双向协同网络,来维护一个高效的通信协议,实验显示AI可以学习并掌握星际争霸中的各类战斗任务[69]。
1700541130
1700541131 一般说来,玩星际争霸有三个不同层面的决策:最高层面是战略水平的决策,要求的信息观察强度不高;最低层面是微操作水平的决策,玩家需要考虑每个操控单位的类型、位置及其他动态属性,大量的信息都要通过观察获取;中间层面是战术水平的决策,如兵团的位置及推进方向,如图14.20所示。可见,即时战略类游戏对AI来讲有着巨大的挑战,代表着智能水平测试的最高点。
1700541132
1700541133
1700541134
1700541135
1700541136 图14.20 星际争霸的三个决策层次
1700541137
1700541138 ■ 为什么AI需要游戏?
1700541139
[ 上一页 ]  [ :1.70054109e+09 ]  [ 下一页 ]