打字猴:1.700541069e+09
1700541069 ■ AI电子竞技
1700541070
1700541071 2013年,尚未被谷歌收购的DeepMind发表了一篇里程碑式的论文《用深度强化学习玩Atari》(Playing Atari with deep reinforcement learning)[62]。Atari 2600是20世纪80年代一款家庭视频游戏机(见图14.16),相当于以前的小霸王学习机,输出信号接电视机,输入则是一个控制杆。研究者通常在它的模拟器Arcade Learning Environment(ALE)上做实验[63]。这篇论文试图让AI仅凭屏幕上的画面信息及游戏分数,学会打遍所有Atari 2600上的游戏。该文充分吸收了近些年深度学习的研究成果——深度卷积神经网络,结合强化学习的已有框架,运用经验回放的采样思路,设计出深度Q-learning算法,最后结果出奇地好,在很多游戏上都胜过人类高手。传说正是因为这点,让谷歌看上了DeepMind。2015年,谷歌DeepMind在《自然》杂志上发表了著名的文章《通过深度强化学习达到人类水平的控制》(Human-level control through deep reinforcement learning),提出了著名的深度Q网络(DQN),仅训练一个端到端的DQN,便可在49个不同游戏场景下全面超越人类高手[64]。
1700541072
1700541073
1700541074
1700541075
1700541076
1700541077
1700541078
1700541079 图14.16 游戏机Atari上的游戏
1700541080
1700541081 此外,在2016年4月,另一家AI研究公司——OpenAI对外发布了一款用于研发和评比强化学习算法的工具包Gym。Gym包括了各种模拟环境的游戏,如最经典的倒立摆。该平台提供一个通用的交互界面,使开发者可以编写适用不同环境的通用AI算法。开发者通过把自己的AI算法拿出来训练和展示,获得专家和其他爱好者的点评,大家共同探讨和研究。强化学习有各种各样的开源环境集成,与它们相比,Gym更为完善,拥有更多种类且不同难度级别的任务,如图14.17所示。
1700541082
1700541083  
1700541084
1700541085
1700541086 倒立摆(Cart Pole):这是一个经典控制问题。一个杆一个小车,杆的一端连接到小车,连接处自由,杆可以摆来摆去。小车前后两个方向移动,移动取决于施加的前后作用力,大小为1。目标是控制力的方向,进而控制小车,让杆保持站立。注意小车的移动范围是有限制的。 月球登陆者(Lunar Lander):这个游戏构建在Box2D模拟器上。Box2D是一款2D游戏世界的物理引擎,可处理二维物体的碰撞、摩擦等力学问题。本游戏的场景是让月球车顺利平稳地着陆在地面上的指定区域,接触地面一瞬间的速度最好为0,并且消耗的燃料越少越好。 双足行走者(Bipedal Walker):同样基于Box2D模拟器,这个游戏中玩家可以控制双足行走者的步进姿态。具体地说,是控制腿部膝关节处的马达扭力,尽量让行走者前进得更远,同时避免摔倒。本环境提供的路面包括台阶、树桩和陷坑,同时给行走者提供10个激光测距值。另外,环境的状态信息包括水平速度、垂直速度、整体角速度和关节处角速度等。 毁灭战士(Doom: Defend Line):这是一款仿3D的第一人称射击游戏。游戏场景是在一个密闭的空间里,尽可能多地杀死怪物和保全自己,杀死的怪物越多,奖励就越多。AI玩家所能观察的,同人类玩家一样,只是一个第一人称的视野。
1700541087
1700541088 (a)倒立摆
1700541089
1700541090
1700541091
1700541092
1700541093 (b)月球登陆者
1700541094
1700541095
1700541096
1700541097
1700541098 (c)双足行走者
1700541099
1700541100
1700541101
1700541102
1700541103 (d)毁灭战士
1700541104
1700541105 图14.17 Gym中的各种小游戏
1700541106
1700541107 OpenAI显然不满足于此。2016年年底,继4月发布Gym之后,OpenAI又推出一个新平台——Universe(见图14.18)。Universe的目标是评估和训练通用AI。同Gym上的定制游戏不同,Universe瞄准的环境是世界范围的各种游戏、网页及其他应用,与人类一样面对相同复杂和实时程度的环境,至少在信息世界这个层面上,物理世界还有待传感器和硬件的进步。具体地讲,游戏程序被打包到一个Docker容器里,提供给外部的接口,人与机器一样的,谁都不能访问游戏程序的内部,只能接收屏幕上的画面,和发送键盘和鼠标指令。
1700541108
1700541109
1700541110
1700541111
1700541112 图14.18 OpenAI 开发的通用AI平台Universe示意图
1700541113
1700541114 Universe的目标是让设计者开发单一的智能体,去完成Universe中的各类游戏和任务。当一个陌生游戏和任务出现时,智能体可以借助过往经验,快速地适应并执行新的游戏和任务。我们都知道,虽然AlphaGo 击败了人类世界围棋冠军,但是它仍然属于狭义AI,即可以在特定领域实现超人的表现,但缺乏领域外执行任务的能力,就像AlphaGo不能陪你一起玩其他游戏。为了实现具有解决一般问题能力的系统,就要让AI拥有人类常识,这样才能够快速解决新的任务。因此,智能体需要携带经验到新任务中,而不能采用传统的训练步骤,初始化为全随机数,然后不断试错,重新学习参数。这或许是迈向通用 AI的重要一步,所以我们必须让智能体去经历一系列不同的任务,以便它能发展出关于世界的认知以及解决问题的通用策略,并在新任务中得到使用。
1700541115
1700541116 最典型的任务就是基于浏览器窗口的各项任务。互联网是一个蕴藏丰富信息的大宝藏。Universe提供了一个浏览器环境,要求AI能浏览网页并在网页间导航,像人类一样使用显示器、键盘和鼠标。当前的主要任务是学习与各类网页元素交互,如点击按钮、下拉菜单等。将来,AI可以完成更复杂的任务,如搜索、购物、预定航班等。
1700541117
1700541118 ■ 星际争霸:走向通用AI
[ 上一页 ]  [ :1.700541069e+09 ]  [ 下一页 ]