打字猴:1.700541119e+09
1700541119
1700541120 面对策略类电脑游戏,挑战难点不仅仅是像素点阵组成的画面,更在于高级认知水平的表现,考察AI能否综合对多种单位、多种要素等的分析,设计复杂的计划,并随时根据情况灵活调整计划,尤其是即时类策略游戏,被视为AI最难玩的游戏。星际争霸(StarCraft)就是一款这样的游戏,于1998年由暴雪娱乐公司发行(见图14.19)。它的资料片母巢之战(Brood War)提供了专给AI程序使用的API,激发起很多AI研究者的研究热情[65]。
1700541121
1700541122 在平台方面,DeepMind在成功使用深度学习攻克Atari游戏后,宣布和暴雪公司合作,将StarCraft II作为新一代AI测试环境,发布SC2LE平台,开放给AI研究者测试他们的算法。SC2LE平台包括暴雪公司开发的Machine Learning API、匿名化后的比赛录像数据集、DeepMind开发的PySC2工具箱和一系列简单的RL迷你游戏[66]。Facebook也早在2016年就宣布开源TorchCraft,目的是让每个人都能编写星际争霸AI程序。TorchCraft是一个能让深度学习在即时战略类游戏上开展研究的库,使用的计算框架是Torch[67]。
1700541123
1700541124
1700541125
1700541126
1700541127 图14.19 暴雪公司出品的游戏“星际争霸”
1700541128
1700541129 在算法方面,Facebook在2016年提出微操作任务,来定义战斗中军事单位的短时、低等级控制问题,称这些场景为微操作场景[68]。为了解决微操作场景下的控制问题,他们运用深度神经网络的控制器和启发式强化学习算法,在策略空间结合使用直接探索和梯度反向传播两种方法来寻找最佳策略。阿里巴巴的一批人也在2017年参与到这场AI挑战赛中,提出一个多智能体协同学习的框架,通过学习一个多智能体双向协同网络,来维护一个高效的通信协议,实验显示AI可以学习并掌握星际争霸中的各类战斗任务[69]。
1700541130
1700541131 一般说来,玩星际争霸有三个不同层面的决策:最高层面是战略水平的决策,要求的信息观察强度不高;最低层面是微操作水平的决策,玩家需要考虑每个操控单位的类型、位置及其他动态属性,大量的信息都要通过观察获取;中间层面是战术水平的决策,如兵团的位置及推进方向,如图14.20所示。可见,即时战略类游戏对AI来讲有着巨大的挑战,代表着智能水平测试的最高点。
1700541132
1700541133
1700541134
1700541135
1700541136 图14.20 星际争霸的三个决策层次
1700541137
1700541138 ■ 为什么AI需要游戏?
1700541139
1700541140 游戏并非只有对弈。自电子游戏诞生起,有了非玩家角色(Non-Player Character)的概念,就有了游戏AI的强需求。引入非玩家角色,或对抗,或陪伴,或点缀,提升了游戏的难度,增强了游戏的沉浸感。与不同难度等级AI的对抗,也让玩家能够不断燃起挑战的欲望,增强游戏的黏性。另一方面,游戏行业也是AI发展最理想的试金石[70]。
1700541141
1700541142 游戏提供了定义和构建复杂AI问题的平台。传统学术界的AI问题都是单一、纯粹的,每个问题面向一个特定任务,比如图片分类、目标检测、商品推荐等。走向通用AI,迟早要摆脱单一任务设定,去解决多输入、多场景和多任务下的复杂问题。从这点看,游戏是传统学术问题无法媲美的,即使是规则简单的棋类游戏,状态空间规模也是巨大的,包含各种制胜策略。从计算复杂性角度看,许多游戏都是NP-hard。在由这些难度铺设的爬山道上,研究者们相继攻克了西洋棋、西洋双陆棋、国际象棋、中国象棋和围棋,以及简单电子游戏Atari系列和超级马里奥等。现在,人们正把目光放在更大型、更具挑战性的星际争霸。
1700541143
1700541144 游戏提供了丰富的人机交互形式。游戏中人机交互是指人的各种操作行为以及机器呈现给人的各种信息,具有快节奏多模态的特征。一方面,游戏要么是回合制的,人机交互的频率一般都是秒级,有的稍长,比如围棋、大富翁等,要么是实时的,频率更短,比如极品飞车、星际争霸等;另一方面,人们通过键盘、鼠标和触摸板控制游戏中的角色,但不限于此,在一些新出的游戏中,人们还可通过移动身体、改变身体姿态和语音控制的方式参与游戏。如果将交互信息的形态考虑进来,有动作、文本、图片、语音等;如果将交互信息在游戏中的作用考虑进来,可以是以第一人称方式直接控制角色,如各类RPG游戏,可以是以角色切换的方式控制一个群体,如实况足球,还可以从上帝视角经营一个部落、一个公司或一个国家,如文明。复杂的人机交互方式,形成了一个认知、行为和情感上的模式闭环——引发(Elicit)、侦测(Detect)和响应(Respond),将玩家置身于一个连续的交互模式下,创造出与真实世界相同的玩家体验。想象一下,AI算法做的不再是拟合数据间的相关性,而是去学习一种认知、行为和情感上的人类体验。
1700541145
1700541146 游戏市场的繁荣提供了海量的游戏内容和用户数据。当前大部分AI算法都是数据驱动的,以深度学习为例,欲得到好的实验效果,需要的训练集都在千万级规模以上。在软件应用领域,游戏是内容密集型的。当前游戏市场,每年都会产生很多新游戏,游戏种类五花八门。因此,无论从内容、种类还是数量上,数据都呈爆炸式增长。此外,随着各类游戏社区的壮大,玩家提出了更高的要求,期待获得更好的玩家体验,游戏行业被推向新的纪元。除了游戏内容数据,随着玩家群体延伸到各年龄层、各类职业人群,用户行为数据也爆炸式增长,游戏大数据时代已然来临。
1700541147
1700541148 游戏世界向AI全领域发出了挑战。很多电子游戏都有一个虚拟的时空世界,各种实时的多模态的时空信号,在人与机器间频繁传送,如何融合这些信号做出更好的预测,是信号处理科学的一个难题。棋类游戏不涉及虚拟世界,规则简单清晰,没有各类复杂信号,但解决这类问题也不是一件简单的事情,因为状态空间庞大,所以要设计高效的搜索方法,如国际象棋、西洋棋依靠MiniMax树搜索,围棋用到蒙特卡洛树搜索。此外,解决围棋问题更少不了深度学习和强化学习方法。早年的电视游戏和街机游戏,都是通过二维画面和控制杆的方式实现人机交互,如果让AI像人一样在像素级别上操作控制杆玩游戏,就用到深度学习中最火的卷积神经网络,并与强化学习结合为深度强化学习方法。Jeopardy!是美国很流行的一个知识问答类真人秀,AI要解决知识问答,既要用到自然语言处理技术,也要具备一定的通识知识,掌握知识表征和推理的能力。另外,规划、导航和路径选择,也是游戏中常见的AI问题。更大型的游戏如星际争霸,场景更复杂,既是实时的又是策略的,集成了各类AI问题。
1700541149
1700541150 如果上述几点理论仍无法让你信服,那么当前DeepMind和OpenAI等公司及一些大学研究机构的强力推动,研究者们产生的各种天马行空的想法,足以让你感到一种震撼,看清游戏对AI的巨大推动。事实上,当下越来越多的AI研究者,开始将游戏视作构建新型通用AI的超级试验场。为什么呢?
1700541151
1700541152  
1700541153
1700541154 无进化速度的限制 与经历上亿年漫长进化的人类相比,游戏提供的虚拟世界没有时间流速的限制,计算流代替了现实世界的时间流,处理器计算频率越快,计算并行度越高,沿时间轴演化的速度越快。一天的时间,已经完成百万次的迭代。
1700541155
1700541156  
1700541157
1700541158 无限次场景和无限次重生 游戏世界可以提供无限次重复的场景,智能体拥有无限次重生的机会,使得进化的试错代价大大降低。这让笔者联想到一部关于人工智能的美剧《西部世界》,里面的机器人经历一次次死亡与重生,终于迎来最后的觉醒,听上去真让人有些害怕。
1700541159
1700541160  
1700541161
1700541162 独立的世界 游戏世界与现实世界独立,既可以模拟现实世界的物理规则,也可以打破物理规则,看智能体的应对策略。前者对现实世界高度仿真,有助于在开展硬件实验前,如无人车、机器人,先期探索适用的AI模型和算法,大大降低耗费在硬件上的成本。后者呢?在我们尚未抵达或尚未了解的极端物理世界、网络世界或其他世界,进行假设性试验,先假设一些未知的规则,再看智能体的进化轨迹,为人类的未来作打算。
1700541163
1700541164 当然,游戏也需要AI,升级的AI会大大增加游戏的玩家体验。以前游戏中的AI大都是写死的,资深玩家很容易发现其中的漏洞。刚开始时,玩家找到这些漏洞并借以闯关升级,这带来很大乐趣;慢慢地,玩家厌倦了一成不变的难度和重复出现的漏洞。如果AI是伴随玩家逐步进化的,这就有意思了。还有一点,传统游戏AI属于游戏系统自身,获取的是程序内部数据,和玩家比有不对称优势。现在的AI要在玩家视角下,采用屏幕画面作为AI系统的输入,像一个人类玩家来玩游戏。智能体与人类玩家,不仅存在对抗,还存在协作。我们甚至可以建立一个协作平台,用自然语言的方式,向AI传达指令,或接收来自AI的报告。总之,在游戏这个超级AI试验场上,一切皆有可能。
1700541165
1700541166
1700541167
1700541168
[ 上一页 ]  [ :1.700541119e+09 ]  [ 下一页 ]