1700515260
1700515261
某天下午发生了一件令人非常开心的事情:我们发现了一个破解游戏的巧妙方法。如果能在砖墙的一侧敲出一条通道,一旦小球经该通道到达砖墙顶部区域,它就会沿着通道两侧的墙壁一路反弹,依次清理剩余的砖块。玩家坐等小球自己“工作”完毕从墙上掉落下来后,再用球拍把球反弹出去即可。重复这一动作就可轻松得到高分。这个策略简直太棒了!
1700515262
1700515263
哈萨比斯团队的成员在年轻时也花费了不少时间玩电脑游戏。他们的父母要是知道他们为那些游戏投入的时间和精力变得有价值一定会非常高兴。事实证明,打砖块游戏是一个完美的测试用例,可以检验DeepMind团队是否具备开发能够学会玩游戏的程序的能力。对他们而言,只针对一款游戏编写程序有些太简单了,所以哈萨比斯团队又设定了一个更大的目标。
1700515264
1700515265
他们想编写一个根据当前屏幕像素状态和得分这两个输入参数之间的关系,寻求最佳得分策略的程序。该程序不会预先设定游戏规则,而是通过随机选择不同的“动作”(比如在打砖块游戏中移动球拍或是在Space Invaders游戏中发射激光炮射击外星人)不断试验,对相应的得分情况进行评估,分析其结果是有效提升还是止步不前。
1700515266
1700515267
该程序的实现基于20世纪90年代提出的强化学习(reinforcement learning)思想,目的在于根据分数的反馈或奖励函数来调整执行动作的概率。比如在打砖块游戏中,决定底部球拍左移或右移的初始概率是50:50。如果某次随机移动后,球拍击中小球并且得分,那么程序将根据这些信息重新校准球拍左右移动的概率,以增加球拍击中小球的机会。新的算法将强化学习与神经网络相结合,后者将评估像素的状态以确定哪些特征与加分有直接关系。
1700515268
1700515269
刚开始时,程序尝试随机移动,但收效甚微,几乎没有得分。当某次移动后成功得分,程序就会记录这次移动并在后续游戏过程中不断强化该移动的使用频率。一段时间后,随机动作会逐渐消失,代替它们的是一组更为有效的移动。程序在不断试验的过程中,可以真正学会通过特定的移动来提高它在游戏中的得分。
1700515270
1700515271
DeepMind团队提交的论文所附带的程序学习玩打砖块游戏的视频很值得一看。刚开始,程序会随机地左右移动球拍,并“观察”会发生什么。当小球被球拍反弹向上并撞击砖块得分时,程序开始重写。它发现让小球的像素与球拍的像素相连接(小球撞击球拍)似乎是一件好事(获得加分)。经过400局游戏的“学习”,程序已经可以精准地移动球拍,并不断地来回击球得分了。
1700515272
1700515273
当该程序玩过600局后,它所展现出来的水平令人惊讶!它找到了我们之前破解游戏的那个巧妙办法。这引发了我的感慨:虽然不记得我和小伙伴们玩了多少局才找到这个“窍门”,但从耗费的时间来看,显然我们用的更多。这表明现在计算机程序不仅做到了,而且还做得更快、更好。程序操纵球拍在砖墙的一侧建立通道,使得小球能够抵达砖墙的最上方,在砖墙顶部和屏幕顶部之间的空隙里来回碰撞得分。分数快速增加的同时,程序却无须太多干预。记得当年我们发现这个技巧后兴奋地击掌相庆,可程序轻易就做到了。
1700515274
1700515275
时间一晃,到了2014年,也就在DeepMind成立4年后,该项目在已经涉足的49款雅达利游戏的29款中获得了优于人类玩家的表现。该团队在2015年初向《自然》杂志提交的论文中详细介绍了他们的研究成果。众所周知,在《自然》杂志上发表论文是科学家在科研事业上的重要里程碑,可DeepMind团队的论文不仅获得了极高的赞誉,还登上了杂志的封面。《华尔街日报》评论道:“这是人工智能发展史上的重要时刻。”
1700515276
1700515277
在这里我必须重申,这是计算机编码的一项伟大进步!以像素状态和不断变化的分数作为原始数据,从随机移动球拍到发现在砖墙两侧建立通道以获取更多得分,程序实现了自我进化。但雅达利游戏的复杂性不可与古老的中国围棋同日而语,所以,哈萨比斯及他的团队决定研发一款可以挑战围棋的更厉害的程序。
1700515278
1700515279
此时,考虑到未来的发展,哈萨比斯决定将公司卖给谷歌。他在接受《连线》(Wired)杂志采访时解释说:“本来我们并不想这么做,但在过去3年里,为了筹措资金,我只有10%的时间用于研究。所以,我意识到,我的人生可能没有足够的时间,既能把公司发展成谷歌那样的规模,又可以在人工智能领域有所建树。这样的选择对我来说并不难。”这笔买卖对于谷歌的财力来说可谓轻而易举,同时,也给DeepMind团队研发会下围棋的程序带来了巨大支持和帮助。
1700515280
1700515281
[1] 意指不循规蹈矩。——译者注
1700515282
1700515283
[2] 非正式译名为阿米加。此计算机为高分辨率、快速的图形响应、多媒体任务,特别是游戏做了专门的设计。——译者注
1700515284
1700515285
1700515286
1700515287
1700515289
天才与算法:人脑与AI的数学思维 首战告捷[1]
1700515290
1700515291
此前人们开发的下围棋程序,甚至很难与业余的优秀围棋选手相匹敌。所以,大多数权威人士并不看好DeepMind团队,不认为他们能研发出具有世界冠军水平的专业围棋程序。1997年“深蓝”在国际象棋比赛中战胜了人类棋手之后,大多数人仍然支持天文物理学家皮特·哈特(Piet Hut)在《纽约时报》上发表的观点:“在围棋领域,计算机想要击败人类可能还需要100年甚至更长的时间。让一个智商正常的人学习下围棋,即使他没有卡斯帕罗夫(Kasparov)的天赋,但几个月后他就能打败目前存在的所有计算机程序。”
1700515292
1700515293
DeepMind团队则坚信“一百年太久,只争朝夕”,或许只需要短短的20年就能攻破技术上的瓶颈。他们赋予程序算法的自学习和自适应能力似乎奏效了,但他们仍不能确定新算法到底有多强大。因此,2015年10月,他们决定组织一场非公开的人机对弈来测试程序,对手是当时的欧洲冠军——来自中国的樊麾。
1700515294
1700515295
比赛中,新研发的程序AlphaGo以5:0的战绩战胜了樊麾。但欧洲棋手的实力与东亚棋手相差太大:在世界围棋比赛中,欧洲顶级选手只能位列600名左右。因此,虽然这次比赛的成绩令人印象深刻,可这就好比制造出一辆无人驾驶汽车然后在银石赛道上击败了人类选手驾驶的福特嘉年华,并不意味着它能在F1大奖赛中战胜刘易斯·汉密尔顿(Lewis Hamilton)。
1700515296
1700515297
当东亚地区的媒体得知樊麾在人机对弈中失利后,它们毫不留情地抨击了这次比赛,并认为AlphaGo的胜利并无多大价值。当消息传出后,樊麾的妻子曾联系伦敦的丈夫劝他不要上网关注此事。显然,他的同胞并不认可他的围棋水平,以及他具备代表人类参加人机对弈的资格。对他而言,这绝对不是愉快的经历。
1700515298
1700515299
但樊麾认为,与AlphaGo的对弈使他对围棋有了新的领悟。几个月后,樊麾的世界排名就从633名上升到了300名。事实上,不仅樊麾的实力得到了提升,而且AlphaGo的每一次对弈都会促使它优化代码以应对下一次对弈的挑战。
1700515300
1700515301
正因为如此,DeepMind团队才有足够的信心让AlphaGo向拥有18个世界冠军头衔的韩国棋手李世石发起挑战。
1700515302
1700515303
2016年3月9日至15日,万众瞩目的人机大战正式拉开帷幕——李世石九段对阵谷歌AlphaGo五番棋赛在首尔四季酒店举行。比赛通过互联网直播,获胜者将获得100万美元的奖金。为保证比赛不受外界干扰,虽然比赛地点是公开的,但在酒店内的比赛现场却是封闭和保密的。事实上,媒体和现场观众的任何行为都不会让AlphaGo分心,因为机器无论在什么状态下,都会保持“禅宗大师”一般的定力,呈现出一种完美的专注状态。
1700515304
1700515305
李世石并没有因为要与打败樊麾的机器棋手对战而感到紧张。在听闻樊麾失利的消息后,他曾表示:“基于AlphaGo在这场比赛中展现出来的水平,我有信心轻松碾压这台机器棋手!”
1700515306
1700515307
虽然李世石也知道挑战他的机器棋手可以通过不断的学习和进化变得更为强大,但起初他并不在意。可随着比赛临近,他开始思考人工智能是否最终会强大到可以战胜人类,即使是在围棋这种相当复杂的决策领域。是年2月他曾表示:“听说DeepMind的人工智能异常强大,并且还会通过学习和进化变得越来越强大,但我坚信至少这次对弈我还是能够胜出。”
1700515308
1700515309
大多数人认为,尽管人工智能取得了巨大的突破,但想要使拥有人工智能的机器棋手成为围棋世界冠军依然是一个遥不可及的目标。Crazy Stone是唯一一款接近高水平棋手的围棋程序,它的创作者雷米·库仑(Remi Coulom)预测:“还得再有10年时间,才会有电脑打败人类围棋高手。”
[
上一页 ]
[ :1.70051526e+09 ]
[
下一页 ]