1700515289
天才与算法:人脑与AI的数学思维 首战告捷[1]
1700515290
1700515291
此前人们开发的下围棋程序,甚至很难与业余的优秀围棋选手相匹敌。所以,大多数权威人士并不看好DeepMind团队,不认为他们能研发出具有世界冠军水平的专业围棋程序。1997年“深蓝”在国际象棋比赛中战胜了人类棋手之后,大多数人仍然支持天文物理学家皮特·哈特(Piet Hut)在《纽约时报》上发表的观点:“在围棋领域,计算机想要击败人类可能还需要100年甚至更长的时间。让一个智商正常的人学习下围棋,即使他没有卡斯帕罗夫(Kasparov)的天赋,但几个月后他就能打败目前存在的所有计算机程序。”
1700515292
1700515293
DeepMind团队则坚信“一百年太久,只争朝夕”,或许只需要短短的20年就能攻破技术上的瓶颈。他们赋予程序算法的自学习和自适应能力似乎奏效了,但他们仍不能确定新算法到底有多强大。因此,2015年10月,他们决定组织一场非公开的人机对弈来测试程序,对手是当时的欧洲冠军——来自中国的樊麾。
1700515294
1700515295
比赛中,新研发的程序AlphaGo以5:0的战绩战胜了樊麾。但欧洲棋手的实力与东亚棋手相差太大:在世界围棋比赛中,欧洲顶级选手只能位列600名左右。因此,虽然这次比赛的成绩令人印象深刻,可这就好比制造出一辆无人驾驶汽车然后在银石赛道上击败了人类选手驾驶的福特嘉年华,并不意味着它能在F1大奖赛中战胜刘易斯·汉密尔顿(Lewis Hamilton)。
1700515296
1700515297
当东亚地区的媒体得知樊麾在人机对弈中失利后,它们毫不留情地抨击了这次比赛,并认为AlphaGo的胜利并无多大价值。当消息传出后,樊麾的妻子曾联系伦敦的丈夫劝他不要上网关注此事。显然,他的同胞并不认可他的围棋水平,以及他具备代表人类参加人机对弈的资格。对他而言,这绝对不是愉快的经历。
1700515298
1700515299
但樊麾认为,与AlphaGo的对弈使他对围棋有了新的领悟。几个月后,樊麾的世界排名就从633名上升到了300名。事实上,不仅樊麾的实力得到了提升,而且AlphaGo的每一次对弈都会促使它优化代码以应对下一次对弈的挑战。
1700515300
1700515301
正因为如此,DeepMind团队才有足够的信心让AlphaGo向拥有18个世界冠军头衔的韩国棋手李世石发起挑战。
1700515302
1700515303
2016年3月9日至15日,万众瞩目的人机大战正式拉开帷幕——李世石九段对阵谷歌AlphaGo五番棋赛在首尔四季酒店举行。比赛通过互联网直播,获胜者将获得100万美元的奖金。为保证比赛不受外界干扰,虽然比赛地点是公开的,但在酒店内的比赛现场却是封闭和保密的。事实上,媒体和现场观众的任何行为都不会让AlphaGo分心,因为机器无论在什么状态下,都会保持“禅宗大师”一般的定力,呈现出一种完美的专注状态。
1700515304
1700515305
李世石并没有因为要与打败樊麾的机器棋手对战而感到紧张。在听闻樊麾失利的消息后,他曾表示:“基于AlphaGo在这场比赛中展现出来的水平,我有信心轻松碾压这台机器棋手!”
1700515306
1700515307
虽然李世石也知道挑战他的机器棋手可以通过不断的学习和进化变得更为强大,但起初他并不在意。可随着比赛临近,他开始思考人工智能是否最终会强大到可以战胜人类,即使是在围棋这种相当复杂的决策领域。是年2月他曾表示:“听说DeepMind的人工智能异常强大,并且还会通过学习和进化变得越来越强大,但我坚信至少这次对弈我还是能够胜出。”
1700515308
1700515309
大多数人认为,尽管人工智能取得了巨大的突破,但想要使拥有人工智能的机器棋手成为围棋世界冠军依然是一个遥不可及的目标。Crazy Stone是唯一一款接近高水平棋手的围棋程序,它的创作者雷米·库仑(Remi Coulom)预测:“还得再有10年时间,才会有电脑打败人类围棋高手。”
1700515310
1700515311
大赛在即,DeepMind团队认为还需要继续优化AlphaGo,所以他们邀请了樊麾在大赛前的几周对AlphaGo进行反复的强化训练。尽管遭遇了滑铁卢并被无良媒体攻击,但樊麾依旧乐于支持这项事业。也许在他看来,如果能帮助AlphaGo打败李世石,他就能挽回些许颜面。
1700515312
1700515313
在与AlphaGo的对弈训练中,樊麾发现,AlphaGo在某些方面确实非常强大,但此次集训也成功暴露了一个DeepMind团队此前没有意识到的弱点:在某些特定参数配置下,AlphaGo似乎完全无法评估出到底是谁掌控了比赛,常常会产生一种错觉,以为自己赢了,而实际情况却恰恰相反。如果李世石发现并利用这个弱点,AlphaGo不仅会失利,而且还会显得极其愚蠢。
1700515314
1700515315
接下来的日子里,DeepMind团队废寝忘食地工作,很快修复了这个缺陷——他们的程序终于可以定版了。在程序调通后,运行该程序的笔记本电脑被运往首尔参赛。3月9日,对弈双方“棋手”(严格意义上讲,只有一名棋手)已经做好充分的准备,迎接人机对弈的五番棋首局。
1700515316
1700515317
[1] 原文为“First blood”。——译者注
1700515318
1700515319
1700515320
1700515321
1700515323
天才与算法:人脑与AI的数学思维 精妙绝伦
1700515324
1700515325
多年来,我一直把数学研究与下围棋做比较。所以,我怀着相当焦虑的心情在YouTube上观看了李世石与AlphaGo的比赛。这场“人机大战”吸引了全球超过2.8亿人次在线观看。
1700515326
1700515327
李世石执黑先行,作为白方的DeepMind团队由其成员黄士杰(Aja Huang)代替AlphaGo行棋。这样安排是因为,毕竟AlphaGo只是人工智能程序而不是能够自己下棋的机器人。黄士杰紧紧盯着AlphaGo的屏幕,等待它对李世石的落子做出回应,但时间过了一小会儿,AlphaGo没有任何反应。
1700515328
1700515329
我聚精会神地盯着屏幕,想知道AlphaGo是不是已经崩溃了!DeepMind团队也开始担心,想知道这是怎么了。对于人类棋手来说,刚开局的几步棋通常都是标准布局套路,是不会想太多的,毕竟还没有进入真正的交锋时刻。在焦急的等待过后,电脑屏幕上出现了一颗白子,AlphaGo终于开始走棋了。直至此时,DeepMind团队才算是松了一口气,心口的大石终于落了地:它可以自行工作了,没我们什么事了!在接下来的时间里,黑白双方你来我往,好不快意。
1700515330
1700515331
作为围棋外行的我在观看围棋比赛时会关注一个问题,就是如何判断胜负手,这是围棋比赛的要点之一。这也正是计算机程序学习下围棋非常困难的主要原因之一,因为到目前为止,还没有一种简单易行的方法可以建立起一套稳妥的系统,去评价对弈双方的领先状况。
1700515332
1700515333
相较之下,国际象棋更容易进行得分评价,它的比赛规则确定了每一步都会有不同的分值,这样你就可以简单地算出双方的领先状况。国际象棋是破坏性的,在行棋过程中,棋子会被一个个吃掉。正因为如此,棋局会逐步简化。而围棋则不然,它是建设性的,行棋越多,棋盘上的棋子越多,棋局也越来越复杂。现场解说员虽然一直关注着棋局,但不到最后一刻他们也很难断言谁胜谁负,鹿死谁手。
1700515334
1700515335
研究团队很快摸清了李世石的开局策略。李世石采用的对战策略是,如果AlphaGo是通过对过去的棋局进行学习来完善自身的,那么他就使用非传统的棋路来打乱AlphaGo的预判,这样就会使他获得一定的优势。但问题是,在这种情况下,李世石也只能按照自己不熟悉的棋路去行棋、布局。对于一般的基于开放式数据库的程序来说,不按套路出牌的策略非常管用:不仅可以使机器手足无措,还可能误导机器在棋局的重要关口或是长远战略决策上犯下致命错误。但遇到AlphaGo,这个如意算盘可就打空了,因为AlphaGo可以实时动态评估棋局形势,并根据以前的经验制定出最佳策略。AlphaGo的首席程序员大卫·西尔弗(David Silver)在赛前表示:“AlphaGo可以自动把数以百万计的棋局数据通过神经网络进行深度学习并加以改进,以得到最佳的对弈策略。相比之下,李世石则由于无法掌控自己的棋局而会变得越发被动。”
1700515336
1700515337
看到这里,我不禁同情起李世石来。当他意识到自己一直处于被动时,你能真切地感觉到他的信心正在逐渐丧失。他一直盯着代替AlphaGo行棋的黄士杰,但却从对方的脸上看不到任何线索。当下到第186手时,李世石感到大势已去,便投子认输了。
[
上一页 ]
[ :1.700515288e+09 ]
[
下一页 ]