1700515372
1700515373
连输三局,整个比赛的胜负已定。李世石在第四局时似乎卸下了沉重的思想包袱,放松了许多,这样反而使他能够更专注于比赛本身。在第四局中,与第三局慎之又慎的行棋风格形成鲜明对比的是,李世石采用了一种更为激进、极端的“先捞后洗”(amashi)的策略。一位评论员将这种冒险的行为比作:一位金融家,不想通过日积月累的小收益来积累财富,而是激进地将整个银行作为赌注押了出去。
1700515374
1700515375
李世石和他的团队在星期六晚上通宵达旦,试图通过逆向工程的方法掌握AlphaGo的下棋思路。他们发现AlphaGo似乎遵循着逐步增加获胜概率并去调整落子的原则,而不是押注于复杂的单一走法。在第三局中,李世石就亲身体验了AlphaGo的怠惰走法。他们针对这个特点制定了应对策略,通过一着险棋来扰乱AlphaGo的策略:“胜负手”(all-or-nothing)策略可能会让AlphaGo更难轻易得分。
1700515376
1700515377
AlphaGo似乎对这种策略毫不在意。比赛进行到第70手时,评论员开始觉察到AlphaGo再次占据了上风——当AlphaGo的棋路开始变得保守,频频使用怠惰走法时,就标志着AlphaGo已经确认自己领先了。李世石必须要做点什么了,否则很难扭转乾坤。
1700515378
1700515379
如果说第二局对弈的第37手是AlphaGo的神来一笔,那么第四局的第78手就是李世石的逆袭大招。当他盯着棋盘审时度势了30分钟后,突然在看似不寻常的一处落下白子,刚好在AlphaGo的两个黑子之间。当时在YouTube上发表评论的迈克尔·雷德蒙德(Michael Redmond)说道:“这一步让我感到意外,我相信大多数人,包括AlphaGo,都会觉得措手不及。”
1700515380
1700515381
AlphaGo确实有些无措,下了一步莫名其妙的棋作为回应。又经过了几手棋,AlphaGo就发现自己败局已定。紧盯着电脑屏幕的DeepMind团队发觉他们的程序在第78手时就开始失控了。之后,AlphaGo已经彻底崩溃,所以下了一连串的昏招。这显然是围棋程序的另一特点:当它意识到自己失败后,会做出一些令人费解的疯狂行为。
1700515382
1700515383
西尔弗看到AlphaGo的表现后说道:“我觉得大家看到这一幕会感到很搞笑!”果不其然,韩国的评论员们开始嘲笑AlphaGo的混乱状态。很显然,AlphaGo的行为没有通过图灵测试,因为任何一个具有战略眼光的人都不会做出那样的决策。当下到第180手时,AlphaGo在电脑屏幕上表示投子认输。新闻演播室里爆发出雷鸣的掌声。
1700515384
1700515385
人类终于扳回一局,3:1!当晚的新闻发布会上,李世石的笑容说明了一切:“这场胜利是如此的珍贵,世界上的任何东西都无法替代。”伴随着媒体的欢呼,他高声说道:“我能取得这局对弈的胜利是因为你们所有人给我的欢呼和鼓励。”
1700515386
1700515387
当时,在中国评论这次比赛的古力称赞道:“李世石的第78手实乃‘上帝之手’。”那一步棋打破了传统棋路,是为整局比赛带来深远影响的关键所在。这是真正的人类创造力的体现,也是博登变革性创造力的一个极好的典范。不破不立,当你突破原有系统的束缚时,你的创意就会层出不穷。
1700515388
1700515389
哈萨比斯和西尔弗在新闻发布会上表示无法解释AlphaGo失利的原因,他们需要回去好好分析——为什么它在应对李世石第78手时会走出如此糟糕的一系列昏招。事实上,AlphaGo与人类对弈的历史经验让它完全摒弃了某些思考。根据它的评估,那种下法只有万分之一的可能性会出现。它似乎没有认真考虑去学习如何应对那种下法,所以就不自觉地优先考虑了应对其他下法的可能性。
1700515390
1700515391
如果李世石有足够长的时间深入了解对手,那么他在比赛中战胜AlphaGo的可能性或许会增大。他能在第五局比赛中保持获胜的势头吗?同样是输掉比赛,3:2还是4:1的结果大不相同。最后一局意义非凡,如果李世石能拿下第五局的胜利,那么他将在人们的心中播下对“AlphaGo绝对优势”怀疑的种子。
1700515392
1700515393
经此一役,AlphaGo也收获颇丰。现在就算李世石在第10 000手下出违反常规的怪招,它也不会再想着侥幸过关了。这就是算法的强大之处:从错误中吸取教训,进而反败为胜。
1700515394
1700515395
但这并不意味着AlphaGo不会再犯新的错误。随着第五局棋的进行,AlphaGo似乎放弃了一套针对特定布局的标准下法。正如哈萨比斯在后台所讲到的:AlphaGo在开局之初犯了一个错误(因为它并不知道围棋中有一个著名的“手筋”[1] ),但现在它正在努力地改正,亡羊补牢。
1700515396
1700515397
开局时李世石处于主动,之后AlphaGo渐渐地挽回了颓势。比赛非常激烈,直到比赛结束之前,DeepMind团队也还不清楚AlphaGo是否获胜了。历时5个小时的人机大战,在第281手棋时分出了胜负,李世石中盘认输。这一次后台一片欢呼,DeepMind团队击掌相庆,哈萨比斯激动地握紧拳头挥向空中以庆祝胜利。李世石在第四局的获胜重新激起了他们的斗志,对他们来说赢得最后一局尤为重要。
1700515398
1700515399
回顾此次人机对弈,很多人都意识到了它非凡的意义。一些人立即发表了评论:“这是人工智能的重要转折点!”从表面上看,AlphaGo所能做的仅仅是下围棋,但实际上,它的学习和适应能力才是最值得人类关注的一种全新的东西。哈萨比斯在赢得首局胜利后就曾发表Twitter消息:“AlphaGo赢了!我们成功地把它降落在了月球表面。”这是一个很好的比喻,登月并没有产生关于宇宙的非凡的新突破,但却意味着我们为实现这一壮举而开发的技术产生了非凡的新突破。赛后,韩国围棋协会授予AlphaGo荣誉九段称号,这是围棋选手所能获得的最高荣誉。
1700515400
1700515401
[1] 围棋术语,指“灵感之下的妙手”。——译者注
1700515402
1700515403
1700515404
1700515405
1700515407
天才与算法:人脑与AI的数学思维 山头还是主峰
1700515408
1700515409
第二局中AlphaGo的第37手棋很有创意,下法之新颖让人惊喜。随着棋局发展,它证明了自己的价值。这是一种具有探索性的创造力,挑战了传统行棋思维的极限。
1700515410
1700515411
围棋最重要的一点,是可以通过客观的方法检验新的行棋思路是否具有价值。任何人都可以想出富有创意的新走法,其技巧性和实用性取决于所能带来的某种价值。我们该如何去衡量这种价值?在评估价值的过程中是否会带有主观臆断,或受到时机的局限性的制约?一些在诞生之初就受到指摘的事物,往往经历几代人才会逐渐被接受并被视为具有革命性的创新。并不被19世纪的人们所认可或知晓的贝多芬的交响乐,现在被誉为艺术的巅峰。凡·高的一生中,几乎没有售出过画作,它们只能用来交换食物或绘画材料,但现在他的大作却可以卖出数百万美元的高价。可是在围棋方面,却有一个最为直接和实际的价值衡量标准:能赢棋吗?AlphaGo凭借精妙绝伦的第37手棋最终获得了第二局的胜利,这也是其价值最好的、最客观的体现。
1700515412
1700515413
AlphaGo将这种古老棋类游戏的新下法教给了全世界。分析其在比赛中所采用的新战术,我们已经能够理解它在第5条线早早落子对胜负的影响,越来越多的棋手将会把这种策略运用起来。同时,AlphaGo也在不断地学习和创新,探索更多、更好的行棋策略。据DeepMind团队透露,2017年初,AlphaGo的最新版本在网上以假名Master或Magister和一批围棋高手对战,人类棋手并不知道他们在和机器下棋。几个星期的时间里,它共参与了60场比赛,并获得了全胜。
1700515414
1700515415
真正的洞察力源于对棋局的综合把控。这些棋类游戏现在已经成为挖掘新思想的宝库。在几场比赛中,AlphaGo使用了一些新手都不会用的低级招式。比如,传统下法中棋手不会在三行三列交叉点上落子,但AlphaGo却向我们展示了如何利用好这一招并为整个棋局带来新的机遇。
1700515416
1700515417
哈萨比斯解释了围棋算法是如何陷入数学家们所说的“局部极大值”的困境当中的。如图3-1所示,如果你登上了A峰的最高点,四周弥漫着的大雾阻碍了你的视线,在此处高无可高的情形之下,你或许会觉得这里就是所在区域范围内的最高点。但当迷雾逐渐被风驱散,举目远眺,你发现山谷对面竟然还有一座更高的山峰——B峰。想要抵达B峰的顶端,你就必须先下山,穿过山谷,然后才能攀上主峰之巅。
1700515418
1700515419
1700515420
1700515421
[
上一页 ]
[ :1.700515372e+09 ]
[
下一页 ]