打字猴:1.700515985e+09
1700515985 天才与算法:人脑与AI的数学思维 [:1700514897]
1700515986 天才与算法:人脑与AI的数学思维 机器之间的战争
1700515987
1700515988 是改变和适应新挑战的能力,让AlphaGo得以诞生。谷歌的DeepMind团队用一段时间的“监督学习”构建了他们的算法,这就好比一个成年人帮助孩子学习成年人已经掌握的技能。作为一个物种,人类之所以取得进步,是因为我们积累了知识,并以比最初获得知识时更有效的方式将知识传递了下去。作为一个数学家,我也是用上大学的几年时间快速学习了前辈们近几个世纪发现的数学理论,而不是凭借一己之力去重新发现所有的数学知识,以此站到学科前沿的。
1700515989
1700515990 AlphaGo也经历了同样的学习阶段——我们称之为基础学习阶段。互联网上有数以百万计的棋局,其中不乏高手之间的对弈。这是一个极佳的资源宝库,通过检索就可以找到给对手致命一击的决胜杀招。这样一个庞大的数据库使得计算机能够建立一个概率的概念,即给定一个特定的棋盘位置,算法可分析出每一步落子对获胜的影响概率。仅考虑每一盘棋已有走法的优劣是不够的,因为未来的对手可能不会使用数据库中失败棋手所用过的棋路。这个学习阶段为AlphaGo下围棋提供了必要的基础准备,但仅仅使用这个数据库还是不够的。
1700515991
1700515992 第二阶段被称为强化学习阶段。从长远来看,它为算法自我的发展确立了优势,提供了可能。算法通过自我对战、强化学习来提高对弈水平,即与之前的“自己”不间断地训练以提高下棋的水平。如果某些有望获胜的棋招失败了,算法就会修改这些棋招的概率。这种强化学习会综合生成大量的新数据,有助于算法发现自身可能存在的弱点。
1700515993
1700515994 局部最优是这种强化学习的弱点之一。机器学习有点像攀登珠穆朗玛峰,如果目标是爬上这座世界上最高的山峰,但是此时你既不知道自己身处何处,又被蒙上了眼睛,那么可选择的策略就是以你所在位置为起始点,如果下一步能够爬得更高,那么就继续往上爬,如此往复,直至抵达顶峰。按照该策略,你可以抵达所在地理区域内(当前环境下)的最高点。一旦越过这个顶点,高度就会下降,你就有可能滚落下来。但这并不意味着,在不断努力之下,你会抵达山谷对面另一座更高的山峰。这个高点是相对的,在数学中被称为“局部极大值”。就好比你好不容易爬上一座山的山顶,却发现它不过是在高耸的群山环绕下的一座小山包。如果AlphaGo训练的算法只能在局部极大值的情况下击败对手,那终极结果会是怎么样的呢?
1700515995
1700515996 在与李世石对战的前几天,欧洲冠军樊麾帮AlphaGo进行赛前集训时发现了它的一个弱点,似乎就是这种情况。这或许说明人类的下棋数据将算法导向了局部最优,而实际更优或者最优的下法与人类的下法存在一些本质的不同,即人类在事实上“误导”了AlphaGo。算法很快就学会了如何重新评估自己的落子,以最大限度地提高再次获胜的概率。是新对手把算法“逼下山”,促使它找到了再攀高峰的新方法。
1700515997
1700515998 DeepMind团队目前又开发出了新一代的AlphaGo—AlphaZero,它打败了曾书写历史的各版本AlphaGo前辈。这个名字的由来是:由于是通用棋类人工智能,因此去掉了代表围棋的英文“Go”;没有使用人类的知识,从零开始训练,所以用“Zero”;两者相结合就得到了“AlphaZero”。它已不再学习人类的棋谱、走法,而是完全依靠自我对弈来迅速地提高棋艺,从而走出人类对围棋认知的局限与定式。就像雅达利的游戏算法一样,给定棋盘上361个(19×19)交叉点以及它们的得分规则,然后在自我对弈中试验棋步。沿用最初在构建AlphaGo时所使用的强化学习策略,由“白板”[1] 状态开始“自学成才”是AlphaZero的独门秘籍。DeepMind团队甚至也为新算法呈现出来的强大能力而感到震惊:它已不再受人类的思维和游戏方式的限制了。
1700515999
1700516000 AlphaZero自我训练的时间仅为3天,完成的自我对弈棋局数量就达到了490万盘。人类花3000年才能实现的,它却只用了3天。在对阵曾赢下李世石那一版的AlphaGo时,AlphaZero取得了100:0的压倒性战绩。经过40天的训练之后,它就所向披靡了。它甚至能够在8小时内学会如何下国际象棋和日本将棋,水平甚至超过了市面上两个最好的国际象棋程序。
1700516001
1700516002 AlphaGo项目的负责人大卫·西尔弗博士解释了这种“白板”学习在多个领域的影响:
1700516003
1700516004 如果能够实现“白板”学习,就相当于拥有一个可以从围棋移植到其他任何领域的桥梁。这种算法是通用的,它会将你从所在领域的细节中解放出来,它普遍适合于任何领域。AlphaGo并不是要打败人类,而是要发现做科学研究意味着什么,让程序能通过自学最终学习到哪些知识。
1700516005
1700516006 DeepMind的口号是:首先解决智力问题,然后用它来解决其他问题。他们确信未来已在路上。但这项技术能走多远?它在创造力方面能与最优秀的数学家相媲美吗?能绘画或是创作音乐吗?能破解人类大脑的秘密吗?
1700516007
1700516008 [1] 指所有知识均由感官和经验而来,即从零开始的学习。——译者注
1700516009
1700516010
1700516011
1700516012
1700516013 天才与算法:人脑与AI的数学思维 [:1700514898]
1700516014 天才与算法:人脑与AI的数学思维 第7章 数字绘画
1700516015
1700516016 汤姆·斯托帕德(Tom Stoppard)
1700516017
1700516018 事物的可预测性与不可预测性构成了我们熟识的世界。
1700516019
1700516020 几年前的一个周六下午,我参观了德国著名艺术家格哈德·里希特(Gerhard Richter)的画展,当我在展厅的蛇形画廊中前行时,这些作品的色彩和线条带给我和同行者们深深的震撼。艺术作品就是通过各种形式给人带来美的感受,从而使人们获得精神上的愉悦与放松。
1700516021
1700516022 当时展出的是里希特的《4900种色彩》系列绘画作品。在去往画展的路上,我的夫人跟我介绍说:“他是这个星球上硕果仅存的尚且健在的最受敬重的艺术家!”在来画展之前,因为绝大部分时间都沉浸在抽象的数学世界中,我对格哈德·里希特和他的作品并不熟知,更遑论对这些有极大的兴趣了。正因为如此,我的夫人对我各方面知识的匮乏感到惊讶和无力。对于画展,我并未抱以很高的期望,但令人意外的是,里希特的作品竟然能够以一种有趣的方式跟我夜以继日沉迷着的数学抽象世界直接对话。
1700516023
1700516024 《4900种色彩》系列绘画由196块画板组成,为了叙述方便,我们将其称为“单元”。每个单元都由25块边长为9.7厘米的正方形色块以5行5列的形式组合而成,每一个色块都是一种精心挑选的颜色。整个作品由4900个色块组成,这正是画作标题的出处。这196个单元可自由排列组合,通过这样的排列组合,我们能得到不同版本的绘画作品,这也就使我们可以收获不同的视觉展示效果。我参观的是该系列的2.0版,196个单元按照4个一组划分,构成10行10列共100个色块的画作,整个展厅共陈列49幅。
1700516025
1700516026 这些“像素化”的画作激发了人类最本能的冲动,去探索其中的奥妙。对于我而言,我的注意力被一幅3个黄色色块并排连续出现的画作吸引了过去。在历史的长河里人类能够生存下来并发展至今,全都有赖于我们善于探索混沌的世界,从中发现规律并运用这些规律,这是我们能够不被远古时期潜行在灌木丛中的猛兽吃掉的根本原因。3个并排的黄色色块意味着什么?也许什么都不是,也许是“草丛中饥肠辘辘的狮子”。
1700516027
1700516028 诸多的心理学家,如荣格、罗夏(Rorschach),还有马特·布兰科(Matte Blanco)等,都认为可以通过图像的特征,如形状、颜色、对称性等探究人类的心理。这些心理学家也都在他们的实践过程中做着这样的探索和实践,例如荣格就曾让他的病人画曼陀罗,而罗夏的墨迹测验是最著名的投射法人格测验。
1700516029
1700516030 我们的大脑总是处于发现、分析并设法解决问题的状态,数学家们对模式(这里可理解为典型案例)是非常敏感的。当我游走在蛇形画廊中,满眼都是这些“像素化”的画作时,心里开始琢磨起来:在这一幅幅画作里会不会暗含着一些超出其本身表达的有趣信息呢?
1700516031
1700516032 我发现,无论是水平方向还是垂直方向,两个相同颜色的色块连续出现的次数,总是略超过三个或四个相同颜色的色块连续出现的次数。于是我坐下来,开始琢磨里希特对颜色的选择是不是一种随机行为?因为,随机性的聚集现象会以人们时常见得到,但是不太容易联想到的方式出现。例如,虽然公交车在始发站都是按时刻表准时发车的,但是当我们在公交站牌前等车的时候,经常会碰到三辆同一路公交车一起到站的情况,这就是由路程中的不确定性问题导致的随机性的聚集现象。
1700516033
1700516034 我猜测3个黄色方块连续出现正是这种随机性的聚集现象产生的结果。于是,我做了一些计算来验证我的猜测是否正确。我们将计算过程简化一下,先讨论横向色块的分布。假定可选颜色有25种,且每次选择是随机的,计算每行中两个同色色块一起出现的概率时,采用逆推法,即先计算不同时出现的概率。
[ 上一页 ]  [ :1.700515985e+09 ]  [ 下一页 ]