打字猴:1.700515716e+09

1700515716 天才与算法：人脑与AI的数学思维 [:1700514890]

1700515717 天才与算法：人脑与AI的数学思维第5章　从“自上而下”到“自下而上”

1700515718

1700515719 艾伦·图灵

1700515720

1700515721 机器经常让我大吃一惊。

1700515722

1700515723 我第一次见到戴密斯·哈萨比斯是在他的算法于围棋对弈中获得大胜之前的几年，那时他参加了一个关于创新未来的会议。会议中，许多新创立的公司都在寻找风投和天使投资人。它们中的一些会改变未来，但大多数是“昙花一现”。风投和天使投资人的目的就是发掘最具潜力的投资对象。当时，哈萨比斯讲道，代码在未来可以自主学习、适应并进行自我改进，我听完立刻把他打发走了。因为我觉得，程序员通过编程教会计算机玩游戏，而计算机却会比教它的人玩得更好，这种输入寡而输出众的事情不大可能实现。我并不是唯一一个这么想的人。哈萨比斯也坦言，人工智能想要在短时间内得到认可并获得投资是极其困难的。

1700515724

1700515725 事实证明，哈萨比斯是千里马，而我却非伯乐。从最近的人工智能会议的标题就可以感受到哈萨比斯的观点所带来的变革性影响——“机器学习是新的42？”（42是道格拉斯·亚当斯（Douglas Adams）的小说《银河系漫游指南》（The Hitchhiker’s Guide to the Galaxy）中“生命、宇宙以及任何事情的终极答案”。对于看科幻节目长大的人来说，这是非常熟悉的概念。）那么，是什么引发了这场新的人工智能革命呢？

1700515726

1700515727 答案很简单——数据。过去的5年间产生了现在世界上90%的数据。互联网每天创建的数据可达到1EB（1018 ），约为2.5亿张DVD光盘所存储的数据量。现在，人类两天内产生的数据量，就可以媲美从“文明曙光时代”到2003年所产生的数据量的总和。

1700515728

1700515729 海量的数据是机器学习进入新时代最重要的催化剂。在此之前，一直不具备任由算法在数据之中学习、遨游的客观条件。这就像是将一个孩子的感官全部隔绝起来，我们都知道，如果不与外界接触，他是无法获得语言及其他基本能力的。他的大脑已经准备好学习了，但没有足够的刺激或经验是不能正常发育的。

1700515730

1700515731 数据对于新的变革尤为重要，因此它也被称为“新的石油”。访问数据，相当于在21世纪的“油田”中进行开采。Facebook、Twitter、谷歌和亚马逊备受瞩目，根源在于我们为其提供了免费的“石油储量”。严格意义上说，也不是完全免费，因为我们也在它们提供的服务中获得了数据的“交换”。比如，当我们在驾车使用Waze导航软件时，即在进行当前位置信息与到达目的地最有效的路线之间的数据交换。但是，很多人意识不到这种“交换”的重要性，不愿提供有价值的数据，因此其所得回报甚少。

1700515732

1700515733 机器学习的核心是在经验学习中改进算法的性能：对每个输出的结果进行自判断并即时调整算法公式，避免再次出错，在错误中不断学习进而得到改进。这就是数据访问十分重要的原因：数据越多，可用来进行训练的样本越多，得到的经验就越丰富，算法可以在不断迭代的过程中不断完善。程序员创建的元算法遇到不同的数据，就会发展成不同的新算法。

1700515734

1700515735 这种新方法的有效性同样震撼了整个人工智能领域，部分原因在于其底层技术并非独特的新技术。算法通过构建有解的问题层来实现，这种层模拟了人脑的工作原理，因此常被称为“神经网络”。在人类的大脑中，神经元之间通过突触相连，来自感官的刺激（如新出炉面包的诱人香味）会使得某一簇特定的神经元产生兴奋反应。当该刺激突破特定阈值时，次级神经元也将会被激活，由此会使人产生吃面包的冲动。比如，由10个神经元产生的兴奋反应可进一步激活次级神经元，但少于10个也许就不行。这种触发也可能取决于来自其他神经元输入的信号强度。

1700515736

1700515737 早在20世纪50年代，计算机科学家们就模拟该过程创造了感知器，其原理是：神经元就像一个逻辑门，接收输入的信息，然后通过计算来判断是否触发并产生兴奋反应。

1700515738

1700515739 如图5-1所示，感知器接收3个输入，每个输入的重要性不相同，用权重来表示：假设x1 的权重是x2 、x3 的3倍，试计算3x1 +x2 +x3 ，然后将结果与某一阈值相比，高则触发感知器输出，低则不然。如果得不到预想的正确输出，将会重新调整输入的权重。例如，x3 对结果的影响可能比x2 更重要，因此可将算式改为3x1 +x2 +2x3 。或者，可以用更简单的办法，微调一下阈值以直接触发感知器。我们还可以进一步对感知器进行改进，使其触发后的兴奋程度与函数超过阈值的程度成正比。此时，输出就可以作为对数据进行评估的一个标准了。

1700515740

1700515741

1700515742

1700515743

1700515744 图　5-1

1700515745

1700515746 让我们模拟一个“确定今晚是否外出”的感知器，它做决定取决于三个要素：（1）电视上是否有好节目；（2）你的朋友是否一起出去；（3）今天是星期几。我们把它们看作三个变量x1 、x2 、x3 ，并按自己的偏好在0～10选择合适的数字来给这些选项赋值。比如，“星期一”赋值为1；“星期五”赋值为10。根据个人的偏好，某些变量或许会受到更多的重视。假如你是个电视迷，可能电视上播的无论是什么节目都会让你选择待在家里看电视，那么变量x1的值就会非常高。这个公式的作用就是通过调整权值和阈值来模拟你的行为。

1700515747

1700515748 就像大脑是由一连串神经元彼此联系、共同作用一样，感知器也可以通过分层来构造出节点间的级联效应，我们称之为“神经网络”，如图5-2所示。更为精细的感知器，如S型神经元，可进一步地平滑输出，而不仅限于“是”和“否”两种结果。

1700515749

1700515750

1700515751

1700515752

1700515753 图　5-2

1700515754

1700515755 既然科学家们很早就懂得如何创建人工神经元，那么，从创建到使其高效工作的这个过程，何以耗费了那么长的时间？归根结底，还是因为数据，感知器的学习和进化需要数据的支撑。我们可通过编程为感知器分配初始的权值和阈值，通过真实的输入数据对其进行训练，每一次错误的预测都将会作为反馈，用以促进权值的调整和修正。这两个因素是创建有效算法应必备的。

1700515756

1700515757

1700515758

1700515759

1700515760 天才与算法：人脑与AI的数学思维 [:1700514891]

1700515761 天才与算法：人脑与AI的数学思维看还是不看

1700515762

1700515763 人工智能首先需要突破的巨大难题是计算机的视觉问题。就在五年前，计算机识别物体还非常困难。而人类在这方面却有着压倒性的先天优势：人类可以迅速、准确地辨识出图片上的物体，并进一步对图片各区域进行分区域、分类识别。虽然计算机一瞬间可分析数百万个像素，但编写一个能将所有数据转化为有意义的信息的算法却相当困难。如何创建一个自上而下的算法来识别猫呢？虽然每幅图像中的像素构成是完全不同的，但人类大脑具备惊人的能力，可迅速处理数据并输出答案——“猫”。

1700515764

1700515765 人类大脑识别图像的能力广泛应用在为支付等领域构建附加的安全层（验证码）方面，以识别当前的交易对象是人类还是计算机程序，比如网上的抢票防作弊程序[1] 。这其实就是一个反向的图灵测试。当看到一幅图像或一些特别的笔迹时，人类非常善于辨识出这幅图像或文字的特点，而计算机程序却不足以应对所有的变化。但是，机器学习使这一切发生了改变。

[ 上一页 ] [ :1.700515716e+09 ] [ 下一页 ]