打字猴:1.700515729e+09

1700515729 海量的数据是机器学习进入新时代最重要的催化剂。在此之前，一直不具备任由算法在数据之中学习、遨游的客观条件。这就像是将一个孩子的感官全部隔绝起来，我们都知道，如果不与外界接触，他是无法获得语言及其他基本能力的。他的大脑已经准备好学习了，但没有足够的刺激或经验是不能正常发育的。

1700515730

1700515731 数据对于新的变革尤为重要，因此它也被称为“新的石油”。访问数据，相当于在21世纪的“油田”中进行开采。Facebook、Twitter、谷歌和亚马逊备受瞩目，根源在于我们为其提供了免费的“石油储量”。严格意义上说，也不是完全免费，因为我们也在它们提供的服务中获得了数据的“交换”。比如，当我们在驾车使用Waze导航软件时，即在进行当前位置信息与到达目的地最有效的路线之间的数据交换。但是，很多人意识不到这种“交换”的重要性，不愿提供有价值的数据，因此其所得回报甚少。

1700515732

1700515733 机器学习的核心是在经验学习中改进算法的性能：对每个输出的结果进行自判断并即时调整算法公式，避免再次出错，在错误中不断学习进而得到改进。这就是数据访问十分重要的原因：数据越多，可用来进行训练的样本越多，得到的经验就越丰富，算法可以在不断迭代的过程中不断完善。程序员创建的元算法遇到不同的数据，就会发展成不同的新算法。

1700515734

1700515735 这种新方法的有效性同样震撼了整个人工智能领域，部分原因在于其底层技术并非独特的新技术。算法通过构建有解的问题层来实现，这种层模拟了人脑的工作原理，因此常被称为“神经网络”。在人类的大脑中，神经元之间通过突触相连，来自感官的刺激（如新出炉面包的诱人香味）会使得某一簇特定的神经元产生兴奋反应。当该刺激突破特定阈值时，次级神经元也将会被激活，由此会使人产生吃面包的冲动。比如，由10个神经元产生的兴奋反应可进一步激活次级神经元，但少于10个也许就不行。这种触发也可能取决于来自其他神经元输入的信号强度。

1700515736

1700515737 早在20世纪50年代，计算机科学家们就模拟该过程创造了感知器，其原理是：神经元就像一个逻辑门，接收输入的信息，然后通过计算来判断是否触发并产生兴奋反应。

1700515738

1700515739 如图5-1所示，感知器接收3个输入，每个输入的重要性不相同，用权重来表示：假设x1 的权重是x2 、x3 的3倍，试计算3x1 +x2 +x3 ，然后将结果与某一阈值相比，高则触发感知器输出，低则不然。如果得不到预想的正确输出，将会重新调整输入的权重。例如，x3 对结果的影响可能比x2 更重要，因此可将算式改为3x1 +x2 +2x3 。或者，可以用更简单的办法，微调一下阈值以直接触发感知器。我们还可以进一步对感知器进行改进，使其触发后的兴奋程度与函数超过阈值的程度成正比。此时，输出就可以作为对数据进行评估的一个标准了。

1700515740

1700515741

1700515742

1700515743

1700515744 图　5-1

1700515745

1700515746 让我们模拟一个“确定今晚是否外出”的感知器，它做决定取决于三个要素：（1）电视上是否有好节目；（2）你的朋友是否一起出去；（3）今天是星期几。我们把它们看作三个变量x1 、x2 、x3 ，并按自己的偏好在0～10选择合适的数字来给这些选项赋值。比如，“星期一”赋值为1；“星期五”赋值为10。根据个人的偏好，某些变量或许会受到更多的重视。假如你是个电视迷，可能电视上播的无论是什么节目都会让你选择待在家里看电视，那么变量x1的值就会非常高。这个公式的作用就是通过调整权值和阈值来模拟你的行为。

1700515747

1700515748 就像大脑是由一连串神经元彼此联系、共同作用一样，感知器也可以通过分层来构造出节点间的级联效应，我们称之为“神经网络”，如图5-2所示。更为精细的感知器，如S型神经元，可进一步地平滑输出，而不仅限于“是”和“否”两种结果。

1700515749

1700515750

1700515751

1700515752

1700515753 图　5-2

1700515754

1700515755 既然科学家们很早就懂得如何创建人工神经元，那么，从创建到使其高效工作的这个过程，何以耗费了那么长的时间？归根结底，还是因为数据，感知器的学习和进化需要数据的支撑。我们可通过编程为感知器分配初始的权值和阈值，通过真实的输入数据对其进行训练，每一次错误的预测都将会作为反馈，用以促进权值的调整和修正。这两个因素是创建有效算法应必备的。

1700515756

1700515757

1700515758

1700515759

1700515760 天才与算法：人脑与AI的数学思维 [:1700514891]

1700515761 天才与算法：人脑与AI的数学思维看还是不看

1700515762

1700515763 人工智能首先需要突破的巨大难题是计算机的视觉问题。就在五年前，计算机识别物体还非常困难。而人类在这方面却有着压倒性的先天优势：人类可以迅速、准确地辨识出图片上的物体，并进一步对图片各区域进行分区域、分类识别。虽然计算机一瞬间可分析数百万个像素，但编写一个能将所有数据转化为有意义的信息的算法却相当困难。如何创建一个自上而下的算法来识别猫呢？虽然每幅图像中的像素构成是完全不同的，但人类大脑具备惊人的能力，可迅速处理数据并输出答案——“猫”。

1700515764

1700515765 人类大脑识别图像的能力广泛应用在为支付等领域构建附加的安全层（验证码）方面，以识别当前的交易对象是人类还是计算机程序，比如网上的抢票防作弊程序[1] 。这其实就是一个反向的图灵测试。当看到一幅图像或一些特别的笔迹时，人类非常善于辨识出这幅图像或文字的特点，而计算机程序却不足以应对所有的变化。但是，机器学习使这一切发生了改变。

1700515766

1700515767 通过由猫的图像组成的数据库对算法进行训练，算法逐渐建立起一个问题层次结构，它可以向一幅具有高准确度的图像发问，并将其准确地识别为猫。这个算法与上一章中提到的略有不同，并且违反了我们所定义的构成一个好的算法的四个基本原则之一。算法在大部分时间都在工作，但达不到100%，所以关键是要让其尽可能达到“最”。对于业内人士来说，确定性算法到概率性算法的转变是一个重大的心理突破，类似于让数学家用工程师的思维方式去考虑问题。

1700515768

1700515769 既然如此，那当你在线购买最新的演唱会门票时，为什么还会被要求去识别一组图像以便进行人机区分呢？你所做的选择实际上是在帮助算法准备训练数据，这些数据随后会被载入算法，这样计算机就可以尝试学习你毫不费力就能做的事情了。算法需要借助带有标签的数据才能得到训练，我们真正在做的是训练视觉识别的算法。

1700515770

1700515771 用这些训练数据作为最好的问题类型可以训练算法，以便其区分猫和非猫的图像。每当算法识别错误，它将进行调整以便下次能够正确识别。调整的过程通常需要更改当前算法的参数或引入新的指标以求更准确地识别图像。这种更改不是通过程序员预判并自上而下实施的，而是由算法自身通过高频次的数据交互自下而上构建的。

1700515772

1700515773 我在剑桥的微软实验室里，见识到了孩子们在家里使用的Xbox游戏机是如何识别人在摄像机前的动作的，并深深地被这种强大的自下而上的学习能力震撼。该算法可以很好地将人体的头、肘、手、脚区分开来。Xbox配有一款名为Kinect的深度感应摄像头，它可利用红外线技术记录障碍物与摄像头的距离：如果你站在客厅里的摄像头前，它会检测到它与你身体的距离比后侧墙壁更近，并且还能确定你身体的大致轮廓。

1700515774

1700515775 但人有男女老少、高矮胖瘦，特别是在玩游戏时还可能会摆出一些奇形怪状的姿势，所以该算法需要对人体的31处特定部位进行定位和识别。微软的算法可以达到对静态图像的识别（动态图像识别需要更强大的分析处理能力，强行为之会导致游戏卡顿、延迟）。

1700515776

1700515777 那么，算法是如何确定那些特定身体部位所对应的图像中的像素点呢？事实上，可通过一个简单的问题算法来实现，类似于“20个问题的猜字游戏”。第1个问题是：这个字位于词典的前半部分还是后半部分？答案如果是“前半部分”（词典此时被一分为二），则开始第2个问题：这个字位于“前半部分”的前半部还是后半部？此时词典被分为4个部分。依此类推，逐渐缩小范围。当提问到第20个问题之后，词典将会被划分为220 个不同的区域，总数达到100多万，远超过牛津词典中收录的词汇数目（约30万）。

1700515778

[ 上一页 ] [ :1.700515729e+09 ] [ 下一页 ]