打字猴:1.700045854e+09

1700045854

1700045855 2012年，现代深度学习在一场图片识别大赛上表现亮眼。大赛的目的是妥善利用ImageNet上的分类图片的宝贵价值。2010年，李飞飞与同事开始创办ImageNet图片识别竞赛，一个每年一度的大规模视觉识别挑战赛，任何人都可以参加。

1700045856

1700045857 比赛规则如下：参赛者向大赛管理方监管的服务器提交图片识别软件。根据要求，软件将会处理十万张新图片。由于图片随机排列，呈现的物品分散，软件将需通过编程和算法，对每张图片上五种识别出的物品进行命名。

1700045858

1700045859 ImageNet竞赛分为三项：图像分类、分类定位、检测。分类项目旨在测试计算机算法能否将图片正确分类并标上恰当的标记；分类定位项目用于评估对已标记图片以及图片上的物体位置的复制能力。最后的检测项目借鉴了其他项目的元素，但评价标准更为严格，图片数量众多，每张图片上呈现好几样微小的物体。随着时间的发展，比赛会新增了一些项目，如视频流的识别，保证比赛跟上技术的发展。

1700045860

1700045861 2010年比赛的获胜者是来自日本电气股份有限公司（NEC）和伊利诺伊大学香槟分校。在10万张测试图片中，获胜的神经网络的出错率是28%。两支亚军团队的错误率分别是33.6%和44.6%。为了更好地分析这个比赛结果，我们来对比一位未经过特别训练的普通人，他对图片进行分类的能力相当突出，错误率只有5%。

1700045862

1700045863 2011年第二届ImageNet竞赛成绩显示，尽管参赛团队几乎都没有使用神经网络，但这一年中机器视觉算法还是取得了较大进步。来自XRCE技术公司的团队错误率只有25%，比上一届冠军降低了2.4%的出错率，两支亚军队伍的错误率分别是31%和36%。

1700045864

1700045865 当第三届ImageNet竞赛在2012年9月30日深夜落下帷幕时，机器视觉领域发生了永恒的改变。这届比赛既没有狂热的媒体，也没有华而不实的颁奖礼。但是如果监管比赛的机架式服务器有反应的话，它们将会彼此拥抱，热烈庆祝。

1700045866

1700045867 东京大学团队研发的SuperVision神经网络，正确率高达85%，创下了世界软件识别比赛中骄人的成绩。错误率降低15%~25%听起来并不太多，可是对于计算机-视觉研究界而言，他们过去苦苦努力为了提高不到1%的正确率，这成绩就像是看到一个人人生第一次达到专业田径选手的水平，四分钟内跑完一英里。

1700045868

1700045869 SuperVision的发明者是亚历克斯·克里泽夫斯基（Alex Krizhevsky）、伊利亚·斯图斯盖尔（Ilya Sutskever）两名同学和他们的老师戈弗雷·辛顿（Geoffey Hinton）。Super Vision属于卷积神经网络。卷积神经网络的许多特征是建立在三十多年前福岛博士发明的神经认知器的技术基础上的。其余的改良部分是来自于由纽约大学扬·勒丘恩、斯坦福大学的吴恩达（Andrew Ng）和蒙特利尔大学的约书·本吉奥组成的研究小工的工作成果。SuperVision是一个大型的神经网络，由工人神经元组成矩阵，矩阵组成机架，机架再组成一个30层神经网络。东京团队做了一个大胆的举动，他们开放码源，让任何人都能使用和修改。这个举动在计算机视觉界内轰动一时。

1700045870

1700045871 深度学习人工神经网络已成为图片识别软件新的黄金准则。在SuperVision取得2012届图片识别比赛的辉煌胜利之前，几乎没有人使用卷积神经网络。但在2012年后，不使用卷积神经网络的研究团队甚至不敢再参加竞赛了。

1700045872

1700045873 SuperVision获胜后的下一年，冠军的错误率降低至11.2%，亚军紧跟其后，数据分别是12%和13%，所有人都使用的是指定的深度学习卷积神经网络。2014年，谷歌团队创下了6.66%的错误率新低。来自牛津大学的团队使用了更庞大的卷积神经网络，但错误率是7.1%。2015年，微软北京研究实验室团队（由首席研究员孙剑带领）使用了152层深度神经网络，赢得了三个比赛项目的冠军。值得一提的是，微软团队这一年的错误率仅有3.57%，历史上首次低于人类的错误率5%。

1700045874

1700045875 在取得这些胜利之后，机器视觉其他的研究方法仿佛都要被淘汰。算法不再局限于物体识别，已经开始从计算机视觉领域扩展至所有人工智能领域。人工智能发生了永恒的改变，无人驾驶汽车发展的最后一道障碍——软件的人工感知能力——终于被扫除了。

1700045876

1700045877 这场巨大的胜利后不久，各方开始尝试合作。Nvidia 推出了深度学习卡，是克里泽夫斯基的SuperVision网络在低功耗硬件上的衍生产品。Nvidia的商业应用程序目标何在？毫无疑问，是无人驾驶汽车。该系统被名副其实地命名为DRIVE PX，它能同步处理超过12个视频频道的实时内容。一年后，速度更快、造价更低、质量更优的计算机卡推出，自动深度学习的技术研发竞赛拉开了大幕。

1700045878

1700045879 无人驾驶：人工智能将从颠覆驾驶开始，全面重构人类生活 [:1700043827]

1700045880 神经网络内部

1700045881

1700045882 有几种不同类型的网络用于图像识别，每个网络都有自己的自测工具，并通过应用独特的改进算法提升训练的精度。深度学习是快速发展的领域，几乎每周都会推出新的结构和算法。然而，一个共同的特点是深度学习网络使用串联式多层人工神经元，从经过软件识别与标上标记的数字图片中捕捉图片特征。先进的深度学习网络拥有超过100层的人工神经网络（对比罗森布拉特的感知器只有单层神经网络，共八个神经元细胞）。

1700045883

1700045884 有人认为深度学习网络识别物体的方式与人类相同，首先认识某个细小的特征，然后把该特征抽象出来，应用至更广义、更抽象的概念中去。虽然直到现在，生物系统识别物体的过程仍然是个谜，但人类的眼睛看到一双尖尖的耳朵，八根胡须和毛茸茸的尾巴时，总能快速地把以上视觉信息分类：“啊，是只猫！”是的，构建神经网络时，通过进行快速的个体特征分析确实是物品分类的一种办法，人工感知也由此更接近人类的感知水平。

1700045885

1700045886 让我们以SuperVision这款神经网络为例，看看这些多层神经元解析机（Multilayer Analytical Engines）是如何工作的。使用GPUs加快训练过程是克里泽夫斯基及其团队作出的一项非常实用的改进，使得训练周期从以“周”为单位减少到“天”为单位。鉴于SuperVision是大型的神经网络，神经元解析机数量多且密集，系统参数高达6000万，含有神经元数量65万个，为大幅缩短训练时间提供了极大优势。

1700045887

1700045888 在神经网络内部，SuperVision（研究人员为其取了小名“AlexNet”）采用了更为简单的阈值形式。经过简化的传输功能有助于神经元提升速度，同时使韦伯斯的训练算法深入多层神经网络调节其中的节点，有利于解决长期以来困扰多层神经网络的问题。为了解决过拟合的问题，SuperVision团队采用了一种名为Dropout的技术。Dropout技术包括在训练过程中清除部分连接不畅的神经元——没有任何单独的神经元能完成所有工作。Dropout能够让所有的神经元都各施其职参与到计算过程中。

1700045889

1700045890 创建深度学习网络的第一步是，提供原始视觉数据。每张数码图片包含一个矩阵，矩阵数值以红绿蓝光量化在每一个像素里。深度学习网络的输入层内有三个相似但互补的输入矩阵，数值能矩阵之间相互流通。

1700045891

1700045892 由于深度学习网络的种类不同，其神经元层的排列也各异。在标准的卷积神经网络中，第二层神经元与第一层具有数据功能的矩阵相连。例如，第一层含有3×3排列的矩阵，第二层的神经元负责计算出这些像素的加权总和——这与福岛的神经认知器极为相似，排列的神经元能够帮助神经网络完成性能调校——如果总数大于一定阈值，神经元将会“放电”或向下一层神经元发出特定信号。如果数值过低，神经元则安静等待，处于休息状态。当信号扩散后，或者说在神经元之间传送时，神经链中的下一个神经细胞将计算从3×3的窗口（window）里传过来的信号总数。这个过程在神经网络中一直持续进行着。

1700045893

1700045894 大多数深度学习结构中也包括最大池法（max-pooling）的单元，与神经认知器的C细胞相似，从神经元池中抽取最大数值，忽略其他信号。结果证明最大池法能加强网络的稳定性。在大多数的深度学习网络的最后几层中通常包含两层及以上的老式“完全连接”的双层感知器。最后卷积神经网络学会并发现最佳图像特征，这时感知器开始运作。

1700045895

1700045896 当信号抵达最后一层的神经末端，输出神经元会统计内层神经元细胞的“投票结果”。例如，罗森布拉特的感知器就会以点亮灯的形式来表示最后的输出结果。如果一款现代深度学习网络的软件接受识别猫狗图片的训练，它将根据机器对物体的识别肯定程度，在数字0~1范围内表达输出的数值。如果在判断狗的时候，对一张图片的输出数值是1，那么这就表示神经网络百分百肯定图片上是一只狗。同样，假使判断猫的图片的数值是0.5，就表示网络不太确定图片上是一只猫。

1700045897

1700045898 显然，这种对深度网络学习分析法的解释极其简单。随着该领域研究的发展，大多数网络都对这个流程进行了改良。改良做法包括：把功能独特的神经元层插入中间层，进行实时数据分析，还原可能被扩散的信号。其他的改良之处，还包括2015年微软团队设计的训练方法“残差学习（Residual Learning）”——使训练覆盖到更多神经网络层。

1700045899

1700045900 深度网络学习的优点之一是如果设置妥当，网络能在对重复物品识别的基础上，自主形成对新数据的识别能力。具有讽刺意味的是，机器本身，而并非人类程序员，自主培养出对新出现的陌生物体的识别能力。深度学习网络是程序员口中的典型的“黑盒结构”例子，意思是当软件进行输出时，几乎不可能对软件程序的步骤进行任何逆向操作。

1700045901

1700045902 假使一辆无人驾驶汽车把眼前的一群过路行人，误认为是玻璃钢结构的摩天大楼墙体反射的倒影，那么即使该程序的设计者也不会知道为什么视觉识别软件迟迟不能检测出错误原因。现代多层深度学习网络的神经元层可以达到几十层之多，层内包含上百万甚至几十亿的连接点。就好比一个人不知道自己的想法有什么确切的逻辑依据，只是随口凭感觉来回答。深度学习网络也是同样的，它们是凭借上百万的人工神经元的“感觉良好”来得出结论的。

1700045903

[ 上一页 ] [ :1.700045854e+09 ] [ 下一页 ]