打字猴:1.700045866e+09
1700045866
1700045867 东京大学团队研发的SuperVision神经网络,正确率高达85%,创下了世界软件识别比赛中骄人的成绩。错误率降低15%~25%听起来并不太多,可是对于计算机-视觉研究界而言,他们过去苦苦努力为了提高不到1%的正确率,这成绩就像是看到一个人人生第一次达到专业田径选手的水平,四分钟内跑完一英里。
1700045868
1700045869 SuperVision的发明者是亚历克斯·克里泽夫斯基(Alex Krizhevsky)、伊利亚·斯图斯盖尔(Ilya Sutskever)两名同学和他们的老师戈弗雷·辛顿(Geoffey Hinton)。Super Vision属于卷积神经网络。卷积神经网络的许多特征是建立在三十多年前福岛博士发明的神经认知器的技术基础上的。其余的改良部分是来自于由纽约大学扬·勒丘恩、斯坦福大学的吴恩达(Andrew Ng)和蒙特利尔大学的约书·本吉奥组成的研究小工的工作成果。SuperVision是一个大型的神经网络,由工人神经元组成矩阵,矩阵组成机架,机架再组成一个30层神经网络。东京团队做了一个大胆的举动,他们开放码源,让任何人都能使用和修改。这个举动在计算机视觉界内轰动一时。
1700045870
1700045871 深度学习人工神经网络已成为图片识别软件新的黄金准则。在SuperVision取得2012届图片识别比赛的辉煌胜利之前,几乎没有人使用卷积神经网络。但在2012年后,不使用卷积神经网络的研究团队甚至不敢再参加竞赛了。
1700045872
1700045873 SuperVision获胜后的下一年,冠军的错误率降低至11.2%,亚军紧跟其后,数据分别是12%和13%,所有人都使用的是指定的深度学习卷积神经网络。2014年,谷歌团队创下了6.66%的错误率新低。来自牛津大学的团队使用了更庞大的卷积神经网络,但错误率是7.1%。2015年,微软北京研究实验室团队(由首席研究员孙剑带领)使用了152层深度神经网络,赢得了三个比赛项目的冠军。值得一提的是,微软团队这一年的错误率仅有3.57%,历史上首次低于人类的错误率5%。
1700045874
1700045875 在取得这些胜利之后,机器视觉其他的研究方法仿佛都要被淘汰。算法不再局限于物体识别,已经开始从计算机视觉领域扩展至所有人工智能领域。人工智能发生了永恒的改变,无人驾驶汽车发展的最后一道障碍——软件的人工感知能力——终于被扫除了。
1700045876
1700045877 这场巨大的胜利后不久,各方开始尝试合作。Nvidia 推出了深度学习卡,是克里泽夫斯基的SuperVision网络在低功耗硬件上的衍生产品。Nvidia的商业应用程序目标何在?毫无疑问,是无人驾驶汽车。该系统被名副其实地命名为DRIVE PX,它能同步处理超过12个视频频道的实时内容。一年后,速度更快、造价更低、质量更优的计算机卡推出,自动深度学习的技术研发竞赛拉开了大幕。
1700045878
1700045879 无人驾驶:人工智能将从颠覆驾驶开始,全面重构人类生活 [:1700043827]
1700045880 神经网络内部
1700045881
1700045882 有几种不同类型的网络用于图像识别,每个网络都有自己的自测工具,并通过应用独特的改进算法提升训练的精度。深度学习是快速发展的领域,几乎每周都会推出新的结构和算法。然而,一个共同的特点是深度学习网络使用串联式多层人工神经元,从经过软件识别与标上标记的数字图片中捕捉图片特征。先进的深度学习网络拥有超过100层的人工神经网络(对比罗森布拉特的感知器只有单层神经网络,共八个神经元细胞)。
1700045883
1700045884 有人认为深度学习网络识别物体的方式与人类相同,首先认识某个细小的特征,然后把该特征抽象出来,应用至更广义、更抽象的概念中去。虽然直到现在,生物系统识别物体的过程仍然是个谜,但人类的眼睛看到一双尖尖的耳朵,八根胡须和毛茸茸的尾巴时,总能快速地把以上视觉信息分类:“啊,是只猫!”是的,构建神经网络时,通过进行快速的个体特征分析确实是物品分类的一种办法,人工感知也由此更接近人类的感知水平。
1700045885
1700045886 让我们以SuperVision这款神经网络为例,看看这些多层神经元解析机(Multilayer Analytical Engines)是如何工作的。使用GPUs加快训练过程是克里泽夫斯基及其团队作出的一项非常实用的改进,使得训练周期从以“周”为单位减少到“天”为单位。鉴于SuperVision是大型的神经网络,神经元解析机数量多且密集,系统参数高达6000万,含有神经元数量65万个,为大幅缩短训练时间提供了极大优势。
1700045887
1700045888 在神经网络内部,SuperVision(研究人员为其取了小名“AlexNet”)采用了更为简单的阈值形式。经过简化的传输功能有助于神经元提升速度,同时使韦伯斯的训练算法深入多层神经网络调节其中的节点,有利于解决长期以来困扰多层神经网络的问题。为了解决过拟合的问题,SuperVision团队采用了一种名为Dropout的技术。Dropout技术包括在训练过程中清除部分连接不畅的神经元——没有任何单独的神经元能完成所有工作。Dropout能够让所有的神经元都各施其职参与到计算过程中。
1700045889
1700045890 创建深度学习网络的第一步是,提供原始视觉数据。每张数码图片包含一个矩阵,矩阵数值以红绿蓝光量化在每一个像素里。深度学习网络的输入层内有三个相似但互补的输入矩阵,数值能矩阵之间相互流通。
1700045891
1700045892 由于深度学习网络的种类不同,其神经元层的排列也各异。在标准的卷积神经网络中,第二层神经元与第一层具有数据功能的矩阵相连。例如,第一层含有3×3排列的矩阵,第二层的神经元负责计算出这些像素的加权总和——这与福岛的神经认知器极为相似,排列的神经元能够帮助神经网络完成性能调校——如果总数大于一定阈值,神经元将会“放电”或向下一层神经元发出特定信号。如果数值过低,神经元则安静等待,处于休息状态。当信号扩散后,或者说在神经元之间传送时,神经链中的下一个神经细胞将计算从3×3的窗口(window)里传过来的信号总数。这个过程在神经网络中一直持续进行着。
1700045893
1700045894 大多数深度学习结构中也包括最大池法(max-pooling)的单元,与神经认知器的C细胞相似,从神经元池中抽取最大数值,忽略其他信号。结果证明最大池法能加强网络的稳定性。在大多数的深度学习网络的最后几层中通常包含两层及以上的老式“完全连接”的双层感知器。最后卷积神经网络学会并发现最佳图像特征,这时感知器开始运作。
1700045895
1700045896 当信号抵达最后一层的神经末端,输出神经元会统计内层神经元细胞的“投票结果”。例如,罗森布拉特的感知器就会以点亮灯的形式来表示最后的输出结果。如果一款现代深度学习网络的软件接受识别猫狗图片的训练,它将根据机器对物体的识别肯定程度,在数字0~1范围内表达输出的数值。如果在判断狗的时候,对一张图片的输出数值是1,那么这就表示神经网络百分百肯定图片上是一只狗。同样,假使判断猫的图片的数值是0.5,就表示网络不太确定图片上是一只猫。
1700045897
1700045898 显然,这种对深度网络学习分析法的解释极其简单。随着该领域研究的发展,大多数网络都对这个流程进行了改良。改良做法包括:把功能独特的神经元层插入中间层,进行实时数据分析,还原可能被扩散的信号。其他的改良之处,还包括2015年微软团队设计的训练方法“残差学习(Residual Learning)”——使训练覆盖到更多神经网络层。
1700045899
1700045900 深度网络学习的优点之一是如果设置妥当,网络能在对重复物品识别的基础上,自主形成对新数据的识别能力。具有讽刺意味的是,机器本身,而并非人类程序员,自主培养出对新出现的陌生物体的识别能力。深度学习网络是程序员口中的典型的“黑盒结构”例子,意思是当软件进行输出时,几乎不可能对软件程序的步骤进行任何逆向操作。
1700045901
1700045902 假使一辆无人驾驶汽车把眼前的一群过路行人,误认为是玻璃钢结构的摩天大楼墙体反射的倒影,那么即使该程序的设计者也不会知道为什么视觉识别软件迟迟不能检测出错误原因。现代多层深度学习网络的神经元层可以达到几十层之多,层内包含上百万甚至几十亿的连接点。就好比一个人不知道自己的想法有什么确切的逻辑依据,只是随口凭感觉来回答。深度学习网络也是同样的,它们是凭借上百万的人工神经元的“感觉良好”来得出结论的。
1700045903
1700045904 无人驾驶:人工智能将从颠覆驾驶开始,全面重构人类生活 [:1700043828]
1700045905 新型边缘检测
1700045906
1700045907 分析深度学习网络的识别行为的一个方法,是把人工神经元逐个分开,用某种特定模式来测试它们的反应。进行这项实验的研究专家发现,在深度学习网络识别视觉信息的过程中,人工神经元细胞在网络中的位置越深(越靠近输出层),识别抽象模式的能力越强。相反地,神经元细胞越靠近表层网络,识别出的物体越简单。
1700045908
1700045909 1959年,有一次有趣的生物学实验中,生物学家大卫·休伯尔(David Hubel)与托斯坦·威泽尔(Torsten Wiesel)记录了经过轻度麻醉的猫(也许还有其他动物)的视网膜活跃性——以尺寸不同的斑点和黑白条纹刺激猫的视网膜。当他们检查神经元对视觉刺激的反应时,他们发现这些视觉皮层细胞仅仅能识别条纹,不能识别点状物。于是,他们两人把这些细胞称为“条状物检测器(bar detectors)”或“边缘检测器(edge detectors)”。事实证明,深度学习网络的外层神经元对于线条和边缘反应更加强烈。
1700045910
1700045911 在深度学习网络神经元中,首先会将复杂的图像分割成单一的线条和边角,目的是要算出图片里究竟有些什么。在过去几十年中,例如“沙基”这样的早期机器人,是通过人工预先编程视觉信息分割成线条和边角,以便更好地感应物体。而到了今天,深度学习网络则采用自主化的流程处理方式。并且在深度学习网络中,越进入深处,人工神经元所回应的模式就越复杂。如果该网络训练时使用的是汽车图片的数据库,那么它的第三层神经网络很可能对于类似车轮的圆形物体作出判断。第四层神经元也许能识别汽车的某部分或某个种类,比如说卡车或车前挡板。再往网络深处走,神经元就能识别更抽象的概念,例如从驾驶员座位上看到的,与车外某个物体匹配的3D模型,等等。
1700045912
1700045913
1700045914
1700045915
[ 上一页 ]  [ :1.700045866e+09 ]  [ 下一页 ]