1700045834
绘图处理器(GPUs)
1700045835
1700045836
我们已经对高速计算机、大数据、数字相机和多层人工神经网络等主题进行讨论。还有一项更为重要的技术即将映入眼帘:高速独立显卡。它之所以重要的原因在于神经网络对于计算能力的要求极高。
1700045837
1700045838
早先,优质的独立显卡资源掌握在游戏界手里。游戏行业有时会遭遇某些保守的成见——“游戏会使青年人沉溺其中,浪费时光,毫无创造性”,然而事实上游戏行业却是创新的主要来源,尤其在图片处理方面。
1700045839
1700045840
游戏能测试出计算能力的高低。在游戏中,计算机需要以高清像素和快速帧率再现3D图片场景。计算机必须实时响应用户的输入,抵消几个游戏玩家之间的网络延迟时间,同时通过四射的水花和椅子的摇晃形成精准的肢体刺激。而且游戏应用对于计算机环境的要求更高,比普通应用程序的要求(如复制电子表格里的数字或数据搜索)更复杂难度更高。
1700045841
1700045842
连摩尔定律的速度也无法满足游戏行业对于低成本、高性能的计算机要求。于是,游戏行业只能采用了另一种方式来突破瓶颈:平行启动多个处理器。这致使游戏的硬件制造商没有研发更快速的处理器,而是研发专门的独立显卡,包含上千个平行处理器。
1700045843
1700045844
独立显卡有大量被称为GPUs的平行处理器(为了与传统的中央处理器CPU区别开来)。GPUs被看作是连接图片设计与游戏的特别应用。CPU的性能提升曲线可谓增长迅猛。而相比之下,GPUs的性能提升过程发展更加神速,该趋势引起了极大的关注。2006年,全球最大的独立显卡生产商之一的英伟达(Nvidia)引入了GeForce 8系列,这款GPU经过特别的设计,用途不局限于图片处理。
1700045845
1700045846
为了打开新产品市场,Nvidia创造了新名词“通用计算图形处理器(general purpose GPU, GPGPU)”,宣传这是台式计算机平行发展的全新领域。在Nvidia引入GeForce 8系列之前,只有专业的图片艺术家和科研精英才会用到通用平行计算。现在GPU拓展到那些需要高强度平行计算能力的应用领域,比如股市交易、工程分析,当然少不了神经网络。
1700045847
1700045848
神经网络正朝着平行化的趋势发展。神经网络包含许多的神经元,每个神经元处理各自接收到的输入内容,决定是否放电进行输出。这种情况非常适用于多层卷积网络,因为其包含的阵列组织能够与图像应用结合起来,这也恰好是设计GPUs的最初目的。
1700045849
1700045850
在大多数的计算机应用中,速度是非常重要的,对于神经网络而言,速度更是重中之重。虽然神经网络进行图片分类时,其在GPU上计算出答案的速度仅比在CPU的速度要快上一两秒,但当神经网络在训练时,GPUs的优势就十分明显了,因为训练需要进行数百万次的反向传播迭代。使用GPUs运作卷积神经网络的研究人员,相比其他使用台式电脑的同事,都能够觉察到一个明显的改善。原则上来说,对于大多数应用程序来说,训练过程的速度并不是那么重要。毕竟,训练往往只需要进行一次就够了;然而在实践中,现实世界没有人愿意研发、编程一套训练时间长达一个月之久的算法。如果人们面对的是一个只需三天时间便能完成训练的网络,那么情形将大不一样。
1700045851
1700045853
现代深度学习
1700045854
1700045855
2012年,现代深度学习在一场图片识别大赛上表现亮眼。大赛的目的是妥善利用ImageNet上的分类图片的宝贵价值。2010年,李飞飞与同事开始创办ImageNet图片识别竞赛,一个每年一度的大规模视觉识别挑战赛,任何人都可以参加。
1700045856
1700045857
比赛规则如下:参赛者向大赛管理方监管的服务器提交图片识别软件。根据要求,软件将会处理十万张新图片。由于图片随机排列,呈现的物品分散,软件将需通过编程和算法,对每张图片上五种识别出的物品进行命名。
1700045858
1700045859
ImageNet竞赛分为三项:图像分类、分类定位、检测。分类项目旨在测试计算机算法能否将图片正确分类并标上恰当的标记;分类定位项目用于评估对已标记图片以及图片上的物体位置的复制能力。最后的检测项目借鉴了其他项目的元素,但评价标准更为严格,图片数量众多,每张图片上呈现好几样微小的物体。随着时间的发展,比赛会新增了一些项目,如视频流的识别,保证比赛跟上技术的发展。
1700045860
1700045861
2010年比赛的获胜者是来自日本电气股份有限公司(NEC)和伊利诺伊大学香槟分校。在10万张测试图片中,获胜的神经网络的出错率是28%。两支亚军团队的错误率分别是33.6%和44.6%。为了更好地分析这个比赛结果,我们来对比一位未经过特别训练的普通人,他对图片进行分类的能力相当突出,错误率只有5%。
1700045862
1700045863
2011年第二届ImageNet竞赛成绩显示,尽管参赛团队几乎都没有使用神经网络,但这一年中机器视觉算法还是取得了较大进步。来自XRCE技术公司的团队错误率只有25%,比上一届冠军降低了2.4%的出错率,两支亚军队伍的错误率分别是31%和36%。
1700045864
1700045865
当第三届ImageNet竞赛在2012年9月30日深夜落下帷幕时,机器视觉领域发生了永恒的改变。这届比赛既没有狂热的媒体,也没有华而不实的颁奖礼。但是如果监管比赛的机架式服务器有反应的话,它们将会彼此拥抱,热烈庆祝。
1700045866
1700045867
东京大学团队研发的SuperVision神经网络,正确率高达85%,创下了世界软件识别比赛中骄人的成绩。错误率降低15%~25%听起来并不太多,可是对于计算机-视觉研究界而言,他们过去苦苦努力为了提高不到1%的正确率,这成绩就像是看到一个人人生第一次达到专业田径选手的水平,四分钟内跑完一英里。
1700045868
1700045869
SuperVision的发明者是亚历克斯·克里泽夫斯基(Alex Krizhevsky)、伊利亚·斯图斯盖尔(Ilya Sutskever)两名同学和他们的老师戈弗雷·辛顿(Geoffey Hinton)。Super Vision属于卷积神经网络。卷积神经网络的许多特征是建立在三十多年前福岛博士发明的神经认知器的技术基础上的。其余的改良部分是来自于由纽约大学扬·勒丘恩、斯坦福大学的吴恩达(Andrew Ng)和蒙特利尔大学的约书·本吉奥组成的研究小工的工作成果。SuperVision是一个大型的神经网络,由工人神经元组成矩阵,矩阵组成机架,机架再组成一个30层神经网络。东京团队做了一个大胆的举动,他们开放码源,让任何人都能使用和修改。这个举动在计算机视觉界内轰动一时。
1700045870
1700045871
深度学习人工神经网络已成为图片识别软件新的黄金准则。在SuperVision取得2012届图片识别比赛的辉煌胜利之前,几乎没有人使用卷积神经网络。但在2012年后,不使用卷积神经网络的研究团队甚至不敢再参加竞赛了。
1700045872
1700045873
SuperVision获胜后的下一年,冠军的错误率降低至11.2%,亚军紧跟其后,数据分别是12%和13%,所有人都使用的是指定的深度学习卷积神经网络。2014年,谷歌团队创下了6.66%的错误率新低。来自牛津大学的团队使用了更庞大的卷积神经网络,但错误率是7.1%。2015年,微软北京研究实验室团队(由首席研究员孙剑带领)使用了152层深度神经网络,赢得了三个比赛项目的冠军。值得一提的是,微软团队这一年的错误率仅有3.57%,历史上首次低于人类的错误率5%。
1700045874
1700045875
在取得这些胜利之后,机器视觉其他的研究方法仿佛都要被淘汰。算法不再局限于物体识别,已经开始从计算机视觉领域扩展至所有人工智能领域。人工智能发生了永恒的改变,无人驾驶汽车发展的最后一道障碍——软件的人工感知能力——终于被扫除了。
1700045876
1700045877
这场巨大的胜利后不久,各方开始尝试合作。Nvidia 推出了深度学习卡,是克里泽夫斯基的SuperVision网络在低功耗硬件上的衍生产品。Nvidia的商业应用程序目标何在?毫无疑问,是无人驾驶汽车。该系统被名副其实地命名为DRIVE PX,它能同步处理超过12个视频频道的实时内容。一年后,速度更快、造价更低、质量更优的计算机卡推出,自动深度学习的技术研发竞赛拉开了大幕。
1700045878
1700045880
神经网络内部
1700045881
1700045882
有几种不同类型的网络用于图像识别,每个网络都有自己的自测工具,并通过应用独特的改进算法提升训练的精度。深度学习是快速发展的领域,几乎每周都会推出新的结构和算法。然而,一个共同的特点是深度学习网络使用串联式多层人工神经元,从经过软件识别与标上标记的数字图片中捕捉图片特征。先进的深度学习网络拥有超过100层的人工神经网络(对比罗森布拉特的感知器只有单层神经网络,共八个神经元细胞)。
[
上一页 ]
[ :1.700045833e+09 ]
[
下一页 ]