1700045880
神经网络内部
1700045881
1700045882
有几种不同类型的网络用于图像识别,每个网络都有自己的自测工具,并通过应用独特的改进算法提升训练的精度。深度学习是快速发展的领域,几乎每周都会推出新的结构和算法。然而,一个共同的特点是深度学习网络使用串联式多层人工神经元,从经过软件识别与标上标记的数字图片中捕捉图片特征。先进的深度学习网络拥有超过100层的人工神经网络(对比罗森布拉特的感知器只有单层神经网络,共八个神经元细胞)。
1700045883
1700045884
有人认为深度学习网络识别物体的方式与人类相同,首先认识某个细小的特征,然后把该特征抽象出来,应用至更广义、更抽象的概念中去。虽然直到现在,生物系统识别物体的过程仍然是个谜,但人类的眼睛看到一双尖尖的耳朵,八根胡须和毛茸茸的尾巴时,总能快速地把以上视觉信息分类:“啊,是只猫!”是的,构建神经网络时,通过进行快速的个体特征分析确实是物品分类的一种办法,人工感知也由此更接近人类的感知水平。
1700045885
1700045886
让我们以SuperVision这款神经网络为例,看看这些多层神经元解析机(Multilayer Analytical Engines)是如何工作的。使用GPUs加快训练过程是克里泽夫斯基及其团队作出的一项非常实用的改进,使得训练周期从以“周”为单位减少到“天”为单位。鉴于SuperVision是大型的神经网络,神经元解析机数量多且密集,系统参数高达6000万,含有神经元数量65万个,为大幅缩短训练时间提供了极大优势。
1700045887
1700045888
在神经网络内部,SuperVision(研究人员为其取了小名“AlexNet”)采用了更为简单的阈值形式。经过简化的传输功能有助于神经元提升速度,同时使韦伯斯的训练算法深入多层神经网络调节其中的节点,有利于解决长期以来困扰多层神经网络的问题。为了解决过拟合的问题,SuperVision团队采用了一种名为Dropout的技术。Dropout技术包括在训练过程中清除部分连接不畅的神经元——没有任何单独的神经元能完成所有工作。Dropout能够让所有的神经元都各施其职参与到计算过程中。
1700045889
1700045890
创建深度学习网络的第一步是,提供原始视觉数据。每张数码图片包含一个矩阵,矩阵数值以红绿蓝光量化在每一个像素里。深度学习网络的输入层内有三个相似但互补的输入矩阵,数值能矩阵之间相互流通。
1700045891
1700045892
由于深度学习网络的种类不同,其神经元层的排列也各异。在标准的卷积神经网络中,第二层神经元与第一层具有数据功能的矩阵相连。例如,第一层含有3×3排列的矩阵,第二层的神经元负责计算出这些像素的加权总和——这与福岛的神经认知器极为相似,排列的神经元能够帮助神经网络完成性能调校——如果总数大于一定阈值,神经元将会“放电”或向下一层神经元发出特定信号。如果数值过低,神经元则安静等待,处于休息状态。当信号扩散后,或者说在神经元之间传送时,神经链中的下一个神经细胞将计算从3×3的窗口(window)里传过来的信号总数。这个过程在神经网络中一直持续进行着。
1700045893
1700045894
大多数深度学习结构中也包括最大池法(max-pooling)的单元,与神经认知器的C细胞相似,从神经元池中抽取最大数值,忽略其他信号。结果证明最大池法能加强网络的稳定性。在大多数的深度学习网络的最后几层中通常包含两层及以上的老式“完全连接”的双层感知器。最后卷积神经网络学会并发现最佳图像特征,这时感知器开始运作。
1700045895
1700045896
当信号抵达最后一层的神经末端,输出神经元会统计内层神经元细胞的“投票结果”。例如,罗森布拉特的感知器就会以点亮灯的形式来表示最后的输出结果。如果一款现代深度学习网络的软件接受识别猫狗图片的训练,它将根据机器对物体的识别肯定程度,在数字0~1范围内表达输出的数值。如果在判断狗的时候,对一张图片的输出数值是1,那么这就表示神经网络百分百肯定图片上是一只狗。同样,假使判断猫的图片的数值是0.5,就表示网络不太确定图片上是一只猫。
1700045897
1700045898
显然,这种对深度网络学习分析法的解释极其简单。随着该领域研究的发展,大多数网络都对这个流程进行了改良。改良做法包括:把功能独特的神经元层插入中间层,进行实时数据分析,还原可能被扩散的信号。其他的改良之处,还包括2015年微软团队设计的训练方法“残差学习(Residual Learning)”——使训练覆盖到更多神经网络层。
1700045899
1700045900
深度网络学习的优点之一是如果设置妥当,网络能在对重复物品识别的基础上,自主形成对新数据的识别能力。具有讽刺意味的是,机器本身,而并非人类程序员,自主培养出对新出现的陌生物体的识别能力。深度学习网络是程序员口中的典型的“黑盒结构”例子,意思是当软件进行输出时,几乎不可能对软件程序的步骤进行任何逆向操作。
1700045901
1700045902
假使一辆无人驾驶汽车把眼前的一群过路行人,误认为是玻璃钢结构的摩天大楼墙体反射的倒影,那么即使该程序的设计者也不会知道为什么视觉识别软件迟迟不能检测出错误原因。现代多层深度学习网络的神经元层可以达到几十层之多,层内包含上百万甚至几十亿的连接点。就好比一个人不知道自己的想法有什么确切的逻辑依据,只是随口凭感觉来回答。深度学习网络也是同样的,它们是凭借上百万的人工神经元的“感觉良好”来得出结论的。
1700045903
1700045905
新型边缘检测
1700045906
1700045907
分析深度学习网络的识别行为的一个方法,是把人工神经元逐个分开,用某种特定模式来测试它们的反应。进行这项实验的研究专家发现,在深度学习网络识别视觉信息的过程中,人工神经元细胞在网络中的位置越深(越靠近输出层),识别抽象模式的能力越强。相反地,神经元细胞越靠近表层网络,识别出的物体越简单。
1700045908
1700045909
1959年,有一次有趣的生物学实验中,生物学家大卫·休伯尔(David Hubel)与托斯坦·威泽尔(Torsten Wiesel)记录了经过轻度麻醉的猫(也许还有其他动物)的视网膜活跃性——以尺寸不同的斑点和黑白条纹刺激猫的视网膜。当他们检查神经元对视觉刺激的反应时,他们发现这些视觉皮层细胞仅仅能识别条纹,不能识别点状物。于是,他们两人把这些细胞称为“条状物检测器(bar detectors)”或“边缘检测器(edge detectors)”。事实证明,深度学习网络的外层神经元对于线条和边缘反应更加强烈。
1700045910
1700045911
在深度学习网络神经元中,首先会将复杂的图像分割成单一的线条和边角,目的是要算出图片里究竟有些什么。在过去几十年中,例如“沙基”这样的早期机器人,是通过人工预先编程视觉信息分割成线条和边角,以便更好地感应物体。而到了今天,深度学习网络则采用自主化的流程处理方式。并且在深度学习网络中,越进入深处,人工神经元所回应的模式就越复杂。如果该网络训练时使用的是汽车图片的数据库,那么它的第三层神经网络很可能对于类似车轮的圆形物体作出判断。第四层神经元也许能识别汽车的某部分或某个种类,比如说卡车或车前挡板。再往网络深处走,神经元就能识别更抽象的概念,例如从驾驶员座位上看到的,与车外某个物体匹配的3D模型,等等。
1700045912
1700045913
1700045914
1700045915
1700045916
图9.4 深度学习应用在驾驶途中的实时物体识别
1700045917
1700045918
来源:Nvidia公司
1700045919
1700045920
当研究人员渐渐熟悉这种学习规律后,就开始将它运用到实际设计中。到后来,无论卷积神经网络是为了何种应用而接受训练,网络首层几乎都会包含边缘检测器,因为这种边缘检测技术在图片理解领域是普遍适用的。
1700045921
1700045922
在网络深处,内层神经网络开始朝“专业化”发展:受训后能识别汽车的网络能马上反应出车相关的特征。可能生成专门识别车身形状的神经元,以及其他具有识别特定部位的神经网络。在训练时学会识别狗的神经元能对“皮毛”“耳朵形状”等特征作出响应。
1700045923
1700045924
我们把引起神经网络响应的模式称为“视觉特征(Visual Features)”。对于初级水平,图片特征简单:线条和片状物。当水平渐渐提升,视觉特征变得更加复杂和抽象,甚至连“特征”这个词都不能很好地概括它的含义。位于高层网络的个体神经元能够仅通过部分视觉特征的组合,就作出判断。例如,某个神经元能对前格栅中识别出这是“雪佛兰汽车”。
1700045925
1700045926
哲学家们绞尽脑汁来描述个体独有的感官体验,却无法量化或直接表达比人与人之间的个体感受差异。专业术语“感受质(Quale)”指的正是个体直接的感受体验。我们都明白自己的感受,但是无法确切比较自己与他人的感受异同。例如,每个人看到的傍晚天空的红颜色都一模一样吗?巧克力在你口中感受到的味道与别人所感受到的相同吗?
1700045927
1700045928
也许未来某天,深度学习网络能够拥有自己的感受质。多年前,我便亲身感受到深度学习网络发现自我认知存在时那种诡异,当时,我和学生正在准备一场深度学习网络的现场演示。我们每天都会用几小时,把能在实验室找到的各式物品随机在与神经网络联网的摄像头前展示。神经网络照常接受训练,并把大部分图片根据内容进行正确的分类。然而,奇怪的事情发生了。我们意识到网络仿佛一个月的婴儿正在识别我们的脸部。每一次当我的头靠近摄像机,网络产生反应。当学生们效仿我的做法,网络仍旧产生回应。
[
上一页 ]
[ :1.700045879e+09 ]
[
下一页 ]