打字猴:1.70004589e+09
1700045890 创建深度学习网络的第一步是,提供原始视觉数据。每张数码图片包含一个矩阵,矩阵数值以红绿蓝光量化在每一个像素里。深度学习网络的输入层内有三个相似但互补的输入矩阵,数值能矩阵之间相互流通。
1700045891
1700045892 由于深度学习网络的种类不同,其神经元层的排列也各异。在标准的卷积神经网络中,第二层神经元与第一层具有数据功能的矩阵相连。例如,第一层含有3×3排列的矩阵,第二层的神经元负责计算出这些像素的加权总和——这与福岛的神经认知器极为相似,排列的神经元能够帮助神经网络完成性能调校——如果总数大于一定阈值,神经元将会“放电”或向下一层神经元发出特定信号。如果数值过低,神经元则安静等待,处于休息状态。当信号扩散后,或者说在神经元之间传送时,神经链中的下一个神经细胞将计算从3×3的窗口(window)里传过来的信号总数。这个过程在神经网络中一直持续进行着。
1700045893
1700045894 大多数深度学习结构中也包括最大池法(max-pooling)的单元,与神经认知器的C细胞相似,从神经元池中抽取最大数值,忽略其他信号。结果证明最大池法能加强网络的稳定性。在大多数的深度学习网络的最后几层中通常包含两层及以上的老式“完全连接”的双层感知器。最后卷积神经网络学会并发现最佳图像特征,这时感知器开始运作。
1700045895
1700045896 当信号抵达最后一层的神经末端,输出神经元会统计内层神经元细胞的“投票结果”。例如,罗森布拉特的感知器就会以点亮灯的形式来表示最后的输出结果。如果一款现代深度学习网络的软件接受识别猫狗图片的训练,它将根据机器对物体的识别肯定程度,在数字0~1范围内表达输出的数值。如果在判断狗的时候,对一张图片的输出数值是1,那么这就表示神经网络百分百肯定图片上是一只狗。同样,假使判断猫的图片的数值是0.5,就表示网络不太确定图片上是一只猫。
1700045897
1700045898 显然,这种对深度网络学习分析法的解释极其简单。随着该领域研究的发展,大多数网络都对这个流程进行了改良。改良做法包括:把功能独特的神经元层插入中间层,进行实时数据分析,还原可能被扩散的信号。其他的改良之处,还包括2015年微软团队设计的训练方法“残差学习(Residual Learning)”——使训练覆盖到更多神经网络层。
1700045899
1700045900 深度网络学习的优点之一是如果设置妥当,网络能在对重复物品识别的基础上,自主形成对新数据的识别能力。具有讽刺意味的是,机器本身,而并非人类程序员,自主培养出对新出现的陌生物体的识别能力。深度学习网络是程序员口中的典型的“黑盒结构”例子,意思是当软件进行输出时,几乎不可能对软件程序的步骤进行任何逆向操作。
1700045901
1700045902 假使一辆无人驾驶汽车把眼前的一群过路行人,误认为是玻璃钢结构的摩天大楼墙体反射的倒影,那么即使该程序的设计者也不会知道为什么视觉识别软件迟迟不能检测出错误原因。现代多层深度学习网络的神经元层可以达到几十层之多,层内包含上百万甚至几十亿的连接点。就好比一个人不知道自己的想法有什么确切的逻辑依据,只是随口凭感觉来回答。深度学习网络也是同样的,它们是凭借上百万的人工神经元的“感觉良好”来得出结论的。
1700045903
1700045904 无人驾驶:人工智能将从颠覆驾驶开始,全面重构人类生活 [:1700043828]
1700045905 新型边缘检测
1700045906
1700045907 分析深度学习网络的识别行为的一个方法,是把人工神经元逐个分开,用某种特定模式来测试它们的反应。进行这项实验的研究专家发现,在深度学习网络识别视觉信息的过程中,人工神经元细胞在网络中的位置越深(越靠近输出层),识别抽象模式的能力越强。相反地,神经元细胞越靠近表层网络,识别出的物体越简单。
1700045908
1700045909 1959年,有一次有趣的生物学实验中,生物学家大卫·休伯尔(David Hubel)与托斯坦·威泽尔(Torsten Wiesel)记录了经过轻度麻醉的猫(也许还有其他动物)的视网膜活跃性——以尺寸不同的斑点和黑白条纹刺激猫的视网膜。当他们检查神经元对视觉刺激的反应时,他们发现这些视觉皮层细胞仅仅能识别条纹,不能识别点状物。于是,他们两人把这些细胞称为“条状物检测器(bar detectors)”或“边缘检测器(edge detectors)”。事实证明,深度学习网络的外层神经元对于线条和边缘反应更加强烈。
1700045910
1700045911 在深度学习网络神经元中,首先会将复杂的图像分割成单一的线条和边角,目的是要算出图片里究竟有些什么。在过去几十年中,例如“沙基”这样的早期机器人,是通过人工预先编程视觉信息分割成线条和边角,以便更好地感应物体。而到了今天,深度学习网络则采用自主化的流程处理方式。并且在深度学习网络中,越进入深处,人工神经元所回应的模式就越复杂。如果该网络训练时使用的是汽车图片的数据库,那么它的第三层神经网络很可能对于类似车轮的圆形物体作出判断。第四层神经元也许能识别汽车的某部分或某个种类,比如说卡车或车前挡板。再往网络深处走,神经元就能识别更抽象的概念,例如从驾驶员座位上看到的,与车外某个物体匹配的3D模型,等等。
1700045912
1700045913
1700045914
1700045915
1700045916 图9.4  深度学习应用在驾驶途中的实时物体识别
1700045917
1700045918 来源:Nvidia公司 
1700045919
1700045920 当研究人员渐渐熟悉这种学习规律后,就开始将它运用到实际设计中。到后来,无论卷积神经网络是为了何种应用而接受训练,网络首层几乎都会包含边缘检测器,因为这种边缘检测技术在图片理解领域是普遍适用的。
1700045921
1700045922 在网络深处,内层神经网络开始朝“专业化”发展:受训后能识别汽车的网络能马上反应出车相关的特征。可能生成专门识别车身形状的神经元,以及其他具有识别特定部位的神经网络。在训练时学会识别狗的神经元能对“皮毛”“耳朵形状”等特征作出响应。
1700045923
1700045924 我们把引起神经网络响应的模式称为“视觉特征(Visual Features)”。对于初级水平,图片特征简单:线条和片状物。当水平渐渐提升,视觉特征变得更加复杂和抽象,甚至连“特征”这个词都不能很好地概括它的含义。位于高层网络的个体神经元能够仅通过部分视觉特征的组合,就作出判断。例如,某个神经元能对前格栅中识别出这是“雪佛兰汽车”。
1700045925
1700045926 哲学家们绞尽脑汁来描述个体独有的感官体验,却无法量化或直接表达比人与人之间的个体感受差异。专业术语“感受质(Quale)”指的正是个体直接的感受体验。我们都明白自己的感受,但是无法确切比较自己与他人的感受异同。例如,每个人看到的傍晚天空的红颜色都一模一样吗?巧克力在你口中感受到的味道与别人所感受到的相同吗?
1700045927
1700045928 也许未来某天,深度学习网络能够拥有自己的感受质。多年前,我便亲身感受到深度学习网络发现自我认知存在时那种诡异,当时,我和学生正在准备一场深度学习网络的现场演示。我们每天都会用几小时,把能在实验室找到的各式物品随机在与神经网络联网的摄像头前展示。神经网络照常接受训练,并把大部分图片根据内容进行正确的分类。然而,奇怪的事情发生了。我们意识到网络仿佛一个月的婴儿正在识别我们的脸部。每一次当我的头靠近摄像机,网络产生反应。当学生们效仿我的做法,网络仍旧产生回应。
1700045929
1700045930 我们发现在神经网络第七层的某处有一个神经元,每次人脸出现在图片上时,该神经元都能马上反应。在长期训练过程中,这个人工神经元培养出专门检测人脸的功能。我们并没有特别训练网络进行人脸识别,可为什么它能够识别呢?
1700045931
1700045932
1700045933
1700045934
1700045935 图9.5  这是一张意外拍摄的图片,卷积神经网络正在回应左图视频部分的两张人脸。右图上用圆圈标志的区域里有两个模糊的白点,正是对应左图框里命令中的两张人脸
1700045936
1700045937 来源: Jason Yosinki,康奈尔大学
1700045938
1700045939 我们疑惑了很长时间,后来我们认为人脸的出现对于神经网络识别物体时是一个带有有用信息的字节。我们人类也有把某些物品(比如手机)靠近脸部的习惯。神经网络在仔细观察我们一阵子(每天几小时的训练)之后,神经网络作出决定要检测人脸,因为它(也许)认为这样才能更好识别我们训练展示的物品。
[ 上一页 ]  [ :1.70004589e+09 ]  [ 下一页 ]