打字猴:1.700045904e+09
1700045904 无人驾驶:人工智能将从颠覆驾驶开始,全面重构人类生活 [:1700043828]
1700045905 新型边缘检测
1700045906
1700045907 分析深度学习网络的识别行为的一个方法,是把人工神经元逐个分开,用某种特定模式来测试它们的反应。进行这项实验的研究专家发现,在深度学习网络识别视觉信息的过程中,人工神经元细胞在网络中的位置越深(越靠近输出层),识别抽象模式的能力越强。相反地,神经元细胞越靠近表层网络,识别出的物体越简单。
1700045908
1700045909 1959年,有一次有趣的生物学实验中,生物学家大卫·休伯尔(David Hubel)与托斯坦·威泽尔(Torsten Wiesel)记录了经过轻度麻醉的猫(也许还有其他动物)的视网膜活跃性——以尺寸不同的斑点和黑白条纹刺激猫的视网膜。当他们检查神经元对视觉刺激的反应时,他们发现这些视觉皮层细胞仅仅能识别条纹,不能识别点状物。于是,他们两人把这些细胞称为“条状物检测器(bar detectors)”或“边缘检测器(edge detectors)”。事实证明,深度学习网络的外层神经元对于线条和边缘反应更加强烈。
1700045910
1700045911 在深度学习网络神经元中,首先会将复杂的图像分割成单一的线条和边角,目的是要算出图片里究竟有些什么。在过去几十年中,例如“沙基”这样的早期机器人,是通过人工预先编程视觉信息分割成线条和边角,以便更好地感应物体。而到了今天,深度学习网络则采用自主化的流程处理方式。并且在深度学习网络中,越进入深处,人工神经元所回应的模式就越复杂。如果该网络训练时使用的是汽车图片的数据库,那么它的第三层神经网络很可能对于类似车轮的圆形物体作出判断。第四层神经元也许能识别汽车的某部分或某个种类,比如说卡车或车前挡板。再往网络深处走,神经元就能识别更抽象的概念,例如从驾驶员座位上看到的,与车外某个物体匹配的3D模型,等等。
1700045912
1700045913
1700045914
1700045915
1700045916 图9.4  深度学习应用在驾驶途中的实时物体识别
1700045917
1700045918 来源:Nvidia公司 
1700045919
1700045920 当研究人员渐渐熟悉这种学习规律后,就开始将它运用到实际设计中。到后来,无论卷积神经网络是为了何种应用而接受训练,网络首层几乎都会包含边缘检测器,因为这种边缘检测技术在图片理解领域是普遍适用的。
1700045921
1700045922 在网络深处,内层神经网络开始朝“专业化”发展:受训后能识别汽车的网络能马上反应出车相关的特征。可能生成专门识别车身形状的神经元,以及其他具有识别特定部位的神经网络。在训练时学会识别狗的神经元能对“皮毛”“耳朵形状”等特征作出响应。
1700045923
1700045924 我们把引起神经网络响应的模式称为“视觉特征(Visual Features)”。对于初级水平,图片特征简单:线条和片状物。当水平渐渐提升,视觉特征变得更加复杂和抽象,甚至连“特征”这个词都不能很好地概括它的含义。位于高层网络的个体神经元能够仅通过部分视觉特征的组合,就作出判断。例如,某个神经元能对前格栅中识别出这是“雪佛兰汽车”。
1700045925
1700045926 哲学家们绞尽脑汁来描述个体独有的感官体验,却无法量化或直接表达比人与人之间的个体感受差异。专业术语“感受质(Quale)”指的正是个体直接的感受体验。我们都明白自己的感受,但是无法确切比较自己与他人的感受异同。例如,每个人看到的傍晚天空的红颜色都一模一样吗?巧克力在你口中感受到的味道与别人所感受到的相同吗?
1700045927
1700045928 也许未来某天,深度学习网络能够拥有自己的感受质。多年前,我便亲身感受到深度学习网络发现自我认知存在时那种诡异,当时,我和学生正在准备一场深度学习网络的现场演示。我们每天都会用几小时,把能在实验室找到的各式物品随机在与神经网络联网的摄像头前展示。神经网络照常接受训练,并把大部分图片根据内容进行正确的分类。然而,奇怪的事情发生了。我们意识到网络仿佛一个月的婴儿正在识别我们的脸部。每一次当我的头靠近摄像机,网络产生反应。当学生们效仿我的做法,网络仍旧产生回应。
1700045929
1700045930 我们发现在神经网络第七层的某处有一个神经元,每次人脸出现在图片上时,该神经元都能马上反应。在长期训练过程中,这个人工神经元培养出专门检测人脸的功能。我们并没有特别训练网络进行人脸识别,可为什么它能够识别呢?
1700045931
1700045932
1700045933
1700045934
1700045935 图9.5  这是一张意外拍摄的图片,卷积神经网络正在回应左图视频部分的两张人脸。右图上用圆圈标志的区域里有两个模糊的白点,正是对应左图框里命令中的两张人脸
1700045936
1700045937 来源: Jason Yosinki,康奈尔大学
1700045938
1700045939 我们疑惑了很长时间,后来我们认为人脸的出现对于神经网络识别物体时是一个带有有用信息的字节。我们人类也有把某些物品(比如手机)靠近脸部的习惯。神经网络在仔细观察我们一阵子(每天几小时的训练)之后,神经网络作出决定要检测人脸,因为它(也许)认为这样才能更好识别我们训练展示的物品。
1700045940
1700045941 这是一个惊悚的时刻。
1700045942
1700045943 网络竟然被培养出了自主学习的决策能力,这个发现具有重要的意义。原因如下:第一,我知道许多同学花好几年时间在大学时期研发人脸检测软件,效果远远不及我们意外发现的网络自动人脸识别能力。另外,我们意外发现的网络自动人脸识别能力带出了一个有趣的问题:在我们固有认知的范围以外,网络还想要检测什么呢?很可能它想要识别某些重要的视觉模型,那些模型无法用言语描绘,甚至连人类的大脑也想象不到的。
1700045944
1700045945 这段经历不禁让我深思,是否某天深度学习网络就能拥有自己的感受质呢?想象以每秒1000张的速度,投放图片来训练网络。想象一次使用十台摄像头。也许还有其他形式的传感数据,比如超出人类听力范围的声学频率数据。我很好奇,当这一类的训练开展几周后,机器究竟会发生了什么?
1700045946
1700045947 从理论上说,软件能培养出人工神经元回应感受质的能力,而感受质是超乎人类想象的物体,是一种“只可意会不可言传”的状态。显然,人们轻看了机器智能的能力,常断言计算机永远无法体会生活中的美好,比如欣赏落日余晖或品鉴红酒的芳醇,我想,“这话不错,可计算机自己独特的传感体验,也可能是我们从未知晓的”。
1700045948
1700045949 深度学习网络为未来人工智能研究创造了沃土。与人类大脑不同,人工神经网络在捕捉原始视觉数据时不会局限于只能通过双眼。研究人员进行了一项实验,把雷达、激光雷达或相机中的数据与视觉系统连接起来,制造出一只比人眼更传神的“人造眼”。此外,还有一些前景诱人的领域等待人们去探索:收集各车辆数据,连接无人驾驶车队的集体学习技术,更好地推动网络视觉感知能力的发展。
1700045950
1700045951 目前,深度学习技术已经在无人驾驶领域的几款应用程序中崭露头角。以色列企业移动眼(Mobileye)就在视觉软件中使用类似的算法进行深度计算,并把软件卖给包括特拉斯在内的无人驾驶汽车企业。当谷歌汽车在山景城的街道上审慎移动时,移动眼却正在训练无人驾驶车队识别道路常见物体的集体能力。
1700045952
1700045953 新型深度学习算法能分析视频信号流产生的多个框架,也创造出包括动态-深度感知在内的视觉特征。例如,动态深度学习算法能够学会识别一只猫,但不是通过识别猫独有的耳朵和胡子,而是通过识别其躯干的移动特点和猫走路的姿态。应用到驾驶领域,该深度学习网络能通过感知路面物体的移动,得知路面状况:猫不可能突然出现,正常的行人也不可能以50英里每小时的速度飞奔。我们还能进一步地推断出网络具备根据行为方式来识别物体的能力,那些人类看来稀松平常的物体行为方式,往往就是系统识别的线索。
[ 上一页 ]  [ :1.700045904e+09 ]  [ 下一页 ]