1700515799
1700515800
1700515801
1700515802
图 5-3
1700515803
1700515804
[1] 最贴切的例子是12306网站的购票确认验证。——译者注
1700515805
1700515806
[2] 指假设函数为了完美地拟合样本集,引入了过多的高次项。虽然这样做可以得到良好的样本拟合结果,但与实际情况完全偏离。——译者注
1700515807
1700515808
1700515809
1700515810
1700515812
天才与算法:人脑与AI的数学思维 算法的幻觉
1700515813
1700515814
在过去的五年里,计算机视觉识别的发展进步让每个人都感到惊讶——新算法可以驾驭或识别的不仅仅是人类的身体。视觉识别能力的不足,一直是计算机不能与人类智能相媲美的最大障碍。比如,数码相机对图像细节的捕捉能力远超过人类大脑,但在图像识别的过程中,计算机读取到的是一个个孤立的像素点,而不是一副完整、有内容、有故事的图片。人类大脑在图像识别的过程中是如何处理数据的,至今仍然是一个未解之谜,更何况是我们的这些“硅朋友”[1] 了。
1700515815
1700515816
接收到感官传递过来的信息后,人类大脑是如何将其当作一个整体看待的?例如,骰子的颜色(红色)和形状(立方体)在人类看来是相互关联的,大脑可以很好地将其融合成一个统一的整体。复制这种融合能力,一直是计算机解释图像所面对的挑战之一。按像素读取图像的方式,无法帮助计算机获得图像的整体信息。为了更直观地说明这一点,你可以拿出一张纸,在纸上面戳一个小洞,再把纸覆盖在一张A4大小的人脸图片上。仅仅通过移动带洞的纸,通过洞去观察,几乎是不可能分辨出照片中的人脸的。
1700515817
1700515818
五年之前的人工智能想突破这一挑战几乎是不可能的,因为当时机器学习还未出现,而程序员们一直以来都采用自上而下的思想设计图像识别算法。事实表明,想要通过“如果……那么……”这样的逻辑去识别从未见过的图像,是很难实现的。在自下而上的算法设计思路下,算法可以基于训练数据自主创建决策树,同时,网络上大量的训练数据——带标签的视觉数据(例如,Instagram上带评论的照片),也会为人工智能在视觉识别领域的迅速发展提供基本的支撑条件。
1700515819
1700515820
我们可以将图片上传至谷歌的视觉网站[2] 来测试其算法的图像识别能力。去年,我上传了一幅我们家圣诞树的照片,经图像识别分析,算法认为图片上是一棵圣诞树的可能性为97%。这虽然还称不上惊天巨变,但已是非常了不起的进步了。乐观之余,算法的局限性也逐渐暴露出来,识别错误的也不乏其例。英国大都会警察局(British Metropolitan Police)在识别网上的儿童色情图片时发现,一旦图片涉及沙漠的景象,算法得出的结论就开始混乱不清了。
1700515821
1700515822
在最近的一次采访中,数字和电子取证部门的负责人马克·斯托克斯(Mark Stokes)坦言:“由于沙漠的颜色跟人的肤色相近,而起伏的沙丘又极像裸露的身体曲线,所以很多人用作屏保的沙漠图片,有时就会被误认为是色情图片了。”
1700515823
1700515824
长久以来,计算机科学家们一直在努力开发一些特殊类型的图片,企图用它们“欺骗”人工智能。这些特殊的图片被称为“对抗图像”。它们实际上是利用了计算机看世界的不同方式,让人工智能的“眼睛”看到了并不存在的东西,我们可以理解为人工智能产生的“视觉幻象”。麻省理工学院LabSix团队[3] 最新的研究试验表明,谷歌人工智能视觉识别系统对一只3D打印的海龟毫无辨识能力,无论以任何角度拿着这只海龟,甚至将它放置于大海等海龟应该在的环境里,其都会被识别为一支枪。这似乎点到了谷歌视觉识别的“完全死穴”。
1700515825
1700515826
该团队的做法是,在海龟的表面添加一层在人眼看来极像是海龟龟壳和皮肤颜色的纹理图案。但实际上,这种纹理是很巧妙地用由不断变化的来复枪图案组成的。即便是在变形干扰的情况下,计算机还是能将来复枪的图案识别出来,而且其被识别的可能性百分比远远超过海龟。尽管此前也出现过机器将猫的图片错误地识别为鳄梨色拉酱,但将图片稍微倾斜后,结果就恢复正常了。LabSix的贡献在于,无论从哪个角度看这只海龟,算法始终都会确信它看到的是一支步枪。
1700515827
1700515828
该团队把一幅狗的图像逐像素转换为两个在斜坡上滑雪的人,最终狗的图像在屏幕上完全消失了,但机器仍然将其识别为狗。尽管不知道图像是如何被算法识别的(算法完全像是一个“黑匣子”),但是他们还是设法去“欺骗”算法。
1700515829
1700515830
谷歌的研究人员创造了一种更适合算法口味的图像——“神奇贴纸”,它会导致算法忽略图片中的其他内容。其原理就是利用了算法会优先选择它认为对图像分类更重要的那部分像素。算法用于人脸识别时,它会自动过滤掉大部分背景像素,比如天空、草地、树木等。就是这一张小小的“贴纸”,一旦进入镜头,它旁边那根黄色的香蕉在机器的眼里就消失不见了。这种“贴纸”可以被标识为任意图像,比如一台烤面包机。无论算法正在识别的是什么图像,一旦“贴纸”进入机器的眼帘,它都会认为自己看到的就是烤面包机。这有点像一条狗完全被一只球分散了注意力,它的所见所想就只剩下了“球”,而其他的一切都从它的意识世界中消失不见了。先前的算法攻击测试绝大多数都需要事先获取被攻击对象(即被识别的图像)的大致内容,但这张“神奇贴纸”却什么都不用做——不管它试图干扰的图像里有什么,它都能正常工作。
1700515831
1700515832
人类不会轻易被这些黑客手段蒙骗,但这并不意味着我们可以彻底的免疫。比如,魔术师们就可以利用人类大脑的潜意识行为倾向,分散我们的注意力。这里有一个典型的例子——著名的两队传球:如果要求观众计算其中一支球队的传球次数,他们的注意力就会完全集中在球上,而看不到一个身穿着球衣的男子走到球员跟前,猛击他的胸部后离开了。可见,不仅算法存在视觉盲点,我们人类一样也有视觉盲点。
1700515833
1700515834
无人驾驶汽车所使用的也是视觉识别算法,很明显,这些算法也可能受到类似的攻击。想象一下,一个停车标志上贴着一张“神奇贴纸”,一个安检系统把枪错认为一只海龟……将会发生什么?
1700515835
1700515836
我尝试在摄像头前做一些奇怪的、扭曲身体的动作,以对Kinect算法进行测试,看是否会对其识别结果产生影响。事实上,即便是训练数据中从未出现过的瑜伽动作,Kinect算法也能高度准确地识别出我身体的各个部位。由于缺乏外部刺激,即人身体能够做出的所有动作基本都是固定的,所以这个算法没有进一步“进化”。事实上,它也不需要进化,因为它正在有效地完成人类交给它的工作。而其他的一些算法可能需要不断适应新的变化,例如,算法若要给我们推荐喜欢看的电影、想读的书、想听的音乐,那么它必须是灵活的,足以应对我们不断变化的审美品位,并要能启发人类的思维和智慧去生成创造性的新潮流。
1700515837
1700515838
这就是算法能够不断学习、完善并适应新数据的力量所在。机器学习为其开辟了一个新篇章,即算法会像我们人类一样成长并走向成熟。
1700515839
1700515840
[1] 指计算机。——译者注
1700515841
1700515842
[2] 即Vision网站,网址为https://cloud.google.com/vision/。——译者注
1700515843
1700515844
[3] LabSix是一个独立运营的人工智能研究小组,由麻省理工学院(MIT)的本科生和毕业生组成。——译者注
1700515845
1700515846
1700515847
1700515848
[
上一页 ]
[ :1.700515799e+09 ]
[
下一页 ]