打字猴:1.700515927e+09
1700515927 天才与算法:人脑与AI的数学思维 [:1700514895]
1700515928 天才与算法:人脑与AI的数学思维 如何训练算法
1700515929
1700515930 如果算法告诉你你可能会喜欢什么,那么就意味着你将永远都看不到算法认为你不喜欢的东西。知道了这一点,你是否感到一点隐隐的不安?对我来说,我很享受被引导找到自己喜欢的音乐的过程。此前,我经常不得不循环播放相同的歌曲,这也是为什么我总是听收音机的原因。现在,算法“连推带拉”地引导我从音乐库中挖到属于我自己的“宝石”。对于这些算法,我最初也曾有过怀疑:它会不会产生“口味”趋同的效应,导致所有用户最终都只关注音乐库中的一部分歌曲,而使另外一些歌曲失去听众呢?但后来我发现,这些算法都采用了非线性或混沌理论的数学思想:我和你喜欢的音乐风格只要略微不同,那么被推荐的歌曲将会大相径庭。
1700515931
1700515932 当在户外跑步时,我听了许多算法推荐的歌曲,它帮我找到了很多好听的新歌。几周前,妻子想要在她的生日聚会上跳舞,让我帮她挑选一些20世纪80年代的歌曲。我们花了几个晚上一起挑选她喜欢的音乐,并整理出一个精彩纷呈的歌单,聚会上所有的人都翩翩起舞。但生日聚会结束后的第二天,我又去户外跑步时发现,算法给我推荐的全部都是20世纪80年代的舞曲,于是我不停地按“下一曲”,但切换后出现的还是类似的歌曲。之后我通过听肖斯塔科维奇(Shostakovich)和梅西安(Messiaen)的音乐重新训练算法,花了好几周的时间才将这一切恢复如常。
1700515933
1700515934 电子邮件过滤器也是基于人机交互训练算法工作的。选用一些对你来说不是特别重要的邮件作为训练数据,将其中一部分标记为垃圾邮件,另一部分标记为正常邮件。通过分析这些邮件中出现的单词,算法开始构建垃圾邮件过滤的规则:带有“伟哥”这一词汇的邮件100%是垃圾邮件;带有“再融资”这一词汇的邮件99%是垃圾邮件;带有“火辣的俄罗斯人”这个组合词汇的邮件100%是垃圾邮件;带有“糖尿病”这个词的邮件不确定性比较大,因为似乎有一些人借助垃圾邮件四处传播治疗糖尿病的广告,但也有一些属于正常的邮件。所以,算法对这部分邮件进行了简单的统计分析,发现每20封含有“糖尿病”这个词的邮件中,只有1封属于正常邮件。因此,算法最终确定包含有“糖尿病”这一词汇的邮件有95%的可能是垃圾邮件。
1700515935
1700515936 电子邮件过滤器可设置不同的过滤级别。比如,只有在邮件有95%的概率是垃圾邮件的情况下,该邮件才应该进入“垃圾邮件”文件夹。但现在更酷的是:虽然算法的训练数据是一组普通的电子邮件,但你的日常行为也将教会它识别你感兴趣的事情——算法会根据你所发出的邮件做出判断。假设你患有糖尿病,那么,根据你设置的最初过滤级别,所有带有“糖尿病”一词的邮件都会进入“垃圾邮件”文件夹。但渐渐地,随着你将越来越多的电子邮件(包括“糖尿病”一词)标记为“合法”,算法会重新校准已构建的邮件过滤规则,将这类邮件所对应的概率降至远低于95%的水平,这类电子邮件就会正常地进入收件箱而不是“垃圾邮件”文件夹。
1700515937
1700515938 不仅如此,算法还会自主创建新的算法,用于从所有包含“糖尿病”一词的邮件中区分出垃圾邮件和正常邮件。其方法是引入其他的关键词,例如“治愈”。机器学习算法将遍历你收到的每一封电子邮件,试图从中找出信息和关联,直到最后形成一个适合你个人生活方式的定制算法。
1700515939
1700515940 无人驾驶汽车也是基于这样的概率更新原理而设计的,虽然它的控制系统远比这复杂得多。该算法根据感知所获得的道路、车辆位置和障碍物信息等,来控制车辆的转向和速度。
1700515941
1700515942
1700515943
1700515944
1700515945 天才与算法:人脑与AI的数学思维 [:1700514896]
1700515946 天才与算法:人脑与AI的数学思维 偏见和盲点
1700515947
1700515948 奈飞公司的推荐系统算法可以提取出影片中那些人类都难以名状的特征,非常令人不可思议。这无疑挑战了洛夫莱斯的观点,即机器永远无法突破程序员思维的局限。现如今,机器掌握了人类所不具备的一项技能:对海量数据进行分析,并从中发掘出有价值的信息。
1700515949
1700515950 人类的大脑不擅长进行概率分析,这是进化的失败。概率直觉感知力的构建必须基于大量的试验,然后从中发现可能的趋势性。我们缺乏大量试验的机会,所以无法建立这种直觉。从某种程度上来说,机器代码的发展弥补了人类大脑在数据交互方面低速率的缺陷。因此,机器学习可以看作对人类思维方式的补充,而不仅仅是简单的复制。
1700515951
1700515952 概率是机器学习的核心。我们在第4章中讨论的许多算法实际上都是确定性的。这就好比一个人发现了问题的解决办法,然后通过编程促使计算机机械地在人所设定的规则下完成某一件事情。这就像牛顿的世界观:宇宙是由数学方程控制的,科学家的任务是发现其中蕴含的规律并用它们来预测未来。
1700515953
1700515954 20世纪的物理学家们向人们揭示了宇宙并不像我们此前想象的那样具有确定性。量子物理理论认为,世界就像上帝在玩骰子,结果具有不确定性,取决于事件发生的概率。概率思想主导下形成的算法具有非常强大的力量,这或许是为什么在新算法的世界中,那些受过物理思维训练的人比数学学者显得更游刃有余。这是理性主义与经验主义之间的对抗。但就我而言,经验主义占了上风。
1700515955
1700515956 那台机器是如何在不知道游戏规则的情况下仅靠一个可以左右移动的滑块,以及屏幕中的像素及分数变化情况就学会了雅达利开发的Breakout游戏的?算法计算的是当前状态下,左右移动滑块对得分情况的影响。由于移动所产生的影响是持续性的,可能是几秒钟时间,所以还需要计算延迟影响。这就非常难了,因为我们并不总是能够确定这之间存在什么样的因果关系。而这暴露了机器学习的一个缺点:它有时会把某些关联误认为是因果关系。动物们也会被这个问题所困扰。
1700515957
1700515958 有一个试验能很好地说明这一点,该试验拍摄了鸽子在笼子中的行为。试验人员在白天的某个时刻,将喂食机放进笼子。如果喂食机的门没有打开,鸽子们就会在旁边兴奋地等待着。此时,倘若在门打开之前鸽子做了什么动作,第二天鸽子就会重复此动作。比如,鸽子看到门是关着的,它转了两个圈,然后门打开了,鸽子就会认为“转圈”是导致门打开的原因。它会觉得这是一种“奖赏”,所以下一次喂食机出现时,它就又会转两圈。[1]
1700515959
1700515960 美军用神经网络训练机器识别坦克图片的例子,是在机器学习社区里被反复提起的一个经典的反面教材。该算法的训练数据是一些带标签的图片(标记出哪些有坦克,哪些没有坦克)。通过对这些图片进行分析,算法获得了识别坦克的重要特征。在分析了数百张带标签的图片之后,研究人员用一些算法从未见过的图片进行测试,结果非常振奋人心,识别准确率达到了100%。
1700515961
1700515962 但将装有该算法的探测器部署到战场后,美军很快发现它毫无用处。令研究小组感到迷惑不解的是,当他们用美军所使用的图片做分析时,探测器所给出的识别结果竟然是随机的。直到后来通过深入研究他们才发现,只要图片拍摄于阴天,探测器就能做出正确的判断。
1700515963
1700515964 一想到训练数据,他们就明白问题出在哪儿了:研究小组只是获得批准有权使用坦克有限的几天,所以他们将坦克开到不同地方,拍摄了大量位于不同伪装位置的照片,但没注意到那些天一直都阴阴沉沉的。返回后,他们拍摄了一些没有坦克的乡村照片,但那时的天空是异常晴朗的。用这些照片作为训练数据,算法就误认为晴天和阴天也是区分坦克的重要特征。所以,一个坦克探测器就变成了一个对军方毫无用处的“阴天探测器”了。从这个事件中我们总结的经验教训是:机器是能够学习的,但前提是你要让它学习对的东西。
1700515965
1700515966 现如今,随着基于数据训练的算法广泛应用于社会的各行各业,如申请抵押贷款、治安决策、个人健康建议等,上面这个问题所造成的负面影响日益凸显。很多证据表明,算法中暗藏着歧视和偏见。麻省理工学院的一名研究生乔伊·布兰维尼(Joy Buolamwini)发现,她的脸相较于那些肤色较浅的同学,更加不易被所使用的机器人软件识别。当她带上一个万圣节用的白色面具时,技术识别很顺利,可一旦取下面具,她就在机器眼中“消失”了。
1700515967
1700515968 问题出在哪儿呢?该算法虽然针对大量的人脸图像进行了训练,但这些数据中黑色皮肤的面孔较少。本应公平公正的人工智能,从数据中学会了人类的偏见,这种偏差导致算法生成了许多令人不可接受也难以接受的结果:针对男性的声音进行训练的语音识别软件识别不了女性的声音;某图像识别软件将黑人辨认为大猩猩;护照照片拍摄软件不适用于亚洲人,原因是它始终认为他们在拍照时闭眼了。硅谷的科技公司雇用的员工中有4/5都是男性白人,这正是布兰维尼创立算法正义联盟以对抗人工智能算法偏见的原因。
1700515969
1700515970 法律体系也面临着考验,申请抵押贷款、应聘工作、申领社会福利被算法程序拒绝后,人们有理由知道为什么。但是,由于算法是基于数据交互构建决策树的,证明其决策的合理性并不容易。
1700515971
1700515972 虽然有些人主张采取法律措施补救,但执行起来非常困难。2018年5月生效的欧盟《一般数据保护条例》的第22条规定:数据主体有权反对“完全依靠自动化处理做出的决策”。若个人对自动化决定不满,有权主张人工介入,以表达自己的观点并提出质疑。对于计算机所做出的任何决策,数据主体有权获得“有关所涉及逻辑推断的有意义的信息”。关于这一点,我只能表达我的个人观点:祝你好运!
1700515973
1700515974 人工智能领域一直呼吁开发一种元语言,机器可用它来证明自己的决策是合理的。而在此之前,我们必须谨慎对待这些算法对日常生活的影响。绝大多数算法都有其专长,不善于处理无规律的行为,当意料之外的事情出现时,算法只能选择将其忽略,而人类对这类场景却能表现出非凡的应变能力。
1700515975
1700515976 没有免费午餐的定理表明,在任何情境下都能做出准确预测的通用性算法是不存在的。机器学习的目标不是建立放之四海而皆准的通用模型,而是构建关于特定问题有针对性的解决方案。这个定理还表明,即使只向算法出示一半数据,它还是有可能将未出示的另一半数据伪造出来,以保证对它自己所进行的数据训练的完整性。但当需要分析的数据属于另一半未出示的数据时,它就会决策失准或失败。
[ 上一页 ]  [ :1.700515927e+09 ]  [ 下一页 ]