1700515899
通过比对点和其实际代表的电影,我们可以发现这个投影很好地反映出影片固有的一些特征:剧情片聚集在右上角,动作片聚集在左下角。
1700515900
1700515901
这就是最终在2009年赢得奈飞公司100万美元大奖的团队所使用的算法的基本思想。他们提取了有助于预测用户喜好的20个电影的独立特征,并将高维空间投射到这20个特征所构建的20维空间中。然后,借助计算机强大的运算能力,从海量的投影方案中挑选出最好的那一个。这正是计算机的强大之处,它的这种能力是人类的大脑和眼睛所无法企及的。
1700515902
1700515903
1700515904
1700515905
1700515906
图 6-2
1700515907
1700515908
更有趣的是,模型挑选出的一些特征可以被明显地辨识出来,例如“动作片”或“剧情片”,而另一些特征虽没有明显的标识,但也都呈现出一种正态分布的趋向。
1700515909
1700515910
这正是我觉得计算机算法能给人惊喜的地方:它们有发掘新事物的潜力。从某种角度讲,深度学习算法提取出了人类无法用语言描述和表达的特征信息。就好比在没有建立颜色的概念,也没有红色或蓝色这种表示颜色的词汇的情况下,仅仅通过我们对所见事物表现出的好恶,计算机就能帮我们实现蓝色和红色的分类。因为存在太多的因素影响着我们的决定,我们无法准确地描述出为什么喜欢某部电影。决定个人偏好的人类代码遵循什么样的算法原理是隐性的,但计算机代码已经识别出了引导我们偏好的特征,而这些特征我们仅可凭直觉感知,却无法表达出来。计算机代码在这一点上已经遥遥领先于人类了。
1700515911
1700515912
2009年6月,BellKor’s Pragmatic Chaos团队向奈飞公司提交了他们研发的推荐算法,其推荐效率首次突破10%的要求并且达到了10.05%。按照比赛规则,奈飞公司宣布这场历时3年之久的比赛进入最后30天的决赛阶段。决赛阶段涉及的隐藏数据被分为两部分,一部分用来在公开测试中给每个团队打分,另一部分用来在隐藏测试中评判最后的赢家。如果没有其他队伍提交的算法超越BellKor’s Pragmatic Chaos团队,那么他们无疑就是这场比赛的赢家。但是,就在决赛第29天的时候,Ensemble团队提交了他们的算法,其推荐效率达到了10.09%,超过了BellKor’s Pragmatic Chaos团队,位居公开测试排行榜的第一位。第二天,截至奈飞公司停止征集新算法的那一刻,两队的算法推荐效率又有了一些新的提升:BellKor’s Pragmatic Chaos团队突破10.09%,Ensemble团队则非常接近于10.1%。但该结果并不能说明两队孰胜孰负,因此奈飞公司决定将大奖颁发给在隐藏测试中获胜的团队。可结果是两队的得分仍然相同,但由于BellKor’s Pragmatic Chaos团队比Ensemble团队早20分钟提交了他们的参赛算法,最终是他们带走了那100万美元。
1700515913
1700515914
鉴于第一次比赛的成功,奈飞公司希望能举办第二次比赛以激发更多的创新性想法,但是它遇到了一个难题:用户的个人隐私问题。奈飞公司曾在竞赛网站的页面上发出这样的公告:
1700515915
1700515916
训练数据集合删除了所有的用户识别信息,只剩下评级等级和日期。这符合隐私权保护政策。即便知道自己所有的评级及日期,你也可能无法在数据中准确地识别它们,因为它们只是极小的一部分样本(总量不超过完整数据集的1/10),并且这些数据曾受到扰动。
1700515917
1700515918
那么,如果参赛选手知道用户所有的评级,这真的不算侵犯隐私吗?
1700515919
1700515920
得克萨斯大学奥斯汀分校的两名研究人员收集了这些数据,并将其与另一个网站——互联网电影数据库(Internet Movie Database,简称IMDb)上对电影进行评级的那些用户进行了比较,识别出了其中几名用户的身份。2009年12月17日,四名用户对奈飞公司提起诉讼,称该公司发布数据违反了《视频隐私保护法案》。其中一名用户表示,她是一个未出柜的同性恋母亲,有关她对电影喜好的数据可能会暴露出她的性取向。分析用户对电影的特殊喜好就有可能推断出其政治倾向或性取向,这被称为“《断背山》因子”。最终,此案庭外和解,奈飞公司也因此取消了举办第二场比赛的计划。
1700515921
1700515922
数据像是一种新型“石油”,而我们却把它“倒”在互联网上了。谁拥有这些数据以及如何利用好这些数据,将是我们走向由这种新型“石油”推动的未来时,社会将要面临的一个重大问题。
1700515923
1700515924
1700515925
1700515926
1700515928
天才与算法:人脑与AI的数学思维 如何训练算法
1700515929
1700515930
如果算法告诉你你可能会喜欢什么,那么就意味着你将永远都看不到算法认为你不喜欢的东西。知道了这一点,你是否感到一点隐隐的不安?对我来说,我很享受被引导找到自己喜欢的音乐的过程。此前,我经常不得不循环播放相同的歌曲,这也是为什么我总是听收音机的原因。现在,算法“连推带拉”地引导我从音乐库中挖到属于我自己的“宝石”。对于这些算法,我最初也曾有过怀疑:它会不会产生“口味”趋同的效应,导致所有用户最终都只关注音乐库中的一部分歌曲,而使另外一些歌曲失去听众呢?但后来我发现,这些算法都采用了非线性或混沌理论的数学思想:我和你喜欢的音乐风格只要略微不同,那么被推荐的歌曲将会大相径庭。
1700515931
1700515932
当在户外跑步时,我听了许多算法推荐的歌曲,它帮我找到了很多好听的新歌。几周前,妻子想要在她的生日聚会上跳舞,让我帮她挑选一些20世纪80年代的歌曲。我们花了几个晚上一起挑选她喜欢的音乐,并整理出一个精彩纷呈的歌单,聚会上所有的人都翩翩起舞。但生日聚会结束后的第二天,我又去户外跑步时发现,算法给我推荐的全部都是20世纪80年代的舞曲,于是我不停地按“下一曲”,但切换后出现的还是类似的歌曲。之后我通过听肖斯塔科维奇(Shostakovich)和梅西安(Messiaen)的音乐重新训练算法,花了好几周的时间才将这一切恢复如常。
1700515933
1700515934
电子邮件过滤器也是基于人机交互训练算法工作的。选用一些对你来说不是特别重要的邮件作为训练数据,将其中一部分标记为垃圾邮件,另一部分标记为正常邮件。通过分析这些邮件中出现的单词,算法开始构建垃圾邮件过滤的规则:带有“伟哥”这一词汇的邮件100%是垃圾邮件;带有“再融资”这一词汇的邮件99%是垃圾邮件;带有“火辣的俄罗斯人”这个组合词汇的邮件100%是垃圾邮件;带有“糖尿病”这个词的邮件不确定性比较大,因为似乎有一些人借助垃圾邮件四处传播治疗糖尿病的广告,但也有一些属于正常的邮件。所以,算法对这部分邮件进行了简单的统计分析,发现每20封含有“糖尿病”这个词的邮件中,只有1封属于正常邮件。因此,算法最终确定包含有“糖尿病”这一词汇的邮件有95%的可能是垃圾邮件。
1700515935
1700515936
电子邮件过滤器可设置不同的过滤级别。比如,只有在邮件有95%的概率是垃圾邮件的情况下,该邮件才应该进入“垃圾邮件”文件夹。但现在更酷的是:虽然算法的训练数据是一组普通的电子邮件,但你的日常行为也将教会它识别你感兴趣的事情——算法会根据你所发出的邮件做出判断。假设你患有糖尿病,那么,根据你设置的最初过滤级别,所有带有“糖尿病”一词的邮件都会进入“垃圾邮件”文件夹。但渐渐地,随着你将越来越多的电子邮件(包括“糖尿病”一词)标记为“合法”,算法会重新校准已构建的邮件过滤规则,将这类邮件所对应的概率降至远低于95%的水平,这类电子邮件就会正常地进入收件箱而不是“垃圾邮件”文件夹。
1700515937
1700515938
不仅如此,算法还会自主创建新的算法,用于从所有包含“糖尿病”一词的邮件中区分出垃圾邮件和正常邮件。其方法是引入其他的关键词,例如“治愈”。机器学习算法将遍历你收到的每一封电子邮件,试图从中找出信息和关联,直到最后形成一个适合你个人生活方式的定制算法。
1700515939
1700515940
无人驾驶汽车也是基于这样的概率更新原理而设计的,虽然它的控制系统远比这复杂得多。该算法根据感知所获得的道路、车辆位置和障碍物信息等,来控制车辆的转向和速度。
1700515941
1700515942
1700515943
1700515944
1700515946
天才与算法:人脑与AI的数学思维 偏见和盲点
1700515947
1700515948
奈飞公司的推荐系统算法可以提取出影片中那些人类都难以名状的特征,非常令人不可思议。这无疑挑战了洛夫莱斯的观点,即机器永远无法突破程序员思维的局限。现如今,机器掌握了人类所不具备的一项技能:对海量数据进行分析,并从中发掘出有价值的信息。
[
上一页 ]
[ :1.700515899e+09 ]
[
下一页 ]