打字猴:1.700515885e+09
1700515885
1700515886 假设电影1是《狮子王》,电影2是《闪灵》,电影3是《曼哈顿》。某一用户对这三部影片的评级分别为1星、4星和5星。用x、y、z轴表示用户对电影1、电影2、电影3的喜爱等级,建立三维空间直角坐标系,如图6-1所示。这时,我们可以确定该用户在坐标系中的位置是(1,4,5)。
1700515887
1700515888
1700515889
1700515890
1700515891 图 6-1
1700515892
1700515893 虽然在几何上无法绘制出17 770维空间以呈现用户在该空间上的所在位置,但数学可以。如果能把用户看成17 770维空间中的点,那么同样能把影片看作480 189维(用户数)空间中的点,此时,如果用户对影片评价越高,那么在该维度上此点偏离原点就越远。这些点分散在如此之大的维度中,很难发现其间存在的模式。因此,如果希望借助计算机找出数据中包含的信息,那么就需要降维处理。
1700515894
1700515895 这就好比一系列从不同角度得到的某人的头部剪影,其中一些更具代表性,更容易辨识一样。比如,希区柯克(Hitchcock)的侧影轮廓就比正面投影更易辨认。电影和用户就像脸上一个一个的点,以一个角度投影,可能会看到这些点连成一条线,而以另外的一个角度投影,则可能并不会发现有明显的信息出现。
1700515896
1700515897 按照这个思路,我们或许能找到一种办法,将高维空间中的电影和用户对应的点同时投射到一个二维平面上,这样用户对应的点就会非常接近他喜爱的电影所对应的点。这种办法的巧妙之处就在于,能够寻找到揭示影片、用户所具有的潜在特征的合适投影。例如,图6-2是100个用户和500部电影匹配过后在二维平面中的投影,所使用的数据均来自奈飞公司的数据库。代表用户的点与代表影片的点很好地拟合,其余各处均未出现异常多余的点。我们可以通过这个投影找到数据中的信息。
1700515898
1700515899 通过比对点和其实际代表的电影,我们可以发现这个投影很好地反映出影片固有的一些特征:剧情片聚集在右上角,动作片聚集在左下角。
1700515900
1700515901 这就是最终在2009年赢得奈飞公司100万美元大奖的团队所使用的算法的基本思想。他们提取了有助于预测用户喜好的20个电影的独立特征,并将高维空间投射到这20个特征所构建的20维空间中。然后,借助计算机强大的运算能力,从海量的投影方案中挑选出最好的那一个。这正是计算机的强大之处,它的这种能力是人类的大脑和眼睛所无法企及的。
1700515902
1700515903
1700515904
1700515905
1700515906 图 6-2
1700515907
1700515908 更有趣的是,模型挑选出的一些特征可以被明显地辨识出来,例如“动作片”或“剧情片”,而另一些特征虽没有明显的标识,但也都呈现出一种正态分布的趋向。
1700515909
1700515910 这正是我觉得计算机算法能给人惊喜的地方:它们有发掘新事物的潜力。从某种角度讲,深度学习算法提取出了人类无法用语言描述和表达的特征信息。就好比在没有建立颜色的概念,也没有红色或蓝色这种表示颜色的词汇的情况下,仅仅通过我们对所见事物表现出的好恶,计算机就能帮我们实现蓝色和红色的分类。因为存在太多的因素影响着我们的决定,我们无法准确地描述出为什么喜欢某部电影。决定个人偏好的人类代码遵循什么样的算法原理是隐性的,但计算机代码已经识别出了引导我们偏好的特征,而这些特征我们仅可凭直觉感知,却无法表达出来。计算机代码在这一点上已经遥遥领先于人类了。
1700515911
1700515912 2009年6月,BellKor’s Pragmatic Chaos团队向奈飞公司提交了他们研发的推荐算法,其推荐效率首次突破10%的要求并且达到了10.05%。按照比赛规则,奈飞公司宣布这场历时3年之久的比赛进入最后30天的决赛阶段。决赛阶段涉及的隐藏数据被分为两部分,一部分用来在公开测试中给每个团队打分,另一部分用来在隐藏测试中评判最后的赢家。如果没有其他队伍提交的算法超越BellKor’s Pragmatic Chaos团队,那么他们无疑就是这场比赛的赢家。但是,就在决赛第29天的时候,Ensemble团队提交了他们的算法,其推荐效率达到了10.09%,超过了BellKor’s Pragmatic Chaos团队,位居公开测试排行榜的第一位。第二天,截至奈飞公司停止征集新算法的那一刻,两队的算法推荐效率又有了一些新的提升:BellKor’s Pragmatic Chaos团队突破10.09%,Ensemble团队则非常接近于10.1%。但该结果并不能说明两队孰胜孰负,因此奈飞公司决定将大奖颁发给在隐藏测试中获胜的团队。可结果是两队的得分仍然相同,但由于BellKor’s Pragmatic Chaos团队比Ensemble团队早20分钟提交了他们的参赛算法,最终是他们带走了那100万美元。
1700515913
1700515914 鉴于第一次比赛的成功,奈飞公司希望能举办第二次比赛以激发更多的创新性想法,但是它遇到了一个难题:用户的个人隐私问题。奈飞公司曾在竞赛网站的页面上发出这样的公告:
1700515915
1700515916 训练数据集合删除了所有的用户识别信息,只剩下评级等级和日期。这符合隐私权保护政策。即便知道自己所有的评级及日期,你也可能无法在数据中准确地识别它们,因为它们只是极小的一部分样本(总量不超过完整数据集的1/10),并且这些数据曾受到扰动。
1700515917
1700515918 那么,如果参赛选手知道用户所有的评级,这真的不算侵犯隐私吗?
1700515919
1700515920 得克萨斯大学奥斯汀分校的两名研究人员收集了这些数据,并将其与另一个网站——互联网电影数据库(Internet Movie Database,简称IMDb)上对电影进行评级的那些用户进行了比较,识别出了其中几名用户的身份。2009年12月17日,四名用户对奈飞公司提起诉讼,称该公司发布数据违反了《视频隐私保护法案》。其中一名用户表示,她是一个未出柜的同性恋母亲,有关她对电影喜好的数据可能会暴露出她的性取向。分析用户对电影的特殊喜好就有可能推断出其政治倾向或性取向,这被称为“《断背山》因子”。最终,此案庭外和解,奈飞公司也因此取消了举办第二场比赛的计划。
1700515921
1700515922 数据像是一种新型“石油”,而我们却把它“倒”在互联网上了。谁拥有这些数据以及如何利用好这些数据,将是我们走向由这种新型“石油”推动的未来时,社会将要面临的一个重大问题。
1700515923
1700515924
1700515925
1700515926
1700515927 天才与算法:人脑与AI的数学思维 [:1700514895]
1700515928 天才与算法:人脑与AI的数学思维 如何训练算法
1700515929
1700515930 如果算法告诉你你可能会喜欢什么,那么就意味着你将永远都看不到算法认为你不喜欢的东西。知道了这一点,你是否感到一点隐隐的不安?对我来说,我很享受被引导找到自己喜欢的音乐的过程。此前,我经常不得不循环播放相同的歌曲,这也是为什么我总是听收音机的原因。现在,算法“连推带拉”地引导我从音乐库中挖到属于我自己的“宝石”。对于这些算法,我最初也曾有过怀疑:它会不会产生“口味”趋同的效应,导致所有用户最终都只关注音乐库中的一部分歌曲,而使另外一些歌曲失去听众呢?但后来我发现,这些算法都采用了非线性或混沌理论的数学思想:我和你喜欢的音乐风格只要略微不同,那么被推荐的歌曲将会大相径庭。
1700515931
1700515932 当在户外跑步时,我听了许多算法推荐的歌曲,它帮我找到了很多好听的新歌。几周前,妻子想要在她的生日聚会上跳舞,让我帮她挑选一些20世纪80年代的歌曲。我们花了几个晚上一起挑选她喜欢的音乐,并整理出一个精彩纷呈的歌单,聚会上所有的人都翩翩起舞。但生日聚会结束后的第二天,我又去户外跑步时发现,算法给我推荐的全部都是20世纪80年代的舞曲,于是我不停地按“下一曲”,但切换后出现的还是类似的歌曲。之后我通过听肖斯塔科维奇(Shostakovich)和梅西安(Messiaen)的音乐重新训练算法,花了好几周的时间才将这一切恢复如常。
1700515933
1700515934 电子邮件过滤器也是基于人机交互训练算法工作的。选用一些对你来说不是特别重要的邮件作为训练数据,将其中一部分标记为垃圾邮件,另一部分标记为正常邮件。通过分析这些邮件中出现的单词,算法开始构建垃圾邮件过滤的规则:带有“伟哥”这一词汇的邮件100%是垃圾邮件;带有“再融资”这一词汇的邮件99%是垃圾邮件;带有“火辣的俄罗斯人”这个组合词汇的邮件100%是垃圾邮件;带有“糖尿病”这个词的邮件不确定性比较大,因为似乎有一些人借助垃圾邮件四处传播治疗糖尿病的广告,但也有一些属于正常的邮件。所以,算法对这部分邮件进行了简单的统计分析,发现每20封含有“糖尿病”这个词的邮件中,只有1封属于正常邮件。因此,算法最终确定包含有“糖尿病”这一词汇的邮件有95%的可能是垃圾邮件。
[ 上一页 ]  [ :1.700515885e+09 ]  [ 下一页 ]