打字猴:1.700515885e+09

1700515885

1700515886 假设电影1是《狮子王》，电影2是《闪灵》，电影3是《曼哈顿》。某一用户对这三部影片的评级分别为1星、4星和5星。用x、y、z轴表示用户对电影1、电影2、电影3的喜爱等级，建立三维空间直角坐标系，如图6-1所示。这时，我们可以确定该用户在坐标系中的位置是（1，4，5）。

1700515887

1700515888

1700515889

1700515890

1700515891 图　6-1

1700515892

1700515893 虽然在几何上无法绘制出17 770维空间以呈现用户在该空间上的所在位置，但数学可以。如果能把用户看成17 770维空间中的点，那么同样能把影片看作480 189维（用户数）空间中的点，此时，如果用户对影片评价越高，那么在该维度上此点偏离原点就越远。这些点分散在如此之大的维度中，很难发现其间存在的模式。因此，如果希望借助计算机找出数据中包含的信息，那么就需要降维处理。

1700515894

1700515895 这就好比一系列从不同角度得到的某人的头部剪影，其中一些更具代表性，更容易辨识一样。比如，希区柯克（Hitchcock）的侧影轮廓就比正面投影更易辨认。电影和用户就像脸上一个一个的点，以一个角度投影，可能会看到这些点连成一条线，而以另外的一个角度投影，则可能并不会发现有明显的信息出现。

1700515896

1700515897 按照这个思路，我们或许能找到一种办法，将高维空间中的电影和用户对应的点同时投射到一个二维平面上，这样用户对应的点就会非常接近他喜爱的电影所对应的点。这种办法的巧妙之处就在于，能够寻找到揭示影片、用户所具有的潜在特征的合适投影。例如，图6-2是100个用户和500部电影匹配过后在二维平面中的投影，所使用的数据均来自奈飞公司的数据库。代表用户的点与代表影片的点很好地拟合，其余各处均未出现异常多余的点。我们可以通过这个投影找到数据中的信息。

1700515898

1700515899 通过比对点和其实际代表的电影，我们可以发现这个投影很好地反映出影片固有的一些特征：剧情片聚集在右上角，动作片聚集在左下角。

1700515900

1700515901 这就是最终在2009年赢得奈飞公司100万美元大奖的团队所使用的算法的基本思想。他们提取了有助于预测用户喜好的20个电影的独立特征，并将高维空间投射到这20个特征所构建的20维空间中。然后，借助计算机强大的运算能力，从海量的投影方案中挑选出最好的那一个。这正是计算机的强大之处，它的这种能力是人类的大脑和眼睛所无法企及的。

1700515902

1700515903

1700515904

1700515905

1700515906 图　6-2

1700515907

1700515908 更有趣的是，模型挑选出的一些特征可以被明显地辨识出来，例如“动作片”或“剧情片”，而另一些特征虽没有明显的标识，但也都呈现出一种正态分布的趋向。

1700515909

1700515910 这正是我觉得计算机算法能给人惊喜的地方：它们有发掘新事物的潜力。从某种角度讲，深度学习算法提取出了人类无法用语言描述和表达的特征信息。就好比在没有建立颜色的概念，也没有红色或蓝色这种表示颜色的词汇的情况下，仅仅通过我们对所见事物表现出的好恶，计算机就能帮我们实现蓝色和红色的分类。因为存在太多的因素影响着我们的决定，我们无法准确地描述出为什么喜欢某部电影。决定个人偏好的人类代码遵循什么样的算法原理是隐性的，但计算机代码已经识别出了引导我们偏好的特征，而这些特征我们仅可凭直觉感知，却无法表达出来。计算机代码在这一点上已经遥遥领先于人类了。

1700515911

1700515912 2009年6月，BellKor’s Pragmatic Chaos团队向奈飞公司提交了他们研发的推荐算法，其推荐效率首次突破10%的要求并且达到了10.05%。按照比赛规则，奈飞公司宣布这场历时3年之久的比赛进入最后30天的决赛阶段。决赛阶段涉及的隐藏数据被分为两部分，一部分用来在公开测试中给每个团队打分，另一部分用来在隐藏测试中评判最后的赢家。如果没有其他队伍提交的算法超越BellKor’s Pragmatic Chaos团队，那么他们无疑就是这场比赛的赢家。但是，就在决赛第29天的时候，Ensemble团队提交了他们的算法，其推荐效率达到了10.09%，超过了BellKor’s Pragmatic Chaos团队，位居公开测试排行榜的第一位。第二天，截至奈飞公司停止征集新算法的那一刻，两队的算法推荐效率又有了一些新的提升：BellKor’s Pragmatic Chaos团队突破10.09%，Ensemble团队则非常接近于10.1%。但该结果并不能说明两队孰胜孰负，因此奈飞公司决定将大奖颁发给在隐藏测试中获胜的团队。可结果是两队的得分仍然相同，但由于BellKor’s Pragmatic Chaos团队比Ensemble团队早20分钟提交了他们的参赛算法，最终是他们带走了那100万美元。

1700515913

1700515914 鉴于第一次比赛的成功，奈飞公司希望能举办第二次比赛以激发更多的创新性想法，但是它遇到了一个难题：用户的个人隐私问题。奈飞公司曾在竞赛网站的页面上发出这样的公告：

1700515915

1700515916 训练数据集合删除了所有的用户识别信息，只剩下评级等级和日期。这符合隐私权保护政策。即便知道自己所有的评级及日期，你也可能无法在数据中准确地识别它们，因为它们只是极小的一部分样本（总量不超过完整数据集的1/10），并且这些数据曾受到扰动。

1700515917

1700515918 那么，如果参赛选手知道用户所有的评级，这真的不算侵犯隐私吗？

1700515919

1700515920 得克萨斯大学奥斯汀分校的两名研究人员收集了这些数据，并将其与另一个网站——互联网电影数据库（Internet Movie Database，简称IMDb）上对电影进行评级的那些用户进行了比较，识别出了其中几名用户的身份。2009年12月17日，四名用户对奈飞公司提起诉讼，称该公司发布数据违反了《视频隐私保护法案》。其中一名用户表示，她是一个未出柜的同性恋母亲，有关她对电影喜好的数据可能会暴露出她的性取向。分析用户对电影的特殊喜好就有可能推断出其政治倾向或性取向，这被称为“《断背山》因子”。最终，此案庭外和解，奈飞公司也因此取消了举办第二场比赛的计划。

1700515921

1700515922 数据像是一种新型“石油”，而我们却把它“倒”在互联网上了。谁拥有这些数据以及如何利用好这些数据，将是我们走向由这种新型“石油”推动的未来时，社会将要面临的一个重大问题。

1700515923

1700515924

1700515925

1700515926

1700515927 天才与算法：人脑与AI的数学思维 [:1700514895]

1700515928 天才与算法：人脑与AI的数学思维如何训练算法

1700515929

1700515930 如果算法告诉你你可能会喜欢什么，那么就意味着你将永远都看不到算法认为你不喜欢的东西。知道了这一点，你是否感到一点隐隐的不安？对我来说，我很享受被引导找到自己喜欢的音乐的过程。此前，我经常不得不循环播放相同的歌曲，这也是为什么我总是听收音机的原因。现在，算法“连推带拉”地引导我从音乐库中挖到属于我自己的“宝石”。对于这些算法，我最初也曾有过怀疑：它会不会产生“口味”趋同的效应，导致所有用户最终都只关注音乐库中的一部分歌曲，而使另外一些歌曲失去听众呢？但后来我发现，这些算法都采用了非线性或混沌理论的数学思想：我和你喜欢的音乐风格只要略微不同，那么被推荐的歌曲将会大相径庭。

1700515931

1700515932 当在户外跑步时，我听了许多算法推荐的歌曲，它帮我找到了很多好听的新歌。几周前，妻子想要在她的生日聚会上跳舞，让我帮她挑选一些20世纪80年代的歌曲。我们花了几个晚上一起挑选她喜欢的音乐，并整理出一个精彩纷呈的歌单，聚会上所有的人都翩翩起舞。但生日聚会结束后的第二天，我又去户外跑步时发现，算法给我推荐的全部都是20世纪80年代的舞曲，于是我不停地按“下一曲”，但切换后出现的还是类似的歌曲。之后我通过听肖斯塔科维奇（Shostakovich）和梅西安（Messiaen）的音乐重新训练算法，花了好几周的时间才将这一切恢复如常。

1700515933

1700515934 电子邮件过滤器也是基于人机交互训练算法工作的。选用一些对你来说不是特别重要的邮件作为训练数据，将其中一部分标记为垃圾邮件，另一部分标记为正常邮件。通过分析这些邮件中出现的单词，算法开始构建垃圾邮件过滤的规则：带有“伟哥”这一词汇的邮件100%是垃圾邮件；带有“再融资”这一词汇的邮件99%是垃圾邮件；带有“火辣的俄罗斯人”这个组合词汇的邮件100%是垃圾邮件；带有“糖尿病”这个词的邮件不确定性比较大，因为似乎有一些人借助垃圾邮件四处传播治疗糖尿病的广告，但也有一些属于正常的邮件。所以，算法对这部分邮件进行了简单的统计分析，发现每20封含有“糖尿病”这个词的邮件中，只有1封属于正常邮件。因此，算法最终确定包含有“糖尿病”这一词汇的邮件有95%的可能是垃圾邮件。

[ 上一页 ] [ :1.700515885e+09 ] [ 下一页 ]