打字猴:1.700515877e+09
1700515877
1700515878 奈飞公司开发出自己的电影推荐系统后,在2006年举办了奈飞大奖赛,期望通过竞争来发掘最优的算法。当时,奈飞公司已经积累了大量的电影评级数据,评分等级分为1~5星。于是,它公开了一个包含100 480 507个元素的电影评级训练集合,这些元素取自480 189个用户对17 770部电影的评价。然后,奈飞公司将17 770部电影的名称替换为数字序号,即变为匿名状态。比如,2666代表的可能是《银翼杀手》,也可能是《安妮·霍尔》,或其他任何一部影片。只有用户给这部电影的评分是已知的。
1700515879
1700515880 同时,奈飞公司还公布了一个包含2 817 131个元素的测试集合。测试集合的用户对电影所做的评价是未知的,因此参赛队提交的算法必须预测测试集合中所有的元素所对应的评价等级。比如,根据已有的数据预测出用户234654对2666这部影片的评价等级。重赏之下必有勇夫,奈飞公司宣布设立100万美元奖金作为奖励,获奖条件是:以推荐效率提高10%的优势击败奈飞的自有算法。附加条件是:获胜者必须公开自己的算法并授予奈飞公司非排他性的许可,让奈飞公司有权使用这个算法向用户推荐电影。
1700515881
1700515882 除了100万美元的终极奖项,大赛还设立了几个进步奖:将上一年度成绩最好的推荐算法的效率提高至少1%的团队,将获得进步奖50 000美元。该奖项每年度都会有,但领取奖金的前提条件依然是需要公开算法的代码。
1700515883
1700515884 可能你会觉得从这样的数据里得不到有价值的信息,因为你甚至不知道2666所代表的影片是喜剧片还是科幻片。事实上,原始数据所蕴含的信息远比我们想象的要多。假设我们将每部电影视为一个维度,所有影片就构成了一个17 770维度的空间,那么每个用户就可以被看作这个17 770维空间中的一个点。每一部电影对应一个维度,用户对影片的评价越高,那么在该维度上此点偏离原点的距离就越远。当然,除非你是一个数学家,不然把用户看作17 770维空间中的点是很难想象的。实际上,我们可以把高维空间看作三维空间的扩展。假定只有3部影片被评级,我们可以用图形化的方式将用户与影片评级的关系表示出来。
1700515885
1700515886 假设电影1是《狮子王》,电影2是《闪灵》,电影3是《曼哈顿》。某一用户对这三部影片的评级分别为1星、4星和5星。用x、y、z轴表示用户对电影1、电影2、电影3的喜爱等级,建立三维空间直角坐标系,如图6-1所示。这时,我们可以确定该用户在坐标系中的位置是(1,4,5)。
1700515887
1700515888
1700515889
1700515890
1700515891 图 6-1
1700515892
1700515893 虽然在几何上无法绘制出17 770维空间以呈现用户在该空间上的所在位置,但数学可以。如果能把用户看成17 770维空间中的点,那么同样能把影片看作480 189维(用户数)空间中的点,此时,如果用户对影片评价越高,那么在该维度上此点偏离原点就越远。这些点分散在如此之大的维度中,很难发现其间存在的模式。因此,如果希望借助计算机找出数据中包含的信息,那么就需要降维处理。
1700515894
1700515895 这就好比一系列从不同角度得到的某人的头部剪影,其中一些更具代表性,更容易辨识一样。比如,希区柯克(Hitchcock)的侧影轮廓就比正面投影更易辨认。电影和用户就像脸上一个一个的点,以一个角度投影,可能会看到这些点连成一条线,而以另外的一个角度投影,则可能并不会发现有明显的信息出现。
1700515896
1700515897 按照这个思路,我们或许能找到一种办法,将高维空间中的电影和用户对应的点同时投射到一个二维平面上,这样用户对应的点就会非常接近他喜爱的电影所对应的点。这种办法的巧妙之处就在于,能够寻找到揭示影片、用户所具有的潜在特征的合适投影。例如,图6-2是100个用户和500部电影匹配过后在二维平面中的投影,所使用的数据均来自奈飞公司的数据库。代表用户的点与代表影片的点很好地拟合,其余各处均未出现异常多余的点。我们可以通过这个投影找到数据中的信息。
1700515898
1700515899 通过比对点和其实际代表的电影,我们可以发现这个投影很好地反映出影片固有的一些特征:剧情片聚集在右上角,动作片聚集在左下角。
1700515900
1700515901 这就是最终在2009年赢得奈飞公司100万美元大奖的团队所使用的算法的基本思想。他们提取了有助于预测用户喜好的20个电影的独立特征,并将高维空间投射到这20个特征所构建的20维空间中。然后,借助计算机强大的运算能力,从海量的投影方案中挑选出最好的那一个。这正是计算机的强大之处,它的这种能力是人类的大脑和眼睛所无法企及的。
1700515902
1700515903
1700515904
1700515905
1700515906 图 6-2
1700515907
1700515908 更有趣的是,模型挑选出的一些特征可以被明显地辨识出来,例如“动作片”或“剧情片”,而另一些特征虽没有明显的标识,但也都呈现出一种正态分布的趋向。
1700515909
1700515910 这正是我觉得计算机算法能给人惊喜的地方:它们有发掘新事物的潜力。从某种角度讲,深度学习算法提取出了人类无法用语言描述和表达的特征信息。就好比在没有建立颜色的概念,也没有红色或蓝色这种表示颜色的词汇的情况下,仅仅通过我们对所见事物表现出的好恶,计算机就能帮我们实现蓝色和红色的分类。因为存在太多的因素影响着我们的决定,我们无法准确地描述出为什么喜欢某部电影。决定个人偏好的人类代码遵循什么样的算法原理是隐性的,但计算机代码已经识别出了引导我们偏好的特征,而这些特征我们仅可凭直觉感知,却无法表达出来。计算机代码在这一点上已经遥遥领先于人类了。
1700515911
1700515912 2009年6月,BellKor’s Pragmatic Chaos团队向奈飞公司提交了他们研发的推荐算法,其推荐效率首次突破10%的要求并且达到了10.05%。按照比赛规则,奈飞公司宣布这场历时3年之久的比赛进入最后30天的决赛阶段。决赛阶段涉及的隐藏数据被分为两部分,一部分用来在公开测试中给每个团队打分,另一部分用来在隐藏测试中评判最后的赢家。如果没有其他队伍提交的算法超越BellKor’s Pragmatic Chaos团队,那么他们无疑就是这场比赛的赢家。但是,就在决赛第29天的时候,Ensemble团队提交了他们的算法,其推荐效率达到了10.09%,超过了BellKor’s Pragmatic Chaos团队,位居公开测试排行榜的第一位。第二天,截至奈飞公司停止征集新算法的那一刻,两队的算法推荐效率又有了一些新的提升:BellKor’s Pragmatic Chaos团队突破10.09%,Ensemble团队则非常接近于10.1%。但该结果并不能说明两队孰胜孰负,因此奈飞公司决定将大奖颁发给在隐藏测试中获胜的团队。可结果是两队的得分仍然相同,但由于BellKor’s Pragmatic Chaos团队比Ensemble团队早20分钟提交了他们的参赛算法,最终是他们带走了那100万美元。
1700515913
1700515914 鉴于第一次比赛的成功,奈飞公司希望能举办第二次比赛以激发更多的创新性想法,但是它遇到了一个难题:用户的个人隐私问题。奈飞公司曾在竞赛网站的页面上发出这样的公告:
1700515915
1700515916 训练数据集合删除了所有的用户识别信息,只剩下评级等级和日期。这符合隐私权保护政策。即便知道自己所有的评级及日期,你也可能无法在数据中准确地识别它们,因为它们只是极小的一部分样本(总量不超过完整数据集的1/10),并且这些数据曾受到扰动。
1700515917
1700515918 那么,如果参赛选手知道用户所有的评级,这真的不算侵犯隐私吗?
1700515919
1700515920 得克萨斯大学奥斯汀分校的两名研究人员收集了这些数据,并将其与另一个网站——互联网电影数据库(Internet Movie Database,简称IMDb)上对电影进行评级的那些用户进行了比较,识别出了其中几名用户的身份。2009年12月17日,四名用户对奈飞公司提起诉讼,称该公司发布数据违反了《视频隐私保护法案》。其中一名用户表示,她是一个未出柜的同性恋母亲,有关她对电影喜好的数据可能会暴露出她的性取向。分析用户对电影的特殊喜好就有可能推断出其政治倾向或性取向,这被称为“《断背山》因子”。最终,此案庭外和解,奈飞公司也因此取消了举办第二场比赛的计划。
1700515921
1700515922 数据像是一种新型“石油”,而我们却把它“倒”在互联网上了。谁拥有这些数据以及如何利用好这些数据,将是我们走向由这种新型“石油”推动的未来时,社会将要面临的一个重大问题。
1700515923
1700515924
1700515925
1700515926
[ 上一页 ]  [ :1.700515877e+09 ]  [ 下一页 ]