打字猴:1.702643129e+09
1702643129 几天前,我开始了本章内容的创作,也借此机会观看了纪录片电影《布托》。太精彩了!这是一部关于一个伟大家庭的伟大电影。详细的影像资料,从1947年印度和巴基斯坦分治一直到2007年贝•布托遇刺,让人看来荡气回肠。布托的演讲和采访原音穿插全片,贯穿她的一生。观毕此片,我毫不吝啬地打了5颗星,完全符合网飞的预测。
1702643130
1702643131 归根结底,网飞运用的还是相关性的概念。我在网站上给以前看过的电影评分,网飞将我的评分与其他用户进行比较,从中筛选出与我相关性最高的用户,这些人的电影品位可以说与我是最接近的。数据库一旦建立,网飞就会向我推荐那些与我品位相同的用户打了高分,而我又恰好没有看过的电影。
1702643132
1702643133 当然,这只是简略的介绍,真正的方法要比这个复杂得多。2006年,网飞公司发起了一场比赛,邀请公众参与设计影片推荐机制,以帮助网飞在现有的推荐方案上提高至少10%的准确率(即用户在观看完推荐影片后给出的评分正好对应网站之前的预测),比赛赢家可以获得100万美元的奖励。
1702643134
1702643135 报名参赛的个人或团队都会收到一套“训练数据”,包含了48万名网飞注册用户对1.8万部电影共计1亿多次的评分,但其中有280万个评分是“保密”的,即只有网飞公司知道评分的具体结果,参赛者是不知道的。参赛者需要通过自己的算法和程序,来预测出这些“保密”评分的内容,网飞公司会根据每位参赛者所提交的内容来判断其准确程度。在超过3年的时间里,有来自180多个国家的团队提交了改进方案,但在参评之前他们必须满足两个条件:第一,获胜者必须将算法程序授权给网飞公司;第二,获胜者必须“向全世界描述你是如何做到的”。
1702643136
1702643137 2009年网飞公司终于宣布了比赛的最终结果:获胜者为一个7人团队,由统计学家和计算机专家组成,他们分别来自美国、奥地利、加拿大和以色列。遗憾的是,我无法在这里向各位介绍他们的获胜系统,就算本章的补充知识点对此也没有提及,因为他们的成果介绍长达92页纸。网飞影片推荐系统的品质毋庸置疑,但无论包装如何精美,说到底还是一件十分普通的事,甚至早在电影工业初期就已经出现了:找几个跟你有相同趣味的人并让他们向你推荐一些电影。既然你那么爱看我喜欢的电影,厌恶我认为不好看的电影,那么你觉得乔治•克鲁尼的新片怎么样?
1702643138
1702643139 这就是相关性的真谛。
1702643140
1702643141 本章补充知识点
1702643142
1702643143 要计算两组数据的相关系数,我们需要按以下几个步骤进行。为了让大家能够更好地理解,这里每个步骤的讲解都是基于一张15个学生的身高与体重的数据表。
1702643144
1702643145 1.   将每个学生的身高转换为标准值:(身高-平均身高)/标准差。
1702643146
1702643147 2.   将每个学生的体重转换为标准值:(体重-平均身高)/标准差。
1702643148
1702643149 3.   将每个学生的体重标准值和身高标准值相乘,你会发现,当一个学生的身高和体重都偏离平均值较远时,乘积的绝对值也会较大。
1702643150
1702643151 4.将第三步求得的乘积相加,再除以统计对象的数量(在这个例子中为15),就可以得到相关系数。
1702643152
1702643153 这一组学生的身高与体重的相关系数为0.83,考虑到相关系数的范围是从-1到1,因此我们可以认为身高和体重之间存在着较强的正相关关系。
1702643154
1702643155
1702643156
1702643157
1702643158 在我们介绍相关系数的公式之前,有必要了解几个数学符号。求和符号∑是一个常用的统计学运算工具,表示跟在其后的数据的总和。假设有一组数据X1、X2、X3和X4,那么∑(X1)就意味着我们应该将4个数相加:X1+X2+X3+X4,即∑(X1)= X1+X2+X3+X4。那么,这组数据的平均值公式就为:平均值=∑(X1)/n。
1702643159
1702643160 如果用更符合数学规范的格式来表述,那么求和公式就应该写成:
1702643161
1702643162 表示X1+X2+X3……Xn,求和公式的第一项为X1 (当i=l时),最后一项为Xn (当i=n时)。对于n个数据来说,其平均值公式就可以表示为:
1702643163
1702643164
1702643165
1702643166
1702643167 再加上其他通用符号,变量X和y的相关系数1的运算公式可以表示为:
1702643168
1702643169
1702643170
1702643171
1702643172 其中,n代表数据个数,x代表变量x的平均值,y代表变量y的平均值,σx代表变量X的标准差,σy代表变量y的标准差。
1702643173
1702643174 所有统计软件都具备计算两个变量的相关系数的功能。例如,用微软Excel办公软件来解决之前15个学生的身高和体重的相关性问题,电脑运算得到的相关系数与手动计算的结果是一致的,都是0.83。
1702643175
1702643176
1702643177
1702643178
[ 上一页 ]  [ :1.702643129e+09 ]  [ 下一页 ]