1702643090
1702643091
1702643092
1702643093
图4-1 身高与体重散点分布图
1702643094
1702643095
如果我们要绘制一幅关于锻炼(每周进行剧烈运动的分钟数)和体重的散点分布图,就会看到一个相反的趋势,即运动量越大体重越轻。但是,这样一张完全由分散的点构成的图怎么看都不像是一个简便易行的统计工具。设想一下,如果网飞公司是以这种方式向我推荐影片的,那么公司总部估计早已被数百万名用户的评分散点淹没了。与之相反,相关性作为一个统计工具的魅力就在于将两个变量的关联精炼成一个描述性数据:相关系数。
1702643096
1702643097
相关系数拥有两个无与伦比的优势。第一个优势体现在数学表达上,从本章后面的内容中我们能够发现,相关系数是一个区间为-1到1的常数。如果相关系数为1,即完全相关,表示一个变量的任何改变都会导致另一个变量朝着相同方向发生等量的改变。如果相关系数为-1,即完全负相关,代表一个变量的任何变化都将会引发另一个变量朝着相反方向发生等量的改变。
1702643098
1702643099
相关系数越接近1或-1,变量间的关联性就越强。如果相关系数为零(或者接近零),则意味着变量之间不存在有意义的联系,就比如一个人的鞋码和高考成绩之间的关系。
1702643100
1702643101
第二个吸引人的优势在于,相关系数不受变量单位的限制。我们可以计算身高和体重之间的关联性,哪怕身高和体重的单位分别是英寸和磅。我们甚至还可以计算出高中生家里的电视机数量和他们的考试成绩之间的关联性,而且我敢保证是正相关(之后的内容中我会给出解释)。这就是相关系数能够为我们完成的一件非常神奇的事情:将大量芜杂无序、单位不统一的复杂数据(就比如上面的身高、体重散点分布)加工成一个简洁、优雅的描述性数据。
1702643102
1702643103
实现过程是怎样的?
1702643104
1702643105
跟之前一样,我已经在本章后面的内容添加了一个常用的相关系数计算公式。相关系数通常不是一个徒手计算出来的统计参数,而是需要借助微软Excel办公软件或其他办公软件,你只需要输入数据,软件就会自动求得两个变量之间的相关系数。整个过程理解起来并不是很难,相关系数的计算过程如下:
1702643106
1702643107
1. 计算出两个变量的平均数和标准差。还是以身高和体重为例,我们会得出样本人群的平均身高和平均体重,以及它们的标准差。
1702643108
1702643109
2. 对所有数据进行转换,表现为距离(也就是标准差)的形式。请紧跟我的讲述,这一步并没有你想的那么复杂。假设样本的平均身高为66英寸(标准差为5英寸),平均体重为177磅(标准差为10磅)。如果你的身高为72英寸,体重为168磅,就表明你高于平均身高1.2个标准差,用公式来表述即为[(72-66)/5]=1.2,轻于平均体重0.9个标准差,即[(168-177)/10]=-0.9。的确,如果你的身高高于平均身高,体重却轻于平均体重,我们可以用“异常”来形容,但是既然你花钱买了我的书,那我就不能不手下留情——暂且说你又高又苗条吧。注意了,在此之前你的身高和体重数据后面还紧跟着单位——“英寸”和“磅”,现在却被转换成了简简单单的1.2和-0.9,单位神奇地消失了。
1702643110
1702643111
3. 到了这一步,我只需要,让电脑来完成剩下的工作。通过公式,电脑会整合样本里所有人的身高和体重的标准差数据,并最终为我们揭示身高和体重之间的关系。假如样本中有些人的身高高于平均值1.5或2个标准差,那么他们的体重相对于平均值来说会呈现一种什么状况?那些身高接近平均值的人,他们的体重又会有什么变化?
1702643112
1702643113
如果一个变量和平均值之间的距离与另一个变量和平均值之间的距离在相同方向上高度吻合(例如,身高特别高或矮的人的体重一般也会特别重或轻),那么我们就可以断言这两个变量之间存在着强烈的正相关关系。
1702643114
1702643115
如果一个变量和平均值之间的距离与另一个变量和平均值之间的距离在相反方向上高度吻合(例如,锻炼时长大大高于平均值的人,他们的体重也大大低于平均值),那么我们就可以断言这两个变量之间存在着强烈的负相关关系。
1702643116
1702643117
如果两个变量无论在什么分析模式下都无法呈现出规律(例如鞋的尺码和锻炼时长),那么这两个变量之间就不存在或基本不存在相关性。
1702643118
1702643119
上述的内容让大家受苦了,好消息是我们马上就要谈到轻松的付费电影话题了。但在此之前,我们先来聊聊生活中另一个与相关性息息相关的事物:SAT考试。是的,就是大名鼎鼎的美国学术能力测试,也叫SAT推理测验。这一标准化考试由3部分组成:数学、阅读和写作。或许你曾经参加过SAT考试,或者很快你将参加这项考试,但是你很有可能从来没有想过参加这个考试到底有什么意义。该测试的目的在于,检验学生的学术能力,并预测他们进入大学后的表现。当然,有人会问(尤其是那些不喜欢标准化考试的人):这难道不是高中应该做的事吗?难道在大学招生老师的眼里,一场历时4个小时的考试难道比高中4年的成绩都重要?这些问题的答案其实都隐藏在第1章和第2章的内容里。高中时期的成绩是一个有缺陷的描述性数据。一个选修了数学、科学等挑战性较大的课程的学生,可能期末成绩很一般,但其学术能力和潜力可能要优于那些虽然成绩很好但选的课程都较为简单的同校同学。如果将多个学校进行横向比较,那么这类差异就会更大了。美国大学委员会负责SAT测试的出题和管理,据委员会成员介绍,SAT测试的初衷就在于“让每位学生在申请大学时都能得到公平的对待”。说得对!SAT将学生能力进行了标准化加工,让大学在录取学生时有了一个简单明了的参考标准。但SAT测试究竟是不是一个好的能力评价标准呢?想要找一个评价学生的统一标准并不难,我们可以让所有的高中毕业生来一个百米测试,也能分出优劣,而且比SAT花费少和易于操作。不过有一个问题,百米短跑的成绩与大学表现可以说毫不相关,这是两个不相关的变量,虽说数据收集并不费劲,但它也不会告诉我们有意义的情况。
1702643120
1702643121
那么,SAT在这方面的表现如何?我有一个不幸的消息要告诉未来的高中毕业生,SAT成绩在预测大学一年级学生的成绩方面表现得相当不错。美国大学委员会定期会发布相关性报告。零代表毫不相关,1代表完全相关,学生的高中平均成绩与大学第一年的平均成绩之间的相关系数为0.56(为了让大家有一个直观的比较,我为大家提一个数据,那就是美国成年男子身高和体重之间的相关系数大约为0.4),而SAT综合成绩(阅读、数学和写作)与大学第一年的平均成绩之间的相关系数同样为0.56。既然SAT测试在预测学生大学表现方面并没有比高中的平均成绩更优秀,那为什么还要设立这样一个考试呢?事实上,如果将SAT成绩和高中平均成绩综合起来,就能得到一个相关系数为0.64的最佳预测指数。所以,亲爱的同学,我只能说抱歉了,乖乖地准备SAT考试吧。
1702643122
1702643123
在本章的讨论过程中,我们必须牢记一点,那就是相关关系并不等于因果关系。两个变量存在正相关或负相关的关系,这并不代表其中一个变量的改变是由另一个变量的变化引起的。举个例子,之前我提了一句,学生的SAT成绩和其家里的电视机数量呈正相关关系,但这句话的意思并不是说望子成龙的家长多买5台电视机摆在家里,孩子的成绩就能提高了,也不是说,学生在家多看电视有助于提高学业成绩。
1702643124
1702643125
对这样一个相关性最符合逻辑的解释应该是,受过良好教育的家长既能买得起多台电视机,也能很好地辅导孩子的学习,使其在考试中发挥出色。电视机的数
1702643126
1702643127
量和考试分数很可能都是由第三个变量——家长的受教育程度决定的。我无法证明家中拥有电视机的数量和孩子的SAT分数之间的相关性(因为教育委员会并没有提供这方面的数据),但我能证明家境殷实的孩子的SAT分数要普遍高于家庭生活条件相对困难的学生。美国教育委员会提供的数据显示,家庭年收入超过20万美元的学生,他们的SAT数学平均分为586;而家庭年收入低于两万美元的学生,他们的SAT数学平均分仅为460。与此同时,年收入高于20万美元的家庭也极有可能(在多个房产内)拥有多台电视机,电视机数量势必要多于年收入低于两万美元的家庭。
1702643128
1702643129
几天前,我开始了本章内容的创作,也借此机会观看了纪录片电影《布托》。太精彩了!这是一部关于一个伟大家庭的伟大电影。详细的影像资料,从1947年印度和巴基斯坦分治一直到2007年贝•布托遇刺,让人看来荡气回肠。布托的演讲和采访原音穿插全片,贯穿她的一生。观毕此片,我毫不吝啬地打了5颗星,完全符合网飞的预测。
1702643130
1702643131
归根结底,网飞运用的还是相关性的概念。我在网站上给以前看过的电影评分,网飞将我的评分与其他用户进行比较,从中筛选出与我相关性最高的用户,这些人的电影品位可以说与我是最接近的。数据库一旦建立,网飞就会向我推荐那些与我品位相同的用户打了高分,而我又恰好没有看过的电影。
1702643132
1702643133
当然,这只是简略的介绍,真正的方法要比这个复杂得多。2006年,网飞公司发起了一场比赛,邀请公众参与设计影片推荐机制,以帮助网飞在现有的推荐方案上提高至少10%的准确率(即用户在观看完推荐影片后给出的评分正好对应网站之前的预测),比赛赢家可以获得100万美元的奖励。
1702643134
1702643135
报名参赛的个人或团队都会收到一套“训练数据”,包含了48万名网飞注册用户对1.8万部电影共计1亿多次的评分,但其中有280万个评分是“保密”的,即只有网飞公司知道评分的具体结果,参赛者是不知道的。参赛者需要通过自己的算法和程序,来预测出这些“保密”评分的内容,网飞公司会根据每位参赛者所提交的内容来判断其准确程度。在超过3年的时间里,有来自180多个国家的团队提交了改进方案,但在参评之前他们必须满足两个条件:第一,获胜者必须将算法程序授权给网飞公司;第二,获胜者必须“向全世界描述你是如何做到的”。
1702643136
1702643137
2009年网飞公司终于宣布了比赛的最终结果:获胜者为一个7人团队,由统计学家和计算机专家组成,他们分别来自美国、奥地利、加拿大和以色列。遗憾的是,我无法在这里向各位介绍他们的获胜系统,就算本章的补充知识点对此也没有提及,因为他们的成果介绍长达92页纸。网飞影片推荐系统的品质毋庸置疑,但无论包装如何精美,说到底还是一件十分普通的事,甚至早在电影工业初期就已经出现了:找几个跟你有相同趣味的人并让他们向你推荐一些电影。既然你那么爱看我喜欢的电影,厌恶我认为不好看的电影,那么你觉得乔治•克鲁尼的新片怎么样?
1702643138
1702643139
这就是相关性的真谛。
[
上一页 ]
[ :1.70264309e+09 ]
[
下一页 ]