打字猴:1.70264311e+09
1702643110
1702643111 3.   到了这一步,我只需要,让电脑来完成剩下的工作。通过公式,电脑会整合样本里所有人的身高和体重的标准差数据,并最终为我们揭示身高和体重之间的关系。假如样本中有些人的身高高于平均值1.5或2个标准差,那么他们的体重相对于平均值来说会呈现一种什么状况?那些身高接近平均值的人,他们的体重又会有什么变化?
1702643112
1702643113 如果一个变量和平均值之间的距离与另一个变量和平均值之间的距离在相同方向上高度吻合(例如,身高特别高或矮的人的体重一般也会特别重或轻),那么我们就可以断言这两个变量之间存在着强烈的正相关关系。
1702643114
1702643115 如果一个变量和平均值之间的距离与另一个变量和平均值之间的距离在相反方向上高度吻合(例如,锻炼时长大大高于平均值的人,他们的体重也大大低于平均值),那么我们就可以断言这两个变量之间存在着强烈的负相关关系。
1702643116
1702643117 如果两个变量无论在什么分析模式下都无法呈现出规律(例如鞋的尺码和锻炼时长),那么这两个变量之间就不存在或基本不存在相关性。
1702643118
1702643119 上述的内容让大家受苦了,好消息是我们马上就要谈到轻松的付费电影话题了。但在此之前,我们先来聊聊生活中另一个与相关性息息相关的事物:SAT考试。是的,就是大名鼎鼎的美国学术能力测试,也叫SAT推理测验。这一标准化考试由3部分组成:数学、阅读和写作。或许你曾经参加过SAT考试,或者很快你将参加这项考试,但是你很有可能从来没有想过参加这个考试到底有什么意义。该测试的目的在于,检验学生的学术能力,并预测他们进入大学后的表现。当然,有人会问(尤其是那些不喜欢标准化考试的人):这难道不是高中应该做的事吗?难道在大学招生老师的眼里,一场历时4个小时的考试难道比高中4年的成绩都重要?这些问题的答案其实都隐藏在第1章和第2章的内容里。高中时期的成绩是一个有缺陷的描述性数据。一个选修了数学、科学等挑战性较大的课程的学生,可能期末成绩很一般,但其学术能力和潜力可能要优于那些虽然成绩很好但选的课程都较为简单的同校同学。如果将多个学校进行横向比较,那么这类差异就会更大了。美国大学委员会负责SAT测试的出题和管理,据委员会成员介绍,SAT测试的初衷就在于“让每位学生在申请大学时都能得到公平的对待”。说得对!SAT将学生能力进行了标准化加工,让大学在录取学生时有了一个简单明了的参考标准。但SAT测试究竟是不是一个好的能力评价标准呢?想要找一个评价学生的统一标准并不难,我们可以让所有的高中毕业生来一个百米测试,也能分出优劣,而且比SAT花费少和易于操作。不过有一个问题,百米短跑的成绩与大学表现可以说毫不相关,这是两个不相关的变量,虽说数据收集并不费劲,但它也不会告诉我们有意义的情况。
1702643120
1702643121 那么,SAT在这方面的表现如何?我有一个不幸的消息要告诉未来的高中毕业生,SAT成绩在预测大学一年级学生的成绩方面表现得相当不错。美国大学委员会定期会发布相关性报告。零代表毫不相关,1代表完全相关,学生的高中平均成绩与大学第一年的平均成绩之间的相关系数为0.56(为了让大家有一个直观的比较,我为大家提一个数据,那就是美国成年男子身高和体重之间的相关系数大约为0.4),而SAT综合成绩(阅读、数学和写作)与大学第一年的平均成绩之间的相关系数同样为0.56。既然SAT测试在预测学生大学表现方面并没有比高中的平均成绩更优秀,那为什么还要设立这样一个考试呢?事实上,如果将SAT成绩和高中平均成绩综合起来,就能得到一个相关系数为0.64的最佳预测指数。所以,亲爱的同学,我只能说抱歉了,乖乖地准备SAT考试吧。
1702643122
1702643123 在本章的讨论过程中,我们必须牢记一点,那就是相关关系并不等于因果关系。两个变量存在正相关或负相关的关系,这并不代表其中一个变量的改变是由另一个变量的变化引起的。举个例子,之前我提了一句,学生的SAT成绩和其家里的电视机数量呈正相关关系,但这句话的意思并不是说望子成龙的家长多买5台电视机摆在家里,孩子的成绩就能提高了,也不是说,学生在家多看电视有助于提高学业成绩。
1702643124
1702643125 对这样一个相关性最符合逻辑的解释应该是,受过良好教育的家长既能买得起多台电视机,也能很好地辅导孩子的学习,使其在考试中发挥出色。电视机的数
1702643126
1702643127 量和考试分数很可能都是由第三个变量——家长的受教育程度决定的。我无法证明家中拥有电视机的数量和孩子的SAT分数之间的相关性(因为教育委员会并没有提供这方面的数据),但我能证明家境殷实的孩子的SAT分数要普遍高于家庭生活条件相对困难的学生。美国教育委员会提供的数据显示,家庭年收入超过20万美元的学生,他们的SAT数学平均分为586;而家庭年收入低于两万美元的学生,他们的SAT数学平均分仅为460。与此同时,年收入高于20万美元的家庭也极有可能(在多个房产内)拥有多台电视机,电视机数量势必要多于年收入低于两万美元的家庭。
1702643128
1702643129 几天前,我开始了本章内容的创作,也借此机会观看了纪录片电影《布托》。太精彩了!这是一部关于一个伟大家庭的伟大电影。详细的影像资料,从1947年印度和巴基斯坦分治一直到2007年贝•布托遇刺,让人看来荡气回肠。布托的演讲和采访原音穿插全片,贯穿她的一生。观毕此片,我毫不吝啬地打了5颗星,完全符合网飞的预测。
1702643130
1702643131 归根结底,网飞运用的还是相关性的概念。我在网站上给以前看过的电影评分,网飞将我的评分与其他用户进行比较,从中筛选出与我相关性最高的用户,这些人的电影品位可以说与我是最接近的。数据库一旦建立,网飞就会向我推荐那些与我品位相同的用户打了高分,而我又恰好没有看过的电影。
1702643132
1702643133 当然,这只是简略的介绍,真正的方法要比这个复杂得多。2006年,网飞公司发起了一场比赛,邀请公众参与设计影片推荐机制,以帮助网飞在现有的推荐方案上提高至少10%的准确率(即用户在观看完推荐影片后给出的评分正好对应网站之前的预测),比赛赢家可以获得100万美元的奖励。
1702643134
1702643135 报名参赛的个人或团队都会收到一套“训练数据”,包含了48万名网飞注册用户对1.8万部电影共计1亿多次的评分,但其中有280万个评分是“保密”的,即只有网飞公司知道评分的具体结果,参赛者是不知道的。参赛者需要通过自己的算法和程序,来预测出这些“保密”评分的内容,网飞公司会根据每位参赛者所提交的内容来判断其准确程度。在超过3年的时间里,有来自180多个国家的团队提交了改进方案,但在参评之前他们必须满足两个条件:第一,获胜者必须将算法程序授权给网飞公司;第二,获胜者必须“向全世界描述你是如何做到的”。
1702643136
1702643137 2009年网飞公司终于宣布了比赛的最终结果:获胜者为一个7人团队,由统计学家和计算机专家组成,他们分别来自美国、奥地利、加拿大和以色列。遗憾的是,我无法在这里向各位介绍他们的获胜系统,就算本章的补充知识点对此也没有提及,因为他们的成果介绍长达92页纸。网飞影片推荐系统的品质毋庸置疑,但无论包装如何精美,说到底还是一件十分普通的事,甚至早在电影工业初期就已经出现了:找几个跟你有相同趣味的人并让他们向你推荐一些电影。既然你那么爱看我喜欢的电影,厌恶我认为不好看的电影,那么你觉得乔治•克鲁尼的新片怎么样?
1702643138
1702643139 这就是相关性的真谛。
1702643140
1702643141 本章补充知识点
1702643142
1702643143 要计算两组数据的相关系数,我们需要按以下几个步骤进行。为了让大家能够更好地理解,这里每个步骤的讲解都是基于一张15个学生的身高与体重的数据表。
1702643144
1702643145 1.   将每个学生的身高转换为标准值:(身高-平均身高)/标准差。
1702643146
1702643147 2.   将每个学生的体重转换为标准值:(体重-平均身高)/标准差。
1702643148
1702643149 3.   将每个学生的体重标准值和身高标准值相乘,你会发现,当一个学生的身高和体重都偏离平均值较远时,乘积的绝对值也会较大。
1702643150
1702643151 4.将第三步求得的乘积相加,再除以统计对象的数量(在这个例子中为15),就可以得到相关系数。
1702643152
1702643153 这一组学生的身高与体重的相关系数为0.83,考虑到相关系数的范围是从-1到1,因此我们可以认为身高和体重之间存在着较强的正相关关系。
1702643154
1702643155
1702643156
1702643157
1702643158 在我们介绍相关系数的公式之前,有必要了解几个数学符号。求和符号∑是一个常用的统计学运算工具,表示跟在其后的数据的总和。假设有一组数据X1、X2、X3和X4,那么∑(X1)就意味着我们应该将4个数相加:X1+X2+X3+X4,即∑(X1)= X1+X2+X3+X4。那么,这组数据的平均值公式就为:平均值=∑(X1)/n。
1702643159
[ 上一页 ]  [ :1.70264311e+09 ]  [ 下一页 ]