1702643072
赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 第4章 相关性与相关系数
1702643073
1702643074
视频网站根本不知道我是谁,但它又是怎么知道我喜欢看人物纪录片而不是电视连续剧、动作片或科幻片的?
1702643075
1702643076
有一段时间,每当我打开网飞视频的页面,总是会弹出一条收看提示,建议我观看纪录片《布托》——一部关于巴基斯坦前总理贝娜齐尔·布托的生平与悲
1702643077
1702643078
惨遭遇的“富有深度与煽动性”的电影。我对这部电影的印象不错,而且也把《布托》加入到了我的观看列表中。最神奇的是,在那些网飞推荐给我的影片中,如果是我之前看过的影片,那么毫无疑问这些影片都是我非常喜爱的。
1702643079
1702643080
网飞公司是如何做到这一点的?在其公司总部是不是有一大群实习生,整天在谷歌网站上搜索有关我的信息,并综合了我的家人和朋友的观影兴趣,得出我可能会对一位巴基斯坦前总理的纪录片感兴趣的结论?当然不可能。网飞公司只不过是掌握了一些非常复杂、精密的统计学手段。网飞公司甚至根本不知道我是谁,但却知道我过去喜欢看什么类型的电影(因为我曾经在网站上为这些电影打过分)。基于这一信息,再加上其他用户的评分以及一台强大的电脑,网飞公司对于我的电影品位的预测精准得令人震惊。
1702643081
1702643082
我将会告诉大家网飞公司做出这些预测的具体算法,现在最重要的一点是:这所有的一切都基于相关性。网飞向我推荐的电影与我喜欢的其他影片类似,此外,该网站还向我推荐得到某些网友高度评价的影片,而这些网友的打分恰恰与我的打分非常接近,可以说这些网友是一群与我“臭味相投”的观影者。纪录片《布托》之所以会出现在我的网页上,是因为我给另外两部纪录片打了满分五颗星,这两部影片分别是《屋内聪明人》和《战争之雾》。
1702643083
1702643084
相关性体现的是两个现象之间相互关联的程度例如在夏天,温度的高低与冰淇淋的销量就存在相关性,当温度升高时,冰淇淋的销量也会相应提高。如果其中一个变量的改变引发另一个变量朝着相同的方向变化,那么我们说这两个变量存在正相关性,就比如身高与体重之间的关系,(一般来说)个子高的人体重会重些,个子矮的人体重会轻些。如果一个变量的改变引发另一个变量朝着相反的方向变化,那么这两个变量就存在负相关性,比如锻炼与体重。
1702643085
1702643086
凡事都没有那么简单,有些时候也会出现与上述相关性相违背的现象。有些个子矮的人就是比个子高的人重一些,有些从来不运动的人甚至比运动爱好者苗条,但无论怎样,身高与体重、锻炼与体重之间总是存在着有意义的关联。
1702643087
1702643088
如果对美国成年人的身高、体重进行随机取样,我们会得到如下一幅散点分布图:
1702643089
1702643090
1702643091
1702643092
1702643093
图4-1 身高与体重散点分布图
1702643094
1702643095
如果我们要绘制一幅关于锻炼(每周进行剧烈运动的分钟数)和体重的散点分布图,就会看到一个相反的趋势,即运动量越大体重越轻。但是,这样一张完全由分散的点构成的图怎么看都不像是一个简便易行的统计工具。设想一下,如果网飞公司是以这种方式向我推荐影片的,那么公司总部估计早已被数百万名用户的评分散点淹没了。与之相反,相关性作为一个统计工具的魅力就在于将两个变量的关联精炼成一个描述性数据:相关系数。
1702643096
1702643097
相关系数拥有两个无与伦比的优势。第一个优势体现在数学表达上,从本章后面的内容中我们能够发现,相关系数是一个区间为-1到1的常数。如果相关系数为1,即完全相关,表示一个变量的任何改变都会导致另一个变量朝着相同方向发生等量的改变。如果相关系数为-1,即完全负相关,代表一个变量的任何变化都将会引发另一个变量朝着相反方向发生等量的改变。
1702643098
1702643099
相关系数越接近1或-1,变量间的关联性就越强。如果相关系数为零(或者接近零),则意味着变量之间不存在有意义的联系,就比如一个人的鞋码和高考成绩之间的关系。
1702643100
1702643101
第二个吸引人的优势在于,相关系数不受变量单位的限制。我们可以计算身高和体重之间的关联性,哪怕身高和体重的单位分别是英寸和磅。我们甚至还可以计算出高中生家里的电视机数量和他们的考试成绩之间的关联性,而且我敢保证是正相关(之后的内容中我会给出解释)。这就是相关系数能够为我们完成的一件非常神奇的事情:将大量芜杂无序、单位不统一的复杂数据(就比如上面的身高、体重散点分布)加工成一个简洁、优雅的描述性数据。
1702643102
1702643103
实现过程是怎样的?
1702643104
1702643105
跟之前一样,我已经在本章后面的内容添加了一个常用的相关系数计算公式。相关系数通常不是一个徒手计算出来的统计参数,而是需要借助微软Excel办公软件或其他办公软件,你只需要输入数据,软件就会自动求得两个变量之间的相关系数。整个过程理解起来并不是很难,相关系数的计算过程如下:
1702643106
1702643107
1. 计算出两个变量的平均数和标准差。还是以身高和体重为例,我们会得出样本人群的平均身高和平均体重,以及它们的标准差。
1702643108
1702643109
2. 对所有数据进行转换,表现为距离(也就是标准差)的形式。请紧跟我的讲述,这一步并没有你想的那么复杂。假设样本的平均身高为66英寸(标准差为5英寸),平均体重为177磅(标准差为10磅)。如果你的身高为72英寸,体重为168磅,就表明你高于平均身高1.2个标准差,用公式来表述即为[(72-66)/5]=1.2,轻于平均体重0.9个标准差,即[(168-177)/10]=-0.9。的确,如果你的身高高于平均身高,体重却轻于平均体重,我们可以用“异常”来形容,但是既然你花钱买了我的书,那我就不能不手下留情——暂且说你又高又苗条吧。注意了,在此之前你的身高和体重数据后面还紧跟着单位——“英寸”和“磅”,现在却被转换成了简简单单的1.2和-0.9,单位神奇地消失了。
1702643110
1702643111
3. 到了这一步,我只需要,让电脑来完成剩下的工作。通过公式,电脑会整合样本里所有人的身高和体重的标准差数据,并最终为我们揭示身高和体重之间的关系。假如样本中有些人的身高高于平均值1.5或2个标准差,那么他们的体重相对于平均值来说会呈现一种什么状况?那些身高接近平均值的人,他们的体重又会有什么变化?
1702643112
1702643113
如果一个变量和平均值之间的距离与另一个变量和平均值之间的距离在相同方向上高度吻合(例如,身高特别高或矮的人的体重一般也会特别重或轻),那么我们就可以断言这两个变量之间存在着强烈的正相关关系。
1702643114
1702643115
如果一个变量和平均值之间的距离与另一个变量和平均值之间的距离在相反方向上高度吻合(例如,锻炼时长大大高于平均值的人,他们的体重也大大低于平均值),那么我们就可以断言这两个变量之间存在着强烈的负相关关系。
1702643116
1702643117
如果两个变量无论在什么分析模式下都无法呈现出规律(例如鞋的尺码和锻炼时长),那么这两个变量之间就不存在或基本不存在相关性。
1702643118
1702643119
上述的内容让大家受苦了,好消息是我们马上就要谈到轻松的付费电影话题了。但在此之前,我们先来聊聊生活中另一个与相关性息息相关的事物:SAT考试。是的,就是大名鼎鼎的美国学术能力测试,也叫SAT推理测验。这一标准化考试由3部分组成:数学、阅读和写作。或许你曾经参加过SAT考试,或者很快你将参加这项考试,但是你很有可能从来没有想过参加这个考试到底有什么意义。该测试的目的在于,检验学生的学术能力,并预测他们进入大学后的表现。当然,有人会问(尤其是那些不喜欢标准化考试的人):这难道不是高中应该做的事吗?难道在大学招生老师的眼里,一场历时4个小时的考试难道比高中4年的成绩都重要?这些问题的答案其实都隐藏在第1章和第2章的内容里。高中时期的成绩是一个有缺陷的描述性数据。一个选修了数学、科学等挑战性较大的课程的学生,可能期末成绩很一般,但其学术能力和潜力可能要优于那些虽然成绩很好但选的课程都较为简单的同校同学。如果将多个学校进行横向比较,那么这类差异就会更大了。美国大学委员会负责SAT测试的出题和管理,据委员会成员介绍,SAT测试的初衷就在于“让每位学生在申请大学时都能得到公平的对待”。说得对!SAT将学生能力进行了标准化加工,让大学在录取学生时有了一个简单明了的参考标准。但SAT测试究竟是不是一个好的能力评价标准呢?想要找一个评价学生的统一标准并不难,我们可以让所有的高中毕业生来一个百米测试,也能分出优劣,而且比SAT花费少和易于操作。不过有一个问题,百米短跑的成绩与大学表现可以说毫不相关,这是两个不相关的变量,虽说数据收集并不费劲,但它也不会告诉我们有意义的情况。
1702643120
[
上一页 ]
[ :1.702643071e+09 ]
[
下一页 ]