1702642545
赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 第1章 统计学是大数据时代最炙手可热的学问
1702642546
1702642547
基尼系数是否是衡量社会分配公平程度最完美的指标?视频网站是如何知道你喜欢的电影类型的?祈祷真的能让病人的术后康复状况改善吗?是什么导致自闭症发病率一直走高?哪些人最有可能成为恐怖分子?
1702642548
1702642549
我注意到一个有趣的现象。学生们在课堂上常常抱怨统计学课程有多么难学和无关紧要;可一离开教室,他们又会在午饭时开心地讨论某位球星的击球成功率(夏天)或寒冷指数(冬天),又或者彼此成绩的平均分数(永恒的话题)。他们会指出美国职业橄榄球联盟(NFL)采用“传球效绩指数”用以将一个四分卫的场上表现浓缩为一个数字的不当之处,认为以此作为评价球员的依据略显武断,但可以通过调整其中所包含数据(完成率、平均过球码数、触地得分率、截球率等)的权重比例重新计算,以得出一个与原来不同,但同样可信的球员表现指数。但只要是看过橄榄球比赛的人都会觉得,没有比用一个单一数字来衡量四分卫的表现更加方便的了。
1702642550
1702642551
关于四分卫表现的这个评价指数是完美的吗?当然不是,无论是什么问题,统计学都极少提供唯一的“正确”方法。但是,这个指数是否以一种易于理解的方式提供了一些有意义的信息呢?那是肯定的,如果想快速地对某场比赛的两名四分卫的表现做出比较,那么这个指数会是一个不错的工具。我是芝加哥熊队的粉丝,在2011年季后赛期间,熊队与芝加哥包装工队进行了一场比赛,以后者的胜利告终。我可以通过很多种方式来描述那场比赛,包括长篇累牍的分析和令人眼花缭乱的原始数据,但这里我为大家提供了一种更加简洁的分析方法。芝加哥熊队的四分卫杰•卡特勒的传球效绩指数为31.8,与此同时,格林湾队的四分卫亚伦•罗杰斯的传球效绩指数为55.4。同样的,我们可以将杰·卡特勒与他之前跟格林湾队比赛时的表现进行对比,在那场比赛中他的传球效绩指数高达85.6。两者相比较,我想大家就不难理解为什么熊队在常规赛时击败了包装工队,但在季后赛时却输给了包装工队。
1702642552
1702642553
这对于概括场上进行的比赛非常有用。传球效绩指数是否起到了简化问题的作用?是的,但这同时也反映了描述统计学的优势和劣势。仅凭一个数字,你就可以知道杰·卡特勒在与格林湾的那场比赛中败给了亚伦•罗杰斯;但你却无法从这个数字中读出运动员在比赛中的运气是好是坏;不知道他是否传出了一个漂亮的过人球却被愚蠢的队友错过了,导致这个球最终被对方截获;不知道他是否在比赛的某些关键时刻顶住压力发挥出色(因为每一次的成功发球在统计时都被同等对待,不论是决定性的三次触地还是比赛接近尾声时那些毫无意义的发球);不知道那一场的防守是否糟糕透顶……读不出来的信息还有很多。
1702642554
1702642555
令人好奇的是,同样一群人,在谈论体育、天气或成绩的时候提到数据时还是兴高采烈的,但是当研究人员开始向他们解释基尼系数时,他们的手心却出汗了。基尼系数是衡量收入不均的标准经济学工具,我在之后的内容中将对其做出解释,但是现在我要说的最重要的事情是,基尼系数实质上与传球效绩指数没有多大区别,都是将一系列复杂数据浓缩成一个单一数字的便捷工具。正因如此,基尼系数也拥有描述统计学的大多数优势,如果你想比较两个国家或某个国家不同时期的收入分配情况,该系数就为你提供了一个简单易行的方式。
1702642556
1702642557
基尼系数用于衡量一个国家的财富(或收入)分配的公平程度,最小为0,最大为1。计算基尼系数可以看总资产,也可以看年收入,可以以个人为计算和比较单位,也可以以家庭为单位。所有这些数据都是紧密联系的,但不会完全相同。就像传球效绩指数一样,基尼系数只是一个用作比较的工具,其数字本身并无实质意义。在一个家庭财富均等的国家里,基尼系数为0;与此相反,如果一个国家的所有财富都集中在一个家庭里,那么这个国家的基尼系数等于1。或许你已经猜到了,一个国家的基尼系数越接近于1,那么这个国家的财富分配就越不公平。根据美国中情局提供的数据(顺便说一句,这可是一个巨大的数据收集机构),美国的基尼系数为0.45。那又怎么样?
1702642558
1702642559
如果将这一数字放到实际情况中,我们就可以得到许多信息。例如,瑞典的基尼系数为0.23,加拿大为0.32,中国为0.42,巴西为0.54,南非为0.65。[①]纵观这些数字,我们能够感觉到美国在收入的公平分配方面相对落后,情况比许多国家都要糟糕。我们同样可以对不同时期的收入分配的公平情况进行比较,1997年美国的基尼系数为0.41,但在接下来的10年内,基尼系数就上升到了0.45(最近一次来自美国中情局的数据是在2007年),这就客观地告诉我们在这10年的时间里,美国虽然变得更加富裕,但财富的分配也变得更加不公平。现在我们再来看一下其他国家在这一时期内基尼系数的变化情况,加拿大在过去10年中的收入分配情况基本上保持不变,瑞典经济虽然在过去20年的时间里得到了长足发展,但其基尼系数却从1992年的0.25降到了2005年的0.23,也就是说瑞典不但变得更为富裕,其社会也变得更加公平。
1702642560
1702642561
基尼系数是否就是社会分配公平程度最完美的衡量指标呢?绝对不是,正如传球效绩指数也不是衡量四分卫比赛表现的完美指标一样。不过,基尼系数确实以一种便捷易懂的形式为我们提供了一个重要社会现象的一些宝贵信息。
1702642562
1702642563
我们慢慢地又回到了前文中所提出的那个问题:学习统计学的意义是什么?统计学能够帮助我们处理数据,而数据只不过是包裹着华丽外衣的信息。在很多时候、很多事情上,数据不仅琐碎而且并非那么重要,比如比赛数据统计;但有的时候数据却能为你打开一扇洞察人类存在本质的窗户,比如基尼系数。
1702642564
1702642565
但是,正如所有信息宣传片都会指出的:这不是所有情况!谷歌首席经济学家范瑞安在接受《纽约时报》采访时曾说,在未来10年内统计学家将会成为“性感的职业”。对此我不得不承认,经济学家有的时候对“性感”的理解确实非同寻常。但我们还是来看看下面这些彼此不相干的问题:
1702642566
1702642567
我们如何确认那些在统考中作弊的学校?
1702642568
1702642569
网飞(Netflix)是如何知道你喜欢的电影类型的?
1702642570
1702642571
既然不能对人体进行癌症诱发试验,那我们如何才能得知哪些物质或行为会诱发癌症?
1702642572
1702642573
祈祷真的能让手术病人的状况改善吗?
1702642574
1702642575
从顶尖高校毕业是否就意味着更高的经济收入?
1702642576
1702642577
是什么推高了自闭症的发病率?
1702642578
1702642579
统计学能够帮助我们回答这些问题(至少也会加快我们解决这些问题的步伐)。这个世界正在制造出越来越多的数据,而且速度越来越快。但是正如《纽约时报》所指出的,“数据只不过是知识的原材料”。无论是在寻找被低估的棒球运动员,还是在更公平地分配教师工资的问题上,统计学都是我们分析信息获得有意义结果的最有力工具。下面,我们就来快速了解一下统计学是如何赋予原始数据以意义的。
1702642580
1702642581
描述性数据——击球率与大学学分
1702642582
1702642583
保龄球的得分是一个描述性的数据,棒球的击球率也是。对于绝大多数美国的体育迷来说,从5岁开始,他们就已经精通这些赛场上的描述统计学了。在体育以及生活中的其他领域,我们使用数字来总结信息。棒球运动员米奇·曼托到底有多棒?他的击球率高达0.298。对于一个棒球迷来说,这就是一个极有意义的陈述、一个非常耀眼的成就,这个数字囊括了他长达18个赛季的棒球职业生涯(但我却觉得有那么一点儿沮丧,一个伟大运动员一生的奋斗到头来不过就是一个数字)。当然,棒球迷们也承认,像击球率这类描述性数据在总结一个运动员的价值时,具有其他衡量标准不可比拟的优势。
1702642584
1702642585
在美国,衡量一个学生的高中和大学学业表现的方法是计算平均成绩点数(GPA),通俗点儿说就是学生在校的平均成绩。如果一门课的成绩为A,那么就可以获得4点,B是3点,C是2点,以此类推。当高中毕业生申请大学、大学毕业生找工作时,GPA就是评价他们学术潜力的一个方便快捷的指标。一个GPA为3.7的学生显然要比另一个GPA只有2_5的学生的实力强,这就使得GPA成为一个受人欢迎的描述性数据,不仅计算容易、理解容易,而且对不同学生进行比较也很容易。
1702642586
1702642587
但这一衡量指标并不完美。GPA没有反映不同学生所选课程的难易程度,假设一个GPA为3.4的学生选的都是相对没有挑战性的课,而另一名GPA只有2.9的学生的课程表里尽是微积分、物理这类难学的课,我们能一口判定孰优孰劣吗?我以前所在的高中就试图解决这一问题,学校规定比较难学的课程会有额外的加分,这些课程如果期末成绩为A,那么就会有5点的奖励,而非原来的4点。但这也带来了新的问题,我的母亲很快就反应过来,在新的GPA计算方法下,对于一个选了很多加分课程的学生来说(比如说我),其他普通课程就算做到最好,也就是拿到了A,最终的平均分也会被拉下来。因此,我的家长不准我在高中选修驾驶课,因为即使我做到完美,也有可能会因为这门课而错失进入顶尖大学的机会,进而断送了我成为畅销书作家的美好前程。但不学开车也是不行的,于是父母自己掏钱送我去一家私人驾驶学校学开车,那个暑假的晚上我基本都是在车里度过的。
1702642588
1702642589
很疯狂吧?但本书的主题之一就是,对于描述统计学的过分依赖会带来误导性的结论或导致不良行为。上一句话我原先用的短语是“过分简化的描述统计学”,可后来我把“过分简化”给删掉了,因为这个形容词是多余的,描述统计学存在的意义就是简化,因此不可避免地会丢失一些内容和细节,任何一个数字工作者对此都要心知肚明。
1702642590
1702642591
用抽样数据来解决大问题
1702642592
1702642593
有多少无家可归的人在芝加哥街头流浪?已婚人士多久过一次性生活?这些问题看上去风马牛不相及,但事实上它们都可以通过对基本统计工具的运用予以解答(虽然答案并非那么完美)。统计学的一个核心功能就是使用手中已有的数据进行合理推测,以回答那些我们还未掌握所有信息的“大”问题。简言之,我们能够使用“已知世界”的数据来对“未知世界”进行推断。
[
上一页 ]
[ :1.702642544e+09 ]
[
下一页 ]