打字猴:1.702642668e+09
1702642668 赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 [:1702642302]
1702642669 赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 第2章 描述统计学
1702642670
1702642671 你一直想买的一条连本裙,商场售价为4999元,先降价25%后再提价25%,你能算出这条连衣裙的最终售价是多少吗?
1702642672
1702642673 让我们先来思考两个看上去毫不相干的问题:(1)美国中产阶级的经济健康状况出了什么问题?(2)谁是有史以来最伟大的棒球运动员?
1702642674
1702642675 第一个问题极为重要,几乎构成了每次美国总统选举和社会运动的核心。中产阶级是美国的心脏,这一群体的经济状况是整个国家经济运行健康与否的关键性指标。相比之下,第二个问题就显得微不足道了,但棒球爱好者或许会持有不同的意见。这两个问题的共同之处就在于,当谈到运用数字和数字运算来总结原始数据的描述统计学时,它们都能用来说明其优点和局限所在。
1702642676
1702642677 如果我想证明德瑞克•基特是一位多么伟大的棒球手,我可以先让你坐下,然后向你娓娓道来基特在每场职业联盟比赛中的每一次击球,这就是原始数据,而且你需要花很长一段时间来消化,因为基特为纽约洋基队效力了17个赛季,上场击球的次数累计达到了9868次。
1702642678
1702642679 或许我也可以告诉你,在2011赛季结束的时候,德瑞克·基特的击球率为0.313,这是一个描述性数据,即一个“统计量”。
1702642680
1702642681 显而易见,击球率是对基特参加的所有17个赛季的简化统计,不仅易于理解,而且简单,但所能传达的信息却十分有限。棒球运动专家们的手中还有很多在他们看来比击球率更有价值的描述性数据。史蒂夫·莫耶是一家为客户提供大量原始数据的棒球信息解决方案公司的老总,之前我与他通了电话,特地向他咨询了几个问题:(1)哪些是评价棒球天才最重要的数据?(2)谁是史上最伟大的棒球手?在介绍完背景之后,我会向大家公布莫耶的答案。
1702642682
1702642683 现在让我们回到那个更加重要的问题上来,谈谈美国中产阶级的经济健康状况。当然如果我们能够找到类似于击球率这样言简意赅的,甚至更好的经济衡量指标,那是最理想的,我们需要一个简单且准确的数字,来说明一个典型的美国工人最近几年的经济状况,那些我们称之为“中产阶级”的人到底是更富了、更穷了,还是在原地踏步?一个合理的答案——肯定不会有“正确”的答案——就是,计算一代美国人(大约为30年)的人均收入,观察其变化趋势。人均收入是一个简单的平均数:总收入除以人口数,这样得出的结果就是美国的人均年收入从1980年的7787美元上升到2010年的26487美元。你看,真是一个值得庆祝的成就!
1702642684
1702642685 但只有一个小问题,我的计算方法在技术上是正确的,但是对于我一开始提出的那个问题来说,却是完全错误的。首先,上面的数据没有考虑通货膨胀因素,1980年的7787美元相当于2010年的约19600美元。但仅进行通货膨胀因素的处理还不够,更大的问题是,我们需要知道的是普通美国人的收入,而不是泛泛的人均收入,这两者有本质上的区别。
1702642686
1702642687 人均收入仅仅是将整个国家所有人的收入加起来再除以总人口数,我们无法从这个计算结果中得知各阶级收入所占的比例,无论是1980年还是2010年。正如“占领华尔街”运动的示威者所指出的,处于收入排行榜顶端的那1%的人,他们收入的爆炸性增长能够显着地拉动人均收入水平的整体提升,但同时不需要往剩下的那99%的人的口袋里多放一分钱。也就是说,在普通美国人的生活陷入水深
1702642688
1702642689 火热的同时,美国的人均收入依然能够节节攀升。
1702642690
1702642691 与之前有关棒球的问题一样,这次我又请教了专家,咨询我们应该如何看待美国中产阶级的经济问题。我找到了两位知名的劳动经济专家,其中包括美国总统奥巴马的高级经济顾问,询问他们会采用哪些描述性数据来评价一个典型美国人的经济状况是否良好。是的,作为读者,你也会读到他们的答案,不过在那之前,我们还是要对描述统计学有一个大体的认识,这样才能更好地理解专家的观点。
1702642692
1702642693 从棒球到收入,对大量信息进行归纳是处理数据时最基本的任务。美国有3.3亿名居民,一张记录每位美国人的姓名和收入的电子表格包含了我们衡量这个国家经济健康状况所需的所有信息,但这张信息过量的表格其实相当于什么都没有告诉我们。这就是让人觉得讽刺的地方:经常是数据越多,事实越模糊。因此,我们需要简化,将一系列复杂的数据序列减少为几个能够起到描述作用的数字,正如奥运会体操比赛中,我们将一套多难度组合的复杂动作浓缩为一个得分:9.8。
1702642694
1702642695 好消息是,这些描述性数据为我们提供了一个针对某一现象的可操作、有意义的概括,这也是本章所要讲的。但坏消息是,任何一种简化都会面临被滥用的危险。描述性数据就像是在线交友网站上的档案:虽然每一条都是准确的,但同时也相当具有误导性。
1702642696
1702642697 假设你在上班,此刻正无所事事地浏览网站,无意间你浏览了一篇报道,是关于美国娱乐界名媛金·卡戴珊和职业棒球手克里斯•亨弗里斯的感情生活的,这篇报道里详细记录了他们两个人72天“短命”婚姻的点点滴滴。你正津津有味地看到他们结婚第7天的生活时,你的老板手里拿着两份厚厚的文件出现在你的办公桌前。其中一份文件包含了你所在公司前一年售出的57334台激光打印机的保修信息(每售出一台打印机,文件中都会记录下这台打印机保修期内的质量问题和返修次数);另一份文件记录了公司最主要的竞争对手在前一年售出的994773台激光打印机的保修信息。老板想让你对两家公司的打印机质量作一个对比。
1702642698
1702642699 幸运的是,你用来阅读卡戴珊婚姻生活报道的这台电脑里恰好安装了基本统计软件包,但应该从哪里入手呢?听从直觉的召唤一般来说总是没错的:描述任务的第一步通常是估量某套数据的“中间位置”,也就是统计学家所说的“集中趋势”。在比较的过程中,你所在公司打印机的质量体验总体如何?对于数据分布的“中间位置”,最基本的估量方法就是求平均数,具体到这个案例,我们需要知道你的公司和竞争对手公司平均每台打印机的质量问题分别有多少个。简单来说,你先数出保修期内所有记录在案的质量问题,再除以打印机的销售总数就可以了(相同的一台打印机在保修期内可能会出现多个质量问题)。之后再算出另一家公司的数据,这样就能得出一个重要的描述性数据:已售打印机的平均质量问题数。
1702642700
1702642701 假设竞争对手售出的打印机在保修期内平均每台反馈的质量问题数为2.8个,而你的公司所售打印机的平均质量问题数为9.1个,这样说够直白了吧?通过计算,两家公司共计100多万台打印机的信息就被你提炼浓缩为问题的核心所在:你公司的打印机经常出现问题。现在你就可以给你的老板发一封简短的邮件,用数据告诉他两家公司打印机的质量差距,然后点开之前的网页继续看那位名媛金•卡戴珊婚后第8天的生活。
1702642702
1702642703 或者,你也可以等会儿再浏览网页。刚才谈到数据分布的“中间位置”时我并没有展开,其实所谓的平均数、平均值在这里是有一些问题的,即它们容易受到远离中心区域的“异常值”的干扰而出现失真。为了能够让大家更好地理解,我来举个例子,在西雅图的一家中档酒吧的吧台前,坐着10个人,他们每年的平均收入都是3.5万美元,也就是说,这组人的人均年收入为3.5万美元。这时候,比尔•盖茨走进了这家酒吧,肩膀上立着一只会说话的鹦鹉(其实这只鹦鹉与这个事例一点儿关系都没有,之所以要提一下鹦鹉是想给这个案例增加点儿乐趣),假设他在这个案例中的年收入为10亿美元。当比尔·盖茨在吧台前的第11把発子上坐下后,这组人的平均年收入便迅速上升到了将近9100万美元。很显然,之前的那10个人丝毫没有变得更富有(尽管比尔•盖茨很有可能会帮他们付一两次酒账,但仅此而已)。如果我说吧台前的这群人平均年收入为9100万美元,这句话在数据上是正确的,但同时也相当具有误导性。这里不是一个亿万富翁会经常光顾的酒吧,只不过正好有一群收入不高的普通人坐在了比尔•盖茨和他的会说话的鹦鹉旁边。平均数必须对“异常值”有足够的敏感性,这也是为什么我们不应该用人均收入来衡量美国中产阶级的经济健康状况。因为在收入分配的顶端,有着一群收入暴涨的美国人——公司高管、对冲基金经理,以及像德瑞克•基特这样的运动员,普通美国人的收入会被这些巨富们的光环掩盖,就像一群失意的普通人坐在比尔·盖茨身边一样。
1702642704
1702642705 出于这个原因,我们还有一个数据可以用来表示分配的“中间位置”,但与平均数有所不同,这个中间位置就是中位数。中位数正好将一组数字一分为二,1/2位于中位数之前,另外1/2位于中位数之后(如果遇上一组数字的数量为偶数,那么中位数就是中间两个数的平均值)。回到刚刚酒吧的那个例子,原先坐在吧台前的10个人的年均收入中位数为3.5万美元,当比尔•盖茨和他的鹦鹉入座之后,这11个人的年收入中位数依然为3.5万美元。如果你将他们按照收入多少来排座的话,那么坐在第6把発子上的人的收入就代表了整组人收入的中位数。假如此时沃伦•巴菲特走了进来并坐在了比尔·盖茨的身边,他们的中位数还是不会改变。[③]
1702642706
1702642707 如果一组数据分布中没有特别离谱的异常值,那么它们的中位数和平均数将会是差不多的。下图中,我模拟了一张对手公司打印机质量数据的统计图,需要特别注意的是,我列出了“频数分布”的数据。每台打印机出现质量问题的次数被依次排列在X轴上,每根柱子的高度代表售出的这批打印机中出现相应数量质量问题的打印机占总数的百分比,即Y轴上的频数,例如,在保修期内,36%的打印机出现过两次质量问题。这一数据分布涵盖了所有可能出现的质量问题的数量,包括零故障,因此所有频数相加的结果肯定等于1(或100%)。
1702642708
1702642709
1702642710
1702642711
1702642712 每台打印机的质量问题
1702642713
1702642714 图2-1 对手公司打印机质量问题频数分布
1702642715
1702642716 由于上图的数据分布情况基本上是对称的,因此平均数和中位数两者相对接近。坐标轴的右边还有一小部分故障数量较多的打印机,这些异常值将会拉高平均数,但是对中位数没有影响。假如在你准备将质量统计结果发给老板之前,你决定对两家公司打印机的质量问题求一下中位数,在敲击几下键盘之后,你得出了结果。对手公司的质量投诉中位数为2,而你所在公司的这一数字则为1。
1702642717
[ 上一页 ]  [ :1.702642668e+09 ]  [ 下一页 ]