1702642644
1702642645
但谁告诉过你,只要是使用统计学的人就一定是聪明又诚实的呢?正如之前所述,本书是向1954年发行、销量超过百万的经典作品《统计数字会撒谎》致敬的。现实就是,你既可以用统计数字撒谎,也有可能因为统计数字而不小心犯错。无论是哪种情况,统计分析所包含的数学精度都会被亵渎。本书将会带你认识那些最常见的统计学方面的错误和曲解,这样你就不至于犯了错还被蒙在鼓里。
1702642646
1702642647
那么,让我们再次回到本章中反复出现的那个问题:学习统计学的意义是什么?
1702642648
1702642649
总结大量的数据。
1702642650
1702642651
做出正确的决定。
1702642652
1702642653
回答重要的社会问题。
1702642654
1702642655
认识并运用那些能够改善我们日常做法的模型,卖更多的尿片、抓更多的罪犯……
1702642656
1702642657
识别作弊者,让作恶者受到法律的审判。
1702642658
1702642659
评价政策、项目、药品、医疗程序和其他创新的有效性。
1702642660
1702642661
揪出那些运用相同的统计学手段干坏事的败类。
1702642662
1702642663
如果你在做这些事情的同时,还能得体地穿着波士西装或黑色紧身短裙散发魅力,那么你将会成为《犯罪现场调查:回归分析》的下一位明星。
1702642664
1702642665
1702642666
1702642667
1702642669
赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 第2章 描述统计学
1702642670
1702642671
你一直想买的一条连本裙,商场售价为4999元,先降价25%后再提价25%,你能算出这条连衣裙的最终售价是多少吗?
1702642672
1702642673
让我们先来思考两个看上去毫不相干的问题:(1)美国中产阶级的经济健康状况出了什么问题?(2)谁是有史以来最伟大的棒球运动员?
1702642674
1702642675
第一个问题极为重要,几乎构成了每次美国总统选举和社会运动的核心。中产阶级是美国的心脏,这一群体的经济状况是整个国家经济运行健康与否的关键性指标。相比之下,第二个问题就显得微不足道了,但棒球爱好者或许会持有不同的意见。这两个问题的共同之处就在于,当谈到运用数字和数字运算来总结原始数据的描述统计学时,它们都能用来说明其优点和局限所在。
1702642676
1702642677
如果我想证明德瑞克•基特是一位多么伟大的棒球手,我可以先让你坐下,然后向你娓娓道来基特在每场职业联盟比赛中的每一次击球,这就是原始数据,而且你需要花很长一段时间来消化,因为基特为纽约洋基队效力了17个赛季,上场击球的次数累计达到了9868次。
1702642678
1702642679
或许我也可以告诉你,在2011赛季结束的时候,德瑞克·基特的击球率为0.313,这是一个描述性数据,即一个“统计量”。
1702642680
1702642681
显而易见,击球率是对基特参加的所有17个赛季的简化统计,不仅易于理解,而且简单,但所能传达的信息却十分有限。棒球运动专家们的手中还有很多在他们看来比击球率更有价值的描述性数据。史蒂夫·莫耶是一家为客户提供大量原始数据的棒球信息解决方案公司的老总,之前我与他通了电话,特地向他咨询了几个问题:(1)哪些是评价棒球天才最重要的数据?(2)谁是史上最伟大的棒球手?在介绍完背景之后,我会向大家公布莫耶的答案。
1702642682
1702642683
现在让我们回到那个更加重要的问题上来,谈谈美国中产阶级的经济健康状况。当然如果我们能够找到类似于击球率这样言简意赅的,甚至更好的经济衡量指标,那是最理想的,我们需要一个简单且准确的数字,来说明一个典型的美国工人最近几年的经济状况,那些我们称之为“中产阶级”的人到底是更富了、更穷了,还是在原地踏步?一个合理的答案——肯定不会有“正确”的答案——就是,计算一代美国人(大约为30年)的人均收入,观察其变化趋势。人均收入是一个简单的平均数:总收入除以人口数,这样得出的结果就是美国的人均年收入从1980年的7787美元上升到2010年的26487美元。你看,真是一个值得庆祝的成就!
1702642684
1702642685
但只有一个小问题,我的计算方法在技术上是正确的,但是对于我一开始提出的那个问题来说,却是完全错误的。首先,上面的数据没有考虑通货膨胀因素,1980年的7787美元相当于2010年的约19600美元。但仅进行通货膨胀因素的处理还不够,更大的问题是,我们需要知道的是普通美国人的收入,而不是泛泛的人均收入,这两者有本质上的区别。
1702642686
1702642687
人均收入仅仅是将整个国家所有人的收入加起来再除以总人口数,我们无法从这个计算结果中得知各阶级收入所占的比例,无论是1980年还是2010年。正如“占领华尔街”运动的示威者所指出的,处于收入排行榜顶端的那1%的人,他们收入的爆炸性增长能够显着地拉动人均收入水平的整体提升,但同时不需要往剩下的那99%的人的口袋里多放一分钱。也就是说,在普通美国人的生活陷入水深
1702642688
1702642689
火热的同时,美国的人均收入依然能够节节攀升。
1702642690
1702642691
与之前有关棒球的问题一样,这次我又请教了专家,咨询我们应该如何看待美国中产阶级的经济问题。我找到了两位知名的劳动经济专家,其中包括美国总统奥巴马的高级经济顾问,询问他们会采用哪些描述性数据来评价一个典型美国人的经济状况是否良好。是的,作为读者,你也会读到他们的答案,不过在那之前,我们还是要对描述统计学有一个大体的认识,这样才能更好地理解专家的观点。
1702642692
1702642693
从棒球到收入,对大量信息进行归纳是处理数据时最基本的任务。美国有3.3亿名居民,一张记录每位美国人的姓名和收入的电子表格包含了我们衡量这个国家经济健康状况所需的所有信息,但这张信息过量的表格其实相当于什么都没有告诉我们。这就是让人觉得讽刺的地方:经常是数据越多,事实越模糊。因此,我们需要简化,将一系列复杂的数据序列减少为几个能够起到描述作用的数字,正如奥运会体操比赛中,我们将一套多难度组合的复杂动作浓缩为一个得分:9.8。
[
上一页 ]
[ :1.702642644e+09 ]
[
下一页 ]