打字猴:1.70264265e+09
1702642650
1702642651 做出正确的决定。
1702642652
1702642653 回答重要的社会问题。
1702642654
1702642655 认识并运用那些能够改善我们日常做法的模型,卖更多的尿片、抓更多的罪犯……
1702642656
1702642657 识别作弊者,让作恶者受到法律的审判。
1702642658
1702642659 评价政策、项目、药品、医疗程序和其他创新的有效性。
1702642660
1702642661 揪出那些运用相同的统计学手段干坏事的败类。
1702642662
1702642663 如果你在做这些事情的同时,还能得体地穿着波士西装或黑色紧身短裙散发魅力,那么你将会成为《犯罪现场调查:回归分析》的下一位明星。
1702642664
1702642665
1702642666
1702642667
1702642668 赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 [:1702642302]
1702642669 赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 第2章 描述统计学
1702642670
1702642671 你一直想买的一条连本裙,商场售价为4999元,先降价25%后再提价25%,你能算出这条连衣裙的最终售价是多少吗?
1702642672
1702642673 让我们先来思考两个看上去毫不相干的问题:(1)美国中产阶级的经济健康状况出了什么问题?(2)谁是有史以来最伟大的棒球运动员?
1702642674
1702642675 第一个问题极为重要,几乎构成了每次美国总统选举和社会运动的核心。中产阶级是美国的心脏,这一群体的经济状况是整个国家经济运行健康与否的关键性指标。相比之下,第二个问题就显得微不足道了,但棒球爱好者或许会持有不同的意见。这两个问题的共同之处就在于,当谈到运用数字和数字运算来总结原始数据的描述统计学时,它们都能用来说明其优点和局限所在。
1702642676
1702642677 如果我想证明德瑞克•基特是一位多么伟大的棒球手,我可以先让你坐下,然后向你娓娓道来基特在每场职业联盟比赛中的每一次击球,这就是原始数据,而且你需要花很长一段时间来消化,因为基特为纽约洋基队效力了17个赛季,上场击球的次数累计达到了9868次。
1702642678
1702642679 或许我也可以告诉你,在2011赛季结束的时候,德瑞克·基特的击球率为0.313,这是一个描述性数据,即一个“统计量”。
1702642680
1702642681 显而易见,击球率是对基特参加的所有17个赛季的简化统计,不仅易于理解,而且简单,但所能传达的信息却十分有限。棒球运动专家们的手中还有很多在他们看来比击球率更有价值的描述性数据。史蒂夫·莫耶是一家为客户提供大量原始数据的棒球信息解决方案公司的老总,之前我与他通了电话,特地向他咨询了几个问题:(1)哪些是评价棒球天才最重要的数据?(2)谁是史上最伟大的棒球手?在介绍完背景之后,我会向大家公布莫耶的答案。
1702642682
1702642683 现在让我们回到那个更加重要的问题上来,谈谈美国中产阶级的经济健康状况。当然如果我们能够找到类似于击球率这样言简意赅的,甚至更好的经济衡量指标,那是最理想的,我们需要一个简单且准确的数字,来说明一个典型的美国工人最近几年的经济状况,那些我们称之为“中产阶级”的人到底是更富了、更穷了,还是在原地踏步?一个合理的答案——肯定不会有“正确”的答案——就是,计算一代美国人(大约为30年)的人均收入,观察其变化趋势。人均收入是一个简单的平均数:总收入除以人口数,这样得出的结果就是美国的人均年收入从1980年的7787美元上升到2010年的26487美元。你看,真是一个值得庆祝的成就!
1702642684
1702642685 但只有一个小问题,我的计算方法在技术上是正确的,但是对于我一开始提出的那个问题来说,却是完全错误的。首先,上面的数据没有考虑通货膨胀因素,1980年的7787美元相当于2010年的约19600美元。但仅进行通货膨胀因素的处理还不够,更大的问题是,我们需要知道的是普通美国人的收入,而不是泛泛的人均收入,这两者有本质上的区别。
1702642686
1702642687 人均收入仅仅是将整个国家所有人的收入加起来再除以总人口数,我们无法从这个计算结果中得知各阶级收入所占的比例,无论是1980年还是2010年。正如“占领华尔街”运动的示威者所指出的,处于收入排行榜顶端的那1%的人,他们收入的爆炸性增长能够显着地拉动人均收入水平的整体提升,但同时不需要往剩下的那99%的人的口袋里多放一分钱。也就是说,在普通美国人的生活陷入水深
1702642688
1702642689 火热的同时,美国的人均收入依然能够节节攀升。
1702642690
1702642691 与之前有关棒球的问题一样,这次我又请教了专家,咨询我们应该如何看待美国中产阶级的经济问题。我找到了两位知名的劳动经济专家,其中包括美国总统奥巴马的高级经济顾问,询问他们会采用哪些描述性数据来评价一个典型美国人的经济状况是否良好。是的,作为读者,你也会读到他们的答案,不过在那之前,我们还是要对描述统计学有一个大体的认识,这样才能更好地理解专家的观点。
1702642692
1702642693 从棒球到收入,对大量信息进行归纳是处理数据时最基本的任务。美国有3.3亿名居民,一张记录每位美国人的姓名和收入的电子表格包含了我们衡量这个国家经济健康状况所需的所有信息,但这张信息过量的表格其实相当于什么都没有告诉我们。这就是让人觉得讽刺的地方:经常是数据越多,事实越模糊。因此,我们需要简化,将一系列复杂的数据序列减少为几个能够起到描述作用的数字,正如奥运会体操比赛中,我们将一套多难度组合的复杂动作浓缩为一个得分:9.8。
1702642694
1702642695 好消息是,这些描述性数据为我们提供了一个针对某一现象的可操作、有意义的概括,这也是本章所要讲的。但坏消息是,任何一种简化都会面临被滥用的危险。描述性数据就像是在线交友网站上的档案:虽然每一条都是准确的,但同时也相当具有误导性。
1702642696
1702642697 假设你在上班,此刻正无所事事地浏览网站,无意间你浏览了一篇报道,是关于美国娱乐界名媛金·卡戴珊和职业棒球手克里斯•亨弗里斯的感情生活的,这篇报道里详细记录了他们两个人72天“短命”婚姻的点点滴滴。你正津津有味地看到他们结婚第7天的生活时,你的老板手里拿着两份厚厚的文件出现在你的办公桌前。其中一份文件包含了你所在公司前一年售出的57334台激光打印机的保修信息(每售出一台打印机,文件中都会记录下这台打印机保修期内的质量问题和返修次数);另一份文件记录了公司最主要的竞争对手在前一年售出的994773台激光打印机的保修信息。老板想让你对两家公司的打印机质量作一个对比。
1702642698
1702642699 幸运的是,你用来阅读卡戴珊婚姻生活报道的这台电脑里恰好安装了基本统计软件包,但应该从哪里入手呢?听从直觉的召唤一般来说总是没错的:描述任务的第一步通常是估量某套数据的“中间位置”,也就是统计学家所说的“集中趋势”。在比较的过程中,你所在公司打印机的质量体验总体如何?对于数据分布的“中间位置”,最基本的估量方法就是求平均数,具体到这个案例,我们需要知道你的公司和竞争对手公司平均每台打印机的质量问题分别有多少个。简单来说,你先数出保修期内所有记录在案的质量问题,再除以打印机的销售总数就可以了(相同的一台打印机在保修期内可能会出现多个质量问题)。之后再算出另一家公司的数据,这样就能得出一个重要的描述性数据:已售打印机的平均质量问题数。
[ 上一页 ]  [ :1.70264265e+09 ]  [ 下一页 ]