1702642760
1702642761
1702642762
图2-3正态分布
1702642763
1702642764
中间的那条线代表平均值,通常由希腊字母μ表示;标准差通常由希腊字母σ表示;每条色带均代表一个标准差。
1702642765
1702642766
描述统计学经常会比较两个数据或数量。例如,我比我的哥哥高1英寸,今天的气温比历史平均值高9摄氏度等。这些比较之所以易于理解,是因为我们大部分人都对其中所包含的数量单位并不陌生。当形容身高时,1英寸并不是很多,因此你可以推测我和我的哥哥的身高看上去其实差不多;相反的,无论是在一年中的哪个季节哪个时刻,9摄氏度都是一个非常引人注目的温差,因此我们可以说那一天比平时要热很多。但如果我告诉你,某品牌麦片中A配方的钠含量要比B配方高31毫克,除非你恰好懂得很多关于钠的知识(以及该品牌麦片的食用分量),否则上面这句话并不能给你带来特别具体的信息。又或者我对你说,我的外甥阿尔在2013年比2012年少挣了5.3万美元,我是不是应该对他表示担心呢?阿尔也许是一位对冲基金经理,5.3万美元只不过是他年薪的一个零头。
1702642767
1702642768
在钠含量和收入这两个例子里,我们都缺少背景资料。赋予这些比较型数据意义的最简单的方法就是使用百分比。如果我跟你说,某品牌麦片A配方的钠含量比B配方高了50%,我的外甥阿尔在2013年的收入与2012年相比减少了47%,是不是就更容易理解了?用百分比来表示变化,可以让我们有一种用刻度测量的感觉。
1702642769
1702642770
或许你在小学四年级的时候就已经学会如何计算百分比了,所以如果你想跳过接下来的几段文字,我表示理解,但在此之前,请帮我做一道简单的练习题。假设某家百货商场正在出售一款连衣裙,售价为每条100美元,随后该商场的副经理将所有商品的价格都下调了25%。但这位副经理很快就被解雇了,原因就是有人举报他在一家酒吧里跟比尔•盖茨喝酒。新来的副经理将所有商品的价格又上调了25%。那么那一款连衣裙最终的售价为多少?如果你说(或想说)100美元的话,那我建议你还是不要跳过接下来的任何一段话了。
1702642771
1702642772
连衣裙的最终售价应该是93.75美元。这不只是一个在鸡尾酒派对上用来逗乐和炫耀学问的把戏。百分数是一个非常有用的工具,但同时也容易产生混淆,甚至具有欺骗性。计算百分数差(或变化)的公式是这样的:(新数据-原数据)/原数据。分子(分数的上半部分)就是变化的绝对值,分母(分数的下半部分)的作用是将这一变化与原数据进行比较,也就是为变化添加背景。我们可以用这个简洁明了的公式解答刚刚提出的那个问题。前任副经理将每条价格为100美元的连衣裙的价格下调25%,那么原价100美元的25%就是25美元,这一折扣导致连衣裙的售价降为75美元。将这些数字带人公式也可以得到相同的结果:(100美元-75美元)/100美元=0.25=25%。
1702642773
1702642774
当连衣裙的价格为75美元时,新来的副经理将价格上调25%,这里就是许多人容易犯错的地方。上浮的25%参照的是连衣裙的新价格,而非最开始的价格,所以上涨的价格应该是25%x75美元=18.75美元,最后的售价为75美元+18.75美元=93.75美元(而不是很多人认为的100美元)。这个例子的关键在于,百分数变动表示的是某个数字相对于其他事物的变化值,因此我们最好先弄清楚其他事物到底是什么。
1702642775
1702642776
我曾投资过大学室友开的一家公司。由于这是一家私营公司,因此在向股东披露信息方面并没有什么硬性要求。转眼几年过去了,我的这笔投资的命运如何,我毫不知情,我的这位前室友对于这个话题也是只字不提。最后,我终于收到了一封信,信上说公司的利润相比前一年提高了46%。但到底提高了多少美元,信上没写,也就是说我还是完全不知道自己的投资到底表现如何。假设上一年公司赢利27美分——基本等同于没有,那么这一年公司的赢利就为39美分——还是基本等同于零,但就从27美分到39美分来说,公司的利润的确上涨了46%,这一点没有问题。如果告诉你公司两年的累计赢利还不够买一杯星巴克咖啡,那么收到这样的股东信件可真够晦气的。
1702642777
1702642778
但是,我的室友是这样的人吗?显然不是。他最终把公司卖掉了,换回了数亿美元的资金,我的那份投资的回报率也高达100%。但你还是不知道我最后赚了多少钱,因为我并没有告诉你我最初投了多少钱,这不是更加能证明我的观点吗?读到这里,你是不是对什么是“其他事物”有点儿感觉了?
1702642779
1702642780
需要注意的是,百分差和百分率是不同的,我们千万不能混为一谈。比率通常会以百分数的形式体现,例如伊利诺伊州的消费税率为6.75%,我出书所得版税的15%要支付给我的代理商,诸如此类的比率都是基于某个定量来计算的,如所得税就是基于收入来征收的。可见百分率可以上浮,也可以下调,但百分差的描述方式就完全不同了,虽然两者的表述形式十分接近。最近就有一个绝佳的例子:伊利诺伊州的个人所得税税率由原来的3%上调到了5%。我们看到有两种不一样的说法来描述这一税率的变化,而且这两者在技术上都是正确的。主张并促成这次个税改革的民主党(正确无误地)指出,伊利诺伊州的个人所得税税率上升了两个百分点,从3%上涨到5%,共和党(同样正确无误地)指出,该州的所得税税率上升了67%,我们可以用刚刚学会的公式验证一下,(5-3)/3=2/3,即67%。
1702642781
1702642782
美国民主党将重点放在了税率的绝对变化上,而共和党则更关注税率的百分差。如刚才所说,两党在技术上都是正确的,但我可能会觉得共和党的描述更加准确地传达了税率变化所带来的影响,因为我以后要缴纳给政府的个人所得税——一笔我真的会在乎的钱——正如共和党所说的那样,确确实实上涨了67%。
1702642783
1702642784
许多现象都无法用一个数据来完美描述。就比如橄榄球比赛四分卫亚伦•罗杰斯的传球距离为365码,但没有触地得分;而另一个四分卫佩顿•曼宁的传球距离仅为127码,却完成了3次触地得分。曼宁创造了更多的得分,但按照常理,罗杰斯的长传球让他的队友得以突破对方球员的防守、在场上跑得更远。这两位四分卫谁的表现更好?在第1章中,我介绍了美国职业橄榄球联盟釆用“传球效绩指数”来解决这一统计难题,它是一个描述性数据,而且是由许多其他描述性数据构成的。我们将这些从不同角度对比赛进行评价的数据浓缩成一个数字,并用这个数字进行比较,得出四分卫在某个比赛日中的排名,甚至整个职业生涯的四分卫排名等结论。如果棒球比赛也有一个类似的指数,那么本章一开始提出的历史上最伟大的棒球手是谁的问题是不是就有答案了?
1702642785
1702642786
将一系列复杂的信息浓缩成一个数字,这是所有指数都具备的优点。我们可以因此对原先无法展开简单比较的事物进行排名,从四分卫的表现到大学的优劣,再到选美比赛。在美国小姐选美比赛中,所有胜出者的成绩都是由5个部分的成绩组成的:个人面试、泳装展示、晚礼服展示、才艺表演和现场问答(“亲善小姐”称号的评选则单独由参赛者们相互评选产生)。
1702642787
1702642788
同时,将一系列复杂的信息浓缩成一个数字,这也是所有指数的缺点所在。我们有各种各样的方式来浓缩信息,每种方式都有可能导致一个不同的结果。马尔科姆•格雷德威尔在《纽约客》上发表了一篇批评性文章,用睿智的语言犀利地指出我们对排名的狂热(他尤其对大学排名嗤之以鼻)。格雷德威尔以《名车志》杂志对3款跑车的排名为例,这3款跑车分别是保时捷卡曼、雪佛兰科尔维特和莲花路特斯。《名车志》设计了一个计算公式,其中包含了21项评价指标,最终保时捷卡曼跑车拔得头筹。但格雷德威尔却指出,“外观”项在公式中的分量仅占到了4%,这一指标对于评价跑车来说简直低得离谱儿。如果将跑车外观的权重上调到25%,那么莲花路特斯跑车将会是第一名。
1702642789
1702642790
接下来,格雷德威尔还指出,跑车标价的分量在《名车志》的评价过程中相对来说也被低估了,如果上调标价比率(这样就能保证价格、外观和性能这三项指标在评价时各分秋色),那么雪佛兰科尔维特就将成为新的“跑车之王”。
1702642791
1702642792
所有指数均取决于其构成的描述性数据以及它们的权重,任何一点儿微小的变化都有可能引起结果的改变,因此,即使是最终得到的那个指数,可能是一种情况不完美但有现实意义的,也可能是完全不合理的。举一个前一种情况的例子——联合国的人类发展指数(HDI),这是一个比单纯的收入更加广泛的经济健康衡量指数。人类发展指数将收入作为评价的组成部分之一,同时还考虑到了寿命和受教育程度。美国在人均经济产出方面位居世界第11位(排在卡塔尔、文莱、科威特等几个石油国家之后),但在人类发展方面跃居全球第4名。的确,如果人类发展指数里的组成指标发生变化的话,最终的排名也会不一样,但可以肯定的是,只要是符合常理的调整,无论如何都不会出现津巴布韦超越挪威的结果。当我们想要了解全世界各地人民生活水平的差异时,人类发展指数为我们提供了一个简单方便且相对准确的排名。
1702642793
1702642794
描述统计学为我们所关心的现象打开了一扇窗,让我们更加接近事实的真相。好了,现在我们终于可以回到本章一开始提出的那些问题了。谁是史上最伟大的棒球运动员?结合本章所讲的主要内容,我们首先会问:哪些描述性数据最能帮助我们回答上述问题?根据棒球信息解决方案公司总裁史蒂夫•莫耶的说法,评价任何一个非投手运动员的3个最有价值的数据(除了年龄)是:
1702642795
1702642796
1. 上垒率(OBP或OBA),就是球员上垒的概率,包括保送上垒在内(这一点是不包含在击球率的计算内的)。
1702642797
1702642798
2. 长打率(SLG),就是衡量球员的长打得分能力的指标。一垒记1分,二垒记2分,三垒记3分,本垒记4分。也就是说,如果一个球员在5次打数中,打出了一个一垒和一个三垒,则其长打率为(1+3)/5=80%。
1702642799
1702642800
3. 打数(AB),构成上垒率和长打率的比较背景。球技不佳的球员也会有发挥超常的时候,但仅限于某几场比赛。只有通过打数的积累,将成千上万次的击打表现综合起来,我们才能认定谁是真正的超级球员。
1702642801
1702642802
在莫耶看来,最伟大的棒球运动员非贝比·鲁斯莫属,因为贝比拥有无可比拟的击球和投球能力。直到今天,贝比·鲁斯创下的69%的长打率依然是大联盟球员难以撼动的生涯纪录。
1702642803
1702642804
那么,美国中产阶级的经济健康状况又是如何呢?我再一次将问题抛给了专家。我给杰夫·戈洛格(我在芝加哥大学的同事)和阿兰•克鲁格(研究恐怖分子的普林斯顿大学经济学家、美国总统奥巴马的高级经济顾问)发送了一封邮件,他们基本上给出了相同的答案,只有一些细节上的区别。要评价美国“中间阶级”的经济状况,我们需要了解(通货膨胀调整后的)工资中位数在过去几十年中的变化,他们还建议我留意一下处于第25百分位数和第75百分位数人群的工资变化,因为这两拨人通常被认为是中产阶级中的高收入和低收入人群。
1702642805
1702642806
还有一组必须分清楚的概念就是,在评价经济状况的过程中,不能将收入和工资等同起来。这两者是不同的,工资是我们付出的固定份额的劳动所得,如时薪或周薪;收入是全部所得的总和,来源有多种。如果一个工人找了一份兼职,或者加班很多个小时,那么这个人的收入会增多,但工资却没有发生变化。这就说明,即使一个人的工资下降,他的收入依然有可能上升,如果他加班足够多的话。但如果这些人不得不付出更多的劳动来取得更多的收入,那么我们很难评价他们的整体生活质量到底是更好还是更糟。因此,相比于收入来说,工资是评价美国人劳动收益的一个更加直观的指标,工资越高,工人们每工作1小时能领到的钱也就越多。说了那么多,下面我们来看一幅过去30年美国人工资水平的变化图,在图中
1702642807
1702642808
我还加入了第90百分位数人群的数据,以此对比相同时间内中产阶级工人和10%最富裕人群的工资增长水平。
1702642809
[
上一页 ]
[ :1.70264276e+09 ]
[
下一页 ]