打字猴:1.70264275e+09
1702642750
1702642751 不同群体对象的数据分布的离散情况是不同的。可以这么说,航班上250名乘客体重的标准差要比250名马拉松运动员的大,如果将两组人的体重数据画成频数分布图的话,前者肯定要比后者更“胖”(分散)。对于任何一组数据来说,只要知道了平均数和标准差,我们就能进行简单的统计学分析,得出一些可以信赖的结论。比如,我告诉你美国SAT数学考试的平均分为500分,标准差为100,与身高的例子一样,大部分参加考试的学生的成绩都会在一个标准差范围内浮动,比如400〜600分。那么,你觉得又有多少名学生的成绩会高于720分呢?估计不会有很多,因为这比平均分髙出两个标准差还要多。
1702642752
1702642753 事实上,我们能做的不仅只是“学生人数不会有很多”这样的回答。现在就向大家隆重介绍统计学里最重要、最有用、最常见的分布之一:正态分布。数据的分布一般来说都是对称的,以平均数为中轴呈现类似于“钟”的形状,我想大家对此应该不会感到陌生。
1702642754
1702642755 正态分布可用于描述许多常见的现象。如果我们要给爆米花的“爆炸”过程画一张频数分布图,那么分布图的情况应该是:一开始的时候只有少量玉米粒爆开,每秒可能只有一两颗玉米粒爆开;在10~15秒之后,玉米粒就进入了疯狂“爆炸”的阶段,然后慢慢地,每秒爆开的玉米粒的数量又变少了,重新回到了一开始每秒只有一两颗玉米粒爆炸的状态。美国成年男性的身高分布也是对称的,要么比70英寸的平均身高略高,要么略低,而且越接近平均身高,人数越多。每一次SAT考试都经过精心设计,以得到一个平均分为500分、标准差为100的成绩的正态分布。根据《华尔街日报》的报道,美国人甚至连在购物商场停车都呈现出正态分布,正对着商场人口的地方停车数量最多,也就是正态曲线的“峰值”,在人口左右两侧的停车数量逐渐变少,即曲线两端下滑的“尾巴”。
1702642756
1702642757 正态分布的“美”好比迈克尔·乔丹在球场上的力量、灵巧和优雅,它来自于一个事实,那就是我们通过定义就能够清楚地知道,有多少数值位于平均值一个标准差的范围之内(68.2%),有多少数值位于两个标准差的范围以内(95.4%),还有多少数值位于3个标准差的范围以内(99.7%),以此类推。这听上去似乎挺傻的,但事实上这就是统计学的基础之一。本书将会在之后的篇章中谈到更深层次的问题时再对正态分布展开讨论。
1702642758
1702642759
1702642760
1702642761
1702642762 图2-3正态分布
1702642763
1702642764 中间的那条线代表平均值,通常由希腊字母μ表示;标准差通常由希腊字母σ表示;每条色带均代表一个标准差。
1702642765
1702642766 描述统计学经常会比较两个数据或数量。例如,我比我的哥哥高1英寸,今天的气温比历史平均值高9摄氏度等。这些比较之所以易于理解,是因为我们大部分人都对其中所包含的数量单位并不陌生。当形容身高时,1英寸并不是很多,因此你可以推测我和我的哥哥的身高看上去其实差不多;相反的,无论是在一年中的哪个季节哪个时刻,9摄氏度都是一个非常引人注目的温差,因此我们可以说那一天比平时要热很多。但如果我告诉你,某品牌麦片中A配方的钠含量要比B配方高31毫克,除非你恰好懂得很多关于钠的知识(以及该品牌麦片的食用分量),否则上面这句话并不能给你带来特别具体的信息。又或者我对你说,我的外甥阿尔在2013年比2012年少挣了5.3万美元,我是不是应该对他表示担心呢?阿尔也许是一位对冲基金经理,5.3万美元只不过是他年薪的一个零头。
1702642767
1702642768 在钠含量和收入这两个例子里,我们都缺少背景资料。赋予这些比较型数据意义的最简单的方法就是使用百分比。如果我跟你说,某品牌麦片A配方的钠含量比B配方高了50%,我的外甥阿尔在2013年的收入与2012年相比减少了47%,是不是就更容易理解了?用百分比来表示变化,可以让我们有一种用刻度测量的感觉。
1702642769
1702642770 或许你在小学四年级的时候就已经学会如何计算百分比了,所以如果你想跳过接下来的几段文字,我表示理解,但在此之前,请帮我做一道简单的练习题。假设某家百货商场正在出售一款连衣裙,售价为每条100美元,随后该商场的副经理将所有商品的价格都下调了25%。但这位副经理很快就被解雇了,原因就是有人举报他在一家酒吧里跟比尔•盖茨喝酒。新来的副经理将所有商品的价格又上调了25%。那么那一款连衣裙最终的售价为多少?如果你说(或想说)100美元的话,那我建议你还是不要跳过接下来的任何一段话了。
1702642771
1702642772 连衣裙的最终售价应该是93.75美元。这不只是一个在鸡尾酒派对上用来逗乐和炫耀学问的把戏。百分数是一个非常有用的工具,但同时也容易产生混淆,甚至具有欺骗性。计算百分数差(或变化)的公式是这样的:(新数据-原数据)/原数据。分子(分数的上半部分)就是变化的绝对值,分母(分数的下半部分)的作用是将这一变化与原数据进行比较,也就是为变化添加背景。我们可以用这个简洁明了的公式解答刚刚提出的那个问题。前任副经理将每条价格为100美元的连衣裙的价格下调25%,那么原价100美元的25%就是25美元,这一折扣导致连衣裙的售价降为75美元。将这些数字带人公式也可以得到相同的结果:(100美元-75美元)/100美元=0.25=25%。
1702642773
1702642774 当连衣裙的价格为75美元时,新来的副经理将价格上调25%,这里就是许多人容易犯错的地方。上浮的25%参照的是连衣裙的新价格,而非最开始的价格,所以上涨的价格应该是25%x75美元=18.75美元,最后的售价为75美元+18.75美元=93.75美元(而不是很多人认为的100美元)。这个例子的关键在于,百分数变动表示的是某个数字相对于其他事物的变化值,因此我们最好先弄清楚其他事物到底是什么。
1702642775
1702642776 我曾投资过大学室友开的一家公司。由于这是一家私营公司,因此在向股东披露信息方面并没有什么硬性要求。转眼几年过去了,我的这笔投资的命运如何,我毫不知情,我的这位前室友对于这个话题也是只字不提。最后,我终于收到了一封信,信上说公司的利润相比前一年提高了46%。但到底提高了多少美元,信上没写,也就是说我还是完全不知道自己的投资到底表现如何。假设上一年公司赢利27美分——基本等同于没有,那么这一年公司的赢利就为39美分——还是基本等同于零,但就从27美分到39美分来说,公司的利润的确上涨了46%,这一点没有问题。如果告诉你公司两年的累计赢利还不够买一杯星巴克咖啡,那么收到这样的股东信件可真够晦气的。
1702642777
1702642778 但是,我的室友是这样的人吗?显然不是。他最终把公司卖掉了,换回了数亿美元的资金,我的那份投资的回报率也高达100%。但你还是不知道我最后赚了多少钱,因为我并没有告诉你我最初投了多少钱,这不是更加能证明我的观点吗?读到这里,你是不是对什么是“其他事物”有点儿感觉了?
1702642779
1702642780 需要注意的是,百分差和百分率是不同的,我们千万不能混为一谈。比率通常会以百分数的形式体现,例如伊利诺伊州的消费税率为6.75%,我出书所得版税的15%要支付给我的代理商,诸如此类的比率都是基于某个定量来计算的,如所得税就是基于收入来征收的。可见百分率可以上浮,也可以下调,但百分差的描述方式就完全不同了,虽然两者的表述形式十分接近。最近就有一个绝佳的例子:伊利诺伊州的个人所得税税率由原来的3%上调到了5%。我们看到有两种不一样的说法来描述这一税率的变化,而且这两者在技术上都是正确的。主张并促成这次个税改革的民主党(正确无误地)指出,伊利诺伊州的个人所得税税率上升了两个百分点,从3%上涨到5%,共和党(同样正确无误地)指出,该州的所得税税率上升了67%,我们可以用刚刚学会的公式验证一下,(5-3)/3=2/3,即67%。
1702642781
1702642782 美国民主党将重点放在了税率的绝对变化上,而共和党则更关注税率的百分差。如刚才所说,两党在技术上都是正确的,但我可能会觉得共和党的描述更加准确地传达了税率变化所带来的影响,因为我以后要缴纳给政府的个人所得税——一笔我真的会在乎的钱——正如共和党所说的那样,确确实实上涨了67%。
1702642783
1702642784 许多现象都无法用一个数据来完美描述。就比如橄榄球比赛四分卫亚伦•罗杰斯的传球距离为365码,但没有触地得分;而另一个四分卫佩顿•曼宁的传球距离仅为127码,却完成了3次触地得分。曼宁创造了更多的得分,但按照常理,罗杰斯的长传球让他的队友得以突破对方球员的防守、在场上跑得更远。这两位四分卫谁的表现更好?在第1章中,我介绍了美国职业橄榄球联盟釆用“传球效绩指数”来解决这一统计难题,它是一个描述性数据,而且是由许多其他描述性数据构成的。我们将这些从不同角度对比赛进行评价的数据浓缩成一个数字,并用这个数字进行比较,得出四分卫在某个比赛日中的排名,甚至整个职业生涯的四分卫排名等结论。如果棒球比赛也有一个类似的指数,那么本章一开始提出的历史上最伟大的棒球手是谁的问题是不是就有答案了?
1702642785
1702642786 将一系列复杂的信息浓缩成一个数字,这是所有指数都具备的优点。我们可以因此对原先无法展开简单比较的事物进行排名,从四分卫的表现到大学的优劣,再到选美比赛。在美国小姐选美比赛中,所有胜出者的成绩都是由5个部分的成绩组成的:个人面试、泳装展示、晚礼服展示、才艺表演和现场问答(“亲善小姐”称号的评选则单独由参赛者们相互评选产生)。
1702642787
1702642788 同时,将一系列复杂的信息浓缩成一个数字,这也是所有指数的缺点所在。我们有各种各样的方式来浓缩信息,每种方式都有可能导致一个不同的结果。马尔科姆•格雷德威尔在《纽约客》上发表了一篇批评性文章,用睿智的语言犀利地指出我们对排名的狂热(他尤其对大学排名嗤之以鼻)。格雷德威尔以《名车志》杂志对3款跑车的排名为例,这3款跑车分别是保时捷卡曼、雪佛兰科尔维特和莲花路特斯。《名车志》设计了一个计算公式,其中包含了21项评价指标,最终保时捷卡曼跑车拔得头筹。但格雷德威尔却指出,“外观”项在公式中的分量仅占到了4%,这一指标对于评价跑车来说简直低得离谱儿。如果将跑车外观的权重上调到25%,那么莲花路特斯跑车将会是第一名。
1702642789
1702642790 接下来,格雷德威尔还指出,跑车标价的分量在《名车志》的评价过程中相对来说也被低估了,如果上调标价比率(这样就能保证价格、外观和性能这三项指标在评价时各分秋色),那么雪佛兰科尔维特就将成为新的“跑车之王”。
1702642791
1702642792 所有指数均取决于其构成的描述性数据以及它们的权重,任何一点儿微小的变化都有可能引起结果的改变,因此,即使是最终得到的那个指数,可能是一种情况不完美但有现实意义的,也可能是完全不合理的。举一个前一种情况的例子——联合国的人类发展指数(HDI),这是一个比单纯的收入更加广泛的经济健康衡量指数。人类发展指数将收入作为评价的组成部分之一,同时还考虑到了寿命和受教育程度。美国在人均经济产出方面位居世界第11位(排在卡塔尔、文莱、科威特等几个石油国家之后),但在人类发展方面跃居全球第4名。的确,如果人类发展指数里的组成指标发生变化的话,最终的排名也会不一样,但可以肯定的是,只要是符合常理的调整,无论如何都不会出现津巴布韦超越挪威的结果。当我们想要了解全世界各地人民生活水平的差异时,人类发展指数为我们提供了一个简单方便且相对准确的排名。
1702642793
1702642794 描述统计学为我们所关心的现象打开了一扇窗,让我们更加接近事实的真相。好了,现在我们终于可以回到本章一开始提出的那些问题了。谁是史上最伟大的棒球运动员?结合本章所讲的主要内容,我们首先会问:哪些描述性数据最能帮助我们回答上述问题?根据棒球信息解决方案公司总裁史蒂夫•莫耶的说法,评价任何一个非投手运动员的3个最有价值的数据(除了年龄)是:
1702642795
1702642796 1.   上垒率(OBP或OBA),就是球员上垒的概率,包括保送上垒在内(这一点是不包含在击球率的计算内的)。
1702642797
1702642798 2.   长打率(SLG),就是衡量球员的长打得分能力的指标。一垒记1分,二垒记2分,三垒记3分,本垒记4分。也就是说,如果一个球员在5次打数中,打出了一个一垒和一个三垒,则其长打率为(1+3)/5=80%。
1702642799
[ 上一页 ]  [ :1.70264275e+09 ]  [ 下一页 ]