1702642850
1702642851
在描述统计学中,方差很少被直接用于结论当中,往往是作为计算标准差的中间环节,而标准差才是一个更为直观的描述性数据。
1702642852
1702642853
标准差就是方差的平方根,计算公式如下:
1702642854
1702642855
假设有一组数量为n的数字X1、X2、X3……Xn,它们的平均值为μ。
1702642856
1702642857
它们的标准差:
1702642858
1702642859
1702642860
1702642861
1702642862
1702642863
1702642864
1702642866
赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 第3章 统计数字会撒谎
1702642867
1702642868
1950年人们的平均时薪是7美元,2012年人们的平均时薪是5美元,你觉得我们的工资水平涨了吗?
1702642869
1702642870
对于任何一个约会过的人来说,通常会对“他这人还不错”这类表述引起警惕,不是因为这句描述一定是错误的,而是因为这句话中还有其他潜台词,诸如其实这个人曾经坐过牢,或者他的离婚手续“还没完全办妥”等。我们丝毫不怀疑他的人品不错,只不过担心这么一句看似正确的陈述,其用意可能在于掩饰或淡化其他信息,从而误导听者(我想不会有人愿意与一个还没离婚或有重罪案底的人约会吧)。这类陈述严格来讲并不能被称作谎言,哪怕你跟人说了也不会被判伪证罪,但由于其准确性实在不敢恭维,所以最好不要相信。
1702642871
1702642872
统计学也是如此。虽然统计学是扎根于数学土壤里的,而且数学又是一门以准确着称的学科,但使用统计学来描述复杂现象的这一过程并不是精确无误的,这就为掩盖真相创造了大量的空间。马克•吐温有一句名言是这样说的,“谎言有三种:谎言、该死的谎言,以及统计学”。正如前一章所讲的,我们关心的大多数现象都可以用多种方式进行描述。如果对某一事物的描述存在多种方式(如“他人不错”或“他曾经因证券欺诈罪被判入狱”),那么我们所选择使用(或回避)的描述性数据就会影响别人对此事的印象。一些别有用心的人甚至会用光鲜的事实和数据来支持真假存疑或完全不成立的结论。
1702642873
1702642874
首先,我们应该弄明白“精确”和“准确”这两个词之间至关重要的区别。这两个词不可以相互替代。“精确”反映的是我们描述事物的精度,比如在描述你从家到公司的距离时,“41.6英里”就比“大约40英里”更精确,当然比“相当长的一段路”更精确一些。如果你问我最近的加油站在哪里,我会告诉你往东1.265英里,这就是一个精确的回答。但问题也随之而来:如果加油站在西边,那么这样的一个回答就是完全不准确的。也就是说,如果我告诉你:驾车大约10分钟,当你看到一家热狗售卖摊点时,加油站就在你的车右前方几百码的地方,如果你经过猫头鹰餐厅,就说明你的车开过了。这样的一个回答虽然没有“往东1.265英里”那么精确,但显然更好,因为我为你指明了前往加油站的正确方向。一个数据的准确与否表明了其与真相是否一致,因此将“精确”和“准确”混为一谈是要付出代价的。如果一个答案是准确的,那么在这个基础上当然是越精确越好;但如果答案从一开始就是不准确的,那么再精确也毫无意义。
1702642875
1702642876
让我意识到“精确”和“准确”的区别的,是一件发生在某个圣诞节的事情。那一天,我的妻子给我买了一个高尔夫测距仪,以便让我测量高尔夫球到球洞之间的距离。这个设备是通过某些激光原理进行工作的,我站在高尔夫球旁,然后将测距仪对准远处草地上的球洞杆,之后仪器上就会显示我应该击球的精确距离。相比起原始的标准码数标记来说,这个设备在性能方面有了很大的提升,因为原先我们只能通过看场上的标记来估算出测量位置与球场中心的距离(因此,测距仪让高尔夫球这项运动变得更加精确,但却更加不准确)。通过这个高尔夫测距仪,我终于知道了我的球离球洞还有147.2码。我期待这一先进的技术能够助我提升球技,但事实是,我打得越来越差。
1702642877
1702642878
这里有两个问题。第一,在我用了这个设备3个月的时间之后,我才猛然意识到计量单位是“米”而非“码”,因此,每一次看似准确的测量(147.2)都是错误的。第二,有些时候我会不小心地将激光束对准球场后面的树干,而非球洞杆,因此我的“完美”击球就会导致“完美”的结果——在空中划出一道漂亮的弧线,然后越过整个球场落入森林里。这个例子告诉我,即使是最为精确的计算或测量都应该检查一下是否符合常识。这一点适用于所有的统计分析。
1702642879
1702642880
再举一个严肃一点儿的例子。在2008年金融危机爆发之前,华尔街的许多风险管理模型都非常精确,“风险值”的概念让这些公司得以将其在不同情况下可能损失的资产进行精确量化,但问题是,这些超级复杂的模型就好比是将我的高尔夫测距仪的长度单位设置成“米”而不是“码”。数学运算极为复杂和晦涩,得出的结果精确到几乎没有人会怀疑其真实性。但嵌入这些模型中的有关全球市场可能会发生的风险假设其实是错误的,因而精确计算所得出的结论从根本上说就是不准确的,这不仅坑苦了华尔街,更是把全球经济都“拖下水”。
1702642881
1702642882
即使是最为精确和精密的描述性数据,都有可能面临一个根本性的问题:缺乏清晰度,不知道我们到底要定义、描述或解释什么。统计参数与失败的婚姻有着许多共同点,争论双方往往都说服不了对方。思考一个重要的经济问题:美国的制造业有多健康?人们经常能够听到,美国的制造业正在失去大量的工作机会,这些工作岗位源源不断地流向中国、印度以及其他低工资国家。人们还能够听到,美国的高科技制造业依然坚挺,美国依然是世界上最大的商品出口国之一。到底哪个说法才是对的?这就涉及统计学的另一个方面:对优质数据的合理分析能够有效地调和对立的观点。美国的制造业是有利可图且在国际上有竞争力,还是面临激烈的外国竞争正处于萎缩的过程之中?
1702642883
1702642884
答案是两者兼有。英国新闻杂志《经济学人》通过下面的曲线图将看上去似乎矛盾的两个观点融合在了一起,为我们展现出一幅关于美国制造业的趋势图。
1702642885
1702642886
1702642887
1702642888
1702642889
图3-1“铁锈地带”的复苏
1702642890
1702642891
这一对看似矛盾的观点取决于我们如何定义美国制造业的“健康状况”。从生产和所售商品的总价值——产出来看,美国的制造业自2000年以来一直保持稳定增长,直到2008年的经济大衰退才遭受重创,而此后又出现了强劲反弹。这一点与美国中情局的《世界概况》里的数据相吻合,美国是世界上第三大制造业出口国,排在中国和德国之后。如今,美国依然是一个制造业大国。
1702642892
1702642893
但《经济学人》杂志刊登的曲线图上还有一条曲线,展示了美国制造业的就业状况。美国制造部门的岗位数量一直处于下降之中,在过去10年时间里有差不多600万人丢了饭碗。这两个故事~加的产出和减少的工作岗位——共同组成了关于美国制造业的一个完整的故事。美国制造业的生产力在不断提升,也就是说,工厂可以通过雇用更少的工人来完成更多的产出。这一点从国际竞争的角度来说是有利的,因为美国制造的商品相比低工资国家来说更具市场竞争力(与一家仅能支付时薪两美元的公司抗衡的方式之一,就是提高生产效率,让自己的公司在支付时薪40美元的同时,将工人的生产效率提高到对手公司的20倍)。如果这样的
1702642894
1702642895
话,制造行业所需的岗位就会大大减少,这对于那些亟须这点儿工资养家糊口的失业工人来说是一个巨大的打击。
1702642896
1702642897
既然本书讲的是关于统计学而非制造业的知识,那么就让我们言归正传,来谈谈美国制造业的“健康状况”。如何评价一个行业是否健康,这一点量化起来似乎并不难,就看我们如何选择了,是选择以产出量还是就业率为衡量标准?在这个例子(以及许许多多其他的例子)中,最完整的故事往往都会包含两方面,《经济学人》在上图中就作了明智的示范。
1702642898
1702642899
即使我们对成功的衡量标准达成了某个共识,比如说学生的考试分数,仅此一项统计还是会有充裕的欺骗空间。举个例子,下面的两个陈述句都可以说是正确的,但看看你是否能够将这两者调和在一起。
[
上一页 ]
[ :1.70264285e+09 ]
[
下一页 ]