打字猴:1.70264284e+09
1702642840 由于在计算方差时对每个数值和平均值之差都进行了平方,因此那些远离平均值的数值即异常值就会被放大,下面以学生身高为例。
1702642841
1702642842 表2-2身高统计
1702642843
1702642844
1702642845
1702642846
1702642847 *与平均值之差的绝对值表示两个数值之间的距离,不考虑方向(正负)因素,因此绝对值总是为正。这里的绝对值表示的是每个人的身高与平均身高之间相差的英寸数。
1702642848
1702642849 两组学生的平均身高都是70英寸,每一组学生个体与平均值的差异之和也都是14,到目前为止,这两组学生身高的离散程度是完全相同的。但是,第二组学生身高的方差要大些,这是因为萨哈和纳西索两个学生的身高数值距离平均值比其他学生都要远,从而导致了方差计算公式中的分子值变大。
1702642850
1702642851 在描述统计学中,方差很少被直接用于结论当中,往往是作为计算标准差的中间环节,而标准差才是一个更为直观的描述性数据。
1702642852
1702642853 标准差就是方差的平方根,计算公式如下:
1702642854
1702642855 假设有一组数量为n的数字X1、X2、X3……Xn,它们的平均值为μ。
1702642856
1702642857 它们的标准差:
1702642858
1702642859
1702642860
1702642861
1702642862
1702642863
1702642864
1702642865 赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 [:1702642303]
1702642866 赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 第3章 统计数字会撒谎
1702642867
1702642868 1950年人们的平均时薪是7美元,2012年人们的平均时薪是5美元,你觉得我们的工资水平涨了吗?
1702642869
1702642870 对于任何一个约会过的人来说,通常会对“他这人还不错”这类表述引起警惕,不是因为这句描述一定是错误的,而是因为这句话中还有其他潜台词,诸如其实这个人曾经坐过牢,或者他的离婚手续“还没完全办妥”等。我们丝毫不怀疑他的人品不错,只不过担心这么一句看似正确的陈述,其用意可能在于掩饰或淡化其他信息,从而误导听者(我想不会有人愿意与一个还没离婚或有重罪案底的人约会吧)。这类陈述严格来讲并不能被称作谎言,哪怕你跟人说了也不会被判伪证罪,但由于其准确性实在不敢恭维,所以最好不要相信。
1702642871
1702642872 统计学也是如此。虽然统计学是扎根于数学土壤里的,而且数学又是一门以准确着称的学科,但使用统计学来描述复杂现象的这一过程并不是精确无误的,这就为掩盖真相创造了大量的空间。马克•吐温有一句名言是这样说的,“谎言有三种:谎言、该死的谎言,以及统计学”。正如前一章所讲的,我们关心的大多数现象都可以用多种方式进行描述。如果对某一事物的描述存在多种方式(如“他人不错”或“他曾经因证券欺诈罪被判入狱”),那么我们所选择使用(或回避)的描述性数据就会影响别人对此事的印象。一些别有用心的人甚至会用光鲜的事实和数据来支持真假存疑或完全不成立的结论。
1702642873
1702642874 首先,我们应该弄明白“精确”和“准确”这两个词之间至关重要的区别。这两个词不可以相互替代。“精确”反映的是我们描述事物的精度,比如在描述你从家到公司的距离时,“41.6英里”就比“大约40英里”更精确,当然比“相当长的一段路”更精确一些。如果你问我最近的加油站在哪里,我会告诉你往东1.265英里,这就是一个精确的回答。但问题也随之而来:如果加油站在西边,那么这样的一个回答就是完全不准确的。也就是说,如果我告诉你:驾车大约10分钟,当你看到一家热狗售卖摊点时,加油站就在你的车右前方几百码的地方,如果你经过猫头鹰餐厅,就说明你的车开过了。这样的一个回答虽然没有“往东1.265英里”那么精确,但显然更好,因为我为你指明了前往加油站的正确方向。一个数据的准确与否表明了其与真相是否一致,因此将“精确”和“准确”混为一谈是要付出代价的。如果一个答案是准确的,那么在这个基础上当然是越精确越好;但如果答案从一开始就是不准确的,那么再精确也毫无意义。
1702642875
1702642876 让我意识到“精确”和“准确”的区别的,是一件发生在某个圣诞节的事情。那一天,我的妻子给我买了一个高尔夫测距仪,以便让我测量高尔夫球到球洞之间的距离。这个设备是通过某些激光原理进行工作的,我站在高尔夫球旁,然后将测距仪对准远处草地上的球洞杆,之后仪器上就会显示我应该击球的精确距离。相比起原始的标准码数标记来说,这个设备在性能方面有了很大的提升,因为原先我们只能通过看场上的标记来估算出测量位置与球场中心的距离(因此,测距仪让高尔夫球这项运动变得更加精确,但却更加不准确)。通过这个高尔夫测距仪,我终于知道了我的球离球洞还有147.2码。我期待这一先进的技术能够助我提升球技,但事实是,我打得越来越差。
1702642877
1702642878 这里有两个问题。第一,在我用了这个设备3个月的时间之后,我才猛然意识到计量单位是“米”而非“码”,因此,每一次看似准确的测量(147.2)都是错误的。第二,有些时候我会不小心地将激光束对准球场后面的树干,而非球洞杆,因此我的“完美”击球就会导致“完美”的结果——在空中划出一道漂亮的弧线,然后越过整个球场落入森林里。这个例子告诉我,即使是最为精确的计算或测量都应该检查一下是否符合常识。这一点适用于所有的统计分析。
1702642879
1702642880 再举一个严肃一点儿的例子。在2008年金融危机爆发之前,华尔街的许多风险管理模型都非常精确,“风险值”的概念让这些公司得以将其在不同情况下可能损失的资产进行精确量化,但问题是,这些超级复杂的模型就好比是将我的高尔夫测距仪的长度单位设置成“米”而不是“码”。数学运算极为复杂和晦涩,得出的结果精确到几乎没有人会怀疑其真实性。但嵌入这些模型中的有关全球市场可能会发生的风险假设其实是错误的,因而精确计算所得出的结论从根本上说就是不准确的,这不仅坑苦了华尔街,更是把全球经济都“拖下水”。
1702642881
1702642882 即使是最为精确和精密的描述性数据,都有可能面临一个根本性的问题:缺乏清晰度,不知道我们到底要定义、描述或解释什么。统计参数与失败的婚姻有着许多共同点,争论双方往往都说服不了对方。思考一个重要的经济问题:美国的制造业有多健康?人们经常能够听到,美国的制造业正在失去大量的工作机会,这些工作岗位源源不断地流向中国、印度以及其他低工资国家。人们还能够听到,美国的高科技制造业依然坚挺,美国依然是世界上最大的商品出口国之一。到底哪个说法才是对的?这就涉及统计学的另一个方面:对优质数据的合理分析能够有效地调和对立的观点。美国的制造业是有利可图且在国际上有竞争力,还是面临激烈的外国竞争正处于萎缩的过程之中?
1702642883
1702642884 答案是两者兼有。英国新闻杂志《经济学人》通过下面的曲线图将看上去似乎矛盾的两个观点融合在了一起,为我们展现出一幅关于美国制造业的趋势图。
1702642885
1702642886
1702642887
1702642888
1702642889 图3-1“铁锈地带”的复苏
[ 上一页 ]  [ :1.70264284e+09 ]  [ 下一页 ]