打字猴:1.70264289e+09
1702642890
1702642891 这一对看似矛盾的观点取决于我们如何定义美国制造业的“健康状况”。从生产和所售商品的总价值——产出来看,美国的制造业自2000年以来一直保持稳定增长,直到2008年的经济大衰退才遭受重创,而此后又出现了强劲反弹。这一点与美国中情局的《世界概况》里的数据相吻合,美国是世界上第三大制造业出口国,排在中国和德国之后。如今,美国依然是一个制造业大国。
1702642892
1702642893 但《经济学人》杂志刊登的曲线图上还有一条曲线,展示了美国制造业的就业状况。美国制造部门的岗位数量一直处于下降之中,在过去10年时间里有差不多600万人丢了饭碗。这两个故事~加的产出和减少的工作岗位——共同组成了关于美国制造业的一个完整的故事。美国制造业的生产力在不断提升,也就是说,工厂可以通过雇用更少的工人来完成更多的产出。这一点从国际竞争的角度来说是有利的,因为美国制造的商品相比低工资国家来说更具市场竞争力(与一家仅能支付时薪两美元的公司抗衡的方式之一,就是提高生产效率,让自己的公司在支付时薪40美元的同时,将工人的生产效率提高到对手公司的20倍)。如果这样的
1702642894
1702642895 话,制造行业所需的岗位就会大大减少,这对于那些亟须这点儿工资养家糊口的失业工人来说是一个巨大的打击。
1702642896
1702642897 既然本书讲的是关于统计学而非制造业的知识,那么就让我们言归正传,来谈谈美国制造业的“健康状况”。如何评价一个行业是否健康,这一点量化起来似乎并不难,就看我们如何选择了,是选择以产出量还是就业率为衡量标准?在这个例子(以及许许多多其他的例子)中,最完整的故事往往都会包含两方面,《经济学人》在上图中就作了明智的示范。
1702642898
1702642899 即使我们对成功的衡量标准达成了某个共识,比如说学生的考试分数,仅此一项统计还是会有充裕的欺骗空间。举个例子,下面的两个陈述句都可以说是正确的,但看看你是否能够将这两者调和在一起。
1702642900
1702642901 政客甲(挑战者):“我们的教育水平正变得越来越糟!2013年有6成学校的考试成绩低于2012年。”
1702642902
1702642903 政客乙(在任者):“我们的教育水平正变得越来越好!2013年有8成学生的考试成绩高于2012年。”
1702642904
1702642905 给大家一点提示:并不是所有学校的学生人数都是一样的。如果我们回过头来再看这两句似乎相互矛盾的陈述,你会发现政客甲将学校当作其分析单位(“有6成学校……”),而政客乙则是将学生作为其分析单位(“有8成学生……”)。在统计学中,分析单位是作为比较或描述的对象而存在的——其中一位政客选择了学校的表现,而另一位政客选择了学生的表现。如果成绩上升的学生正好来自办学规模非常大的学校,那么大部分学生在学业上有所进步而大部分学校的成绩正在退步,这两者是完全有可能同时发生的。为了让这个例子更加直观,我们可以用美国各州的经济情况进行说明。
1702642906
1702642907 政客甲(平民主义者):“我们的经济一塌糊涂!2012年有30个州的收入都出现了下滑。”
1702642908
1702642909 政客乙(更接近精英派):“我们的经济走势一片光明。2012年有70%的美国人的收入都增加了。”
1702642910
1702642911 从这两句话中,我能读出的信息是:诸如纽约、加利福尼亚、得克萨斯、伊利诺伊等州的经济形势最好,而收入下滑的那30个州更有可能是规模比较小的州,如佛蒙特、北达科他、罗德岛等。由于各个州的面积大小不同,大部分州的经济下滑和大部分美国人的收入上升是完全有可能同时存在的。关键就在于分清分析单位,描述的对象到底是谁(或什么),以及不同的人口中的谁(或什么)是不是存在差异?刚刚举了两个虚构的例子,而接下来的这个例子是一个真实且至关重要的统计学问题:世界各地人民的收入不均衡因为全球化的到来是改善了,还是恶化了?一种理解是,全球化只是加剧了现有的收入不均状况,1980年时的富裕国家(以人均国内生产总值为参考)在之后的20年间的增长速度超过了贫困国家。富国会变得更富,这说明贸易、外包、外国投资以及其他全球化的组成部分沦为了发达国家扩大经济霸权的工具。
1702642912
1702642913 如果换一种分析单位,同样的数据也可以(也应该)以一种完全不同的方式来解读。我们不关心穷国,我们只关心穷人。恰巧世界上有绝对比例的穷人生活在中国和印度,这两个国家都是人口大国(人口数量均超过10亿),而且在1980年的时候这两个国家都处于相对贫穷的发展阶段。但是,在过去的几十年时间里,中国和印度的经济都经历了高速发展,这在很大程度上要归功于它们与世界上其他国家日益加深的经济一体化。《经济学人》这样评价中国和印度:“它们都是‘迅速的全球化者’。”考虑到我们的目的是改善人类本身的穷困,因而在衡量全球化给全世界穷人带来的影响时,将中国(13亿人口)和毛里求斯(130万人口)当成是比重相同的两个国家来看待是不合理的。
1702642914
1702642915 上述例子的分析对象应该是人,而不是国家。1980〜2000年这20年的时间到底发生了什么?回想一下刚刚那个虚构的学校例子。世界上的大部分穷人恰好都生活在两个大国里,而这两个大国在融入全球化的过程中都经历了经济的飞速发展。正确的分析得出了一个截然不同的结论:全球化有利于全世界的穷人。《经济学人》杂志指出:“如果你考虑的是人而不是国家,那么全球不平等现象正在迅速减少。”
1702642916
1702642917 美国的两家电信业巨头美国电话电报公司和威瑞森电信最近卷入了一场广告之争,说白了也是因为模棱两可的描述所引发的。这两家公司都提供移动通信服务,对于绝大多数的手机用户来说,他们最关心的问题无非就是服务网络的覆盖范围和通话质量,最不愿看见的就是在需要拨打或者接听电话时却没有信号。因此,从逻辑上讲,要比较这两家公司孰好孰坏,只要看它们各自通信网络的规模和质量就行了。为了迎合消费者对于更大、更好的网络覆盖的需求,两家公司在衡量这一看不见、摸不着的需求时采取了不同的分析指标。威瑞森电信公司发动了一场声势浩大的广告战略,四处兜售其无所不在的网络覆盖,给消费者留下这样一个印象:在辽阔的美国国土上,威瑞森电信公司的基站几乎遍布全美国的各个角落,而与之形成对比的,是美国电话电报公司的相对零碎的地理覆盖。威瑞森电信公司所选择的分析单位是网络覆盖的地理范围,这是因为这家公司的确在这方面要强一些。
1702642918
1702642919 与此同时,美国电话电报公司也发动了反击战,选择了另一个分析单位。在其巨大的广告牌上赫然写着“美国电话电报公司能够满足97%的美国人的通信需求”,注意这里的用词是“美国人”,而不是“美国”。美国电话电报公司所强调的重点在于,绝大多数的美国人并不住在蒙大拿州的偏远乡村或是亚利桑那州的沙漠之中,既然美国的人口在地理上来说并不是平均分布的。这则广告的言下之意就是,一个好的通信
1702642920
1702642921 服务网络的关键就在于,将服务重点放在那些手机用户真正生活和工作的区域,而不是他们偶尔才会去野炊的地方。但由于我经常要回新罕布什尔的乡下,因此在这个问题上,我可能还是会选择威瑞森电信公司作为我的移动电话服务商。
1702642922
1702642923 我们的“老朋友”平均数和中位数同样会被心术不正的人利用。在上一章的内容中我们介绍了这两个概念,希望大家还能回忆起来,无论是平均数还是中位数,都是衡量一组数据的“中间位置”或“中心趋势”。平均数就是所有数据求和之后再除以个数(3、4、5、6、102的平均数是24)。中位数就是一组数据最中间的那个点,有一半数据位于这个点之前,有一半数据位于这个点之后(3、4、5、6、102的中位数是5)。现在,聪明的读者一定会注意到24和5之间存在着巨大的差异。所以,如果出于某种考虑,想要让这组数据在描述时显得数值大一些,那么我会选择求它们的平均数;但如果我想让数值看上去小一些,我肯定会将关注点放在中位数上。
1702642924
1702642925 现在,我们来看一下这在现实生活中是怎么操作的。以美国前总统小布什的减税政策为例,根据小布什政府的说法,这一政策将惠及绝大多数的美国家庭。相关政府官员指出,在这项政策推行之后,将会有9200万美国人享受减税待遇,人均减税额超过1000美元(具体数字应该是1083美元)。但这个关于减税政策的概括准确吗?《纽约时报》评价说:“数据本身并没有撒谎,只不过有些数据没有发出声音罢了。”
1702642926
1702642927 是不是会有9200万美国人将享受减税待遇?答案是肯定的。
1702642928
1702642929 那么,这些人中的大部分人都可以少缴纳约1000美元的税款吗?不是的。因为减税额的中位数还不足100美元。
1702642930
1702642931 只有数量相对少的巨富们才有资格享受大额减税,而正是这些人拉高了平均值,让人均减税额看起来比绝大多数美国人真正享受到的要高。中位数对异常值并不敏感,因此在这个例子中,如果要看小布什政府的减税政策对普通家庭的影响,中位数可能会是一个更为准确的描述性数据。
1702642932
1702642933 当然,也正是因为中位数对异常值不敏感,所以在某些情况下中位数同样会掩盖事实真相。假设你患上了某种不治之症,好消息是有一种新药刚刚研发出来,可能会对你的病产生积极疗效,坏消息是这种药的价格非常昂贵,而且副作用有很多。“真的有效吗?”你会对这种药充满疑惑。医生告诉你这种新药能够延长患此疾病的病人的“半数预期寿命”(也就是这些病人寿命的中位数)达两周。这根本就算不上是什么好消息,相比起那么贵的药价和不良反应,这两周的寿命不要也罢。同时,你的保险公司也拒绝为这项治疗承担费用。这是一个基于半数预期寿命的典型案例。
1702642934
1702642935 但在这个例子中,中位数或许会成为一个相当有误的数据。假设有许多病人对这种新药完全没反应,但同时也有相当数量(30%~40%)的病人完全治愈了。然而,后者的成功并不能在中位数中得到体现(虽然接受新药治疗的病人的平均寿命看上去非常令人振奋)。对你而言,与你自己高度相关、真正影响你决定的反而是那些接受了新药治疗并活了很多年的病人,也就是统计学里的异常值。而且,这并不是一个虚构的例子。进化生物学家史蒂芬·杰·古尔德曾经被诊断出患有某种癌症,他的半数预期寿命只有区区8个月。但20年过去了,古尔德死于另一种不相关的癌症。古尔德生前写过一篇非常有名的文章,题目为“中位数不等于真信息”,他在文章里指出了他只能活8个月是一个错误结论,并表示是他头脑里积累的统计学科学知识将他从错误的结论中拯救了出来。中位数的定义告诉我们有1/2的病人活不到8个月,但另外1/2的病人至少可以活8个月,或者比8个月
1702642936
1702642937 的时间更长(甚至是活到老),其死亡分布是“右偏”的。因此,如果你恰好患上了这种病,这一数据的意义要比一个单纯的技术术语丰富得多。
1702642938
1702642939 上述例子表明,中位数的决定性特征——不考虑数据距离中间位置有多远或是多近,而是关注它们是高于中间位置还是低于中间位置——反而成为它的弱点。与之相反,平均数恰恰是由数据分布决定的。从准确性的角度来看,平均数和中位数孰取孰舍,关键就在于这个数据分布里的异常值对事实的真相是起到扭曲的作用,还是其重要的组成部分。再次强调,判断比数学更重要。当然,没有人强制你一定得选中位数或平均数,任何一个复杂综合的数据分析都会包含这两个数据。所以,当只有其中一个数据出现的时候,你就要注意了,有可能只是出于言简意赅的考虑,但也有可能是某些人别有用心地想用数据“说服”你。
[ 上一页 ]  [ :1.70264289e+09 ]  [ 下一页 ]