1702642631
好吧,有这么精彩的情节铺垫,难怪大家能意识到上述统计研究的重要性,但其实就算没有电视剧编剧的努力,统计研究本身也应该是精彩万分的。所有我们关心的社会挑战都少不了对大量数据集合的系统性分析(在很多时候,相关数据的收集是非常耗费财力和时间的工作,但在分析的过程中又起到了非常关键的作用,有关这一点会在第7章的内容中讲到)。刚刚关于《犯罪现场调查:回归分析》这部美剧的描述,我或许会对剧中的人物有所修饰,但对他们所要面对的那些问题的重要性,我是一点儿都不夸张的。有一篇学术文献就是以恐怖分子和“人肉炸弹”为主题的,而这类课题要是直接以人(或实验室老鼠)作为研究对象,是很难获得有用的结论的。我所在研究生院的一位统计学教授写了一本书,叫作《恐怖分子从何而来?》,该书对全球的恐怖主义袭击进行了数据统计,得出的结论之一是:恐怖分子不是极端贫困的人,受教育程度也不低。这位普林斯顿大学的经济学家阿兰·克鲁格总结道:“恐怖分子通常来自受过良好教育的中产阶级或高收入家庭。”
1702642632
1702642633
这是为什么呢?好吧,这暴露了回归分析的一个局限所在。我们可以通过统计分析来确定两个变量之间的强烈联系,但却无法解释为什么存在着这样的联系,在某些情况下,我们也无法确定这种联系是否为因果关系,也就是说,不知道其中一个变量的变化是否真的能引起另一个变量的变化。在恐怖主义的例子中,克鲁格教授推测,由于恐怖分子的行动一般都带有政治目的,所以只有受过高等教育和家境殷实的人才有最大的动力去改变社会,这些人尤其忍受不了某些政府部门对自由的压制,从而走向恐怖主义。根据克鲁格教授的研究,在其他因素相同的前提下,恐怖活动频繁出现的国家往往是那些实行高压政策的国家。
1702642634
1702642635
以上的这个讨论又把我们带回了那个问题:学习统计学的意义是什么?意义并不是要去做数学计算题,或在朋友和同事面前炫耀你学到的高级统计技巧,而是通过学习知识来认清我们的生活。
1702642636
1702642637
统计数字背后的谎言与真相
1702642638
1702642639
即使是在最理想的情况下,统计分析也很少告诉我们“真相”。我们通常所能做的,只是用并不完美的数据来就事论事,因此,我们总会看到有一些态度严谨的学术爱好者不同意某些统计结果或推论,而最为基本的就是对需要解答的问题本身产生质疑。体育爱好者们对于谁是“史上最佳的棒球运动员”这一问题似乎永远都达不成共识,因为对于“最佳”二字从来就没有一个客观的定义。令人眼花缭乱的描述性数据可以从某些角度对这个问题进行回答,但总是无法给出一个令所有人都信服的最终答案。正如本书下一章即将讲到的,还有很多具有深刻社会意义的问题都成为上述挑战的牺牲品。美国中产阶级的经济健康到底出了什么问题?问题的答案取决于我们如何定义“中产阶级”和“经济健康”。
1702642640
1702642641
我们所能收集的数据以及所能进行的实验的种类总归是有限的。阿兰·克鲁格对于恐怖分子的研究也没有夸张到用几十年的时间对几千名年轻人进行跟踪,从而确定他们中的哪些人最后变成了恐怖分子,因为这根本就是不可能实现的。我们同样也不能创造出两个完全相同的国家,其中一个国家在政治上实行高压管制,而另一个没有高压政策,然后比较发生在这两个国家的自杀式爆炸数量的多少。即使允许我们在人身上进行大量的控制实验,想要成功也不是一件容易的事,况且哪来那么多的资金?针对我们之前所提出的那个有关祈祷是否能减少术后并发症的问题,研究人员专门对此进行了大规模的调查分析,在这个过程中耗费了整整24万美元(至于结果如何,请你耐心读到第13章就知道了)。
1702642642
1702642643
美国国防部前部长唐纳德•拉姆斯菲尔德有一句名言:“战争是为了与真实存在的敌人作战,而不是与假想敌作战。”不论你如何看待拉姆斯菲尔德的这句话(以及他对伊拉克战争的解读),我们在研究领域同样用得上这句话。我们运用最好的数据、理论和资源来进行统计分析,但这一过程并不等同于加法或除法,正确的技术不一定能够得到“正确的”答案,电脑也不一定比人脑更加准确和无懈可击,统计分析更像是完成一个警探所要干的工作(我可没有为《犯罪现场调查:回归分析》打广告的意思)。数据总是想要告诉我们一些信息,但是面对这些信息,聪明又诚实的人经常有不同的看法。
1702642644
1702642645
但谁告诉过你,只要是使用统计学的人就一定是聪明又诚实的呢?正如之前所述,本书是向1954年发行、销量超过百万的经典作品《统计数字会撒谎》致敬的。现实就是,你既可以用统计数字撒谎,也有可能因为统计数字而不小心犯错。无论是哪种情况,统计分析所包含的数学精度都会被亵渎。本书将会带你认识那些最常见的统计学方面的错误和曲解,这样你就不至于犯了错还被蒙在鼓里。
1702642646
1702642647
那么,让我们再次回到本章中反复出现的那个问题:学习统计学的意义是什么?
1702642648
1702642649
总结大量的数据。
1702642650
1702642651
做出正确的决定。
1702642652
1702642653
回答重要的社会问题。
1702642654
1702642655
认识并运用那些能够改善我们日常做法的模型,卖更多的尿片、抓更多的罪犯……
1702642656
1702642657
识别作弊者,让作恶者受到法律的审判。
1702642658
1702642659
评价政策、项目、药品、医疗程序和其他创新的有效性。
1702642660
1702642661
揪出那些运用相同的统计学手段干坏事的败类。
1702642662
1702642663
如果你在做这些事情的同时,还能得体地穿着波士西装或黑色紧身短裙散发魅力,那么你将会成为《犯罪现场调查:回归分析》的下一位明星。
1702642664
1702642665
1702642666
1702642667
1702642669
赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 第2章 描述统计学
1702642670
1702642671
你一直想买的一条连本裙,商场售价为4999元,先降价25%后再提价25%,你能算出这条连衣裙的最终售价是多少吗?
1702642672
1702642673
让我们先来思考两个看上去毫不相干的问题:(1)美国中产阶级的经济健康状况出了什么问题?(2)谁是有史以来最伟大的棒球运动员?
1702642674
1702642675
第一个问题极为重要,几乎构成了每次美国总统选举和社会运动的核心。中产阶级是美国的心脏,这一群体的经济状况是整个国家经济运行健康与否的关键性指标。相比之下,第二个问题就显得微不足道了,但棒球爱好者或许会持有不同的意见。这两个问题的共同之处就在于,当谈到运用数字和数字运算来总结原始数据的描述统计学时,它们都能用来说明其优点和局限所在。
1702642676
1702642677
如果我想证明德瑞克•基特是一位多么伟大的棒球手,我可以先让你坐下,然后向你娓娓道来基特在每场职业联盟比赛中的每一次击球,这就是原始数据,而且你需要花很长一段时间来消化,因为基特为纽约洋基队效力了17个赛季,上场击球的次数累计达到了9868次。
1702642678
1702642679
或许我也可以告诉你,在2011赛季结束的时候,德瑞克·基特的击球率为0.313,这是一个描述性数据,即一个“统计量”。
1702642680
[
上一页 ]
[ :1.702642631e+09 ]
[
下一页 ]