1702629776
统计学通过数据获取真知灼见并且得出结论,所用的工具是图表和计算。但是,这些工具要在符合常识的思考方式下使用。让我们先快速地了解一下新闻媒体、热门政治和社会争议的数据和统计研究方面的丰富成果,迈出学习统计学旅程的第一步。在后文中,我们将对序言里列举的案例展开更为详细的研究。
1702629777
1702629778
数据胜过逸闻
1702629779
1702629780
信仰不能取代算术。
1702629781
1702629782
亨利·斯宾塞
1702629783
1702629784
一则逸闻就是一个引人入胜的故事,它之所以能够深入人心,就在于其内容能打动人。逸闻可以让事情人性化,所以新闻报道通常以逸闻开头(和结尾)。但是逸闻无法用作决策的依据,正是因其内容生动,所以也常常误导我们。我们判断一个说法可信与否的依据,是它是否有数据支持,而不是它是否来自一个动人的故事。
1702629785
1702629786
住得离高压电缆太近,是否会导致儿童患上白血病?美国国家癌症研究所花了5年时间和500万美元,来收集有关这个问题的数据。结果发现,在白血病和暴露在高压电缆产生的电磁场之间没有任何相关性。和这篇研究报告同时发表在《新英格兰医学期刊》上的社评大声疾呼,是时候不要在这个问题上“再浪费我们的研究资源了”。
1702629787
1702629788
比较一下两则报道产生的影响:一则是有关历时5年、花费500万美元的调查研究的电视新闻报道,另一则是对一位能说会道的母亲的电视采访,她患有白血病的孩子恰好住在高压电缆附近。在公众心目中,几乎每次都是逸闻胜出。但事实上,我们应该心存疑问,因为数据要比逸闻更可靠,数据可以系统地描绘出整体图景,而不是聚焦于个别事件。
1702629789
1702629790
我还打算补充一句,“数据胜过自封的专家。”新闻行业通常所秉持的所谓公正的立场,就是各找一名正反方“专家”发表简短的评论。我们永远无法知道是否其中一方代表的是整个学科的共识,而另一方则是蝇营狗苟于某些特殊利益的骗子。媒体这种处理冲突的做法使现在的公众认为,对应每一位专家,都有一个持相反观点的专家。如果你真的关注某个话题,就应该尝试从数据中找出结论,还要判断数据的质量是否良好。很多问题确实还未得到解决,但也有很多问题,只在那些不重视证据的人的头脑中才悬而未决。你至少可以了解一下这些“专家”的背景,还有他们引用的研究结果是否曾刊载于那些文章必须先通过外部评审之后才能发表的严谨期刊上。
1702629791
1702629792
数据来源非常重要
1702629793
1702629794
数字不会说谎,但说谎的人会算计。
1702629795
1702629796
查尔斯·格罗夫纳
1702629797
1702629798
数据是数字,而数字总显得非常可信。其实有的数字是这样,有的却并非如此。任何统计研究中最重要的事,就是数据的来源。专栏作者安·兰德斯问她的读者,如果可以重新来过,是否还会生孩子?回答的人中有70%坚定地说“不要”。但是,你对于兰德斯从泪迹斑斑的信中,引述读者哭诉他们的孩子如何像野兽一样的话语,大可一笑置之。因为兰德斯从事的是娱乐业,她邀请读者回答这个问题时,回应最热烈的应该是那些后悔生孩子的父母。大部分的父母并不后悔生小孩。我们知道这个事实,是因为曾经有人对许多父母做过调查,而且为了规避偏见,受访的父母是随机抽取的。民意调查当然也不是没有瑕疵——这点我们后面会谈到——但它仍比邀请有一肚子不满的人来回答问题要好得多。
1702629799
1702629800
即使是信誉卓著的期刊,也不一定能对坏数据免疫。《美国医学会杂志》刊登过一篇文章,声称用管子将冷却的液体输送进胃里,可以缓解溃疡症状。这种治疗对病人的确有效果,但那只是因为病人通常会信服医生的权威性。也就是说,安慰剂(placebo,虚拟治疗)发生了作用。后来终于有人产生了质疑,做了有控制组的比较研究——有些病人接受了这项治疗,有些只使用了安慰剂——结果表明安慰剂组(控制组)的“表现”更好。“没有比较,就没有结论”,这是判断医学研究好坏的一个很好的依据。比如,我对于最近突然流行的“自然疗法”就心存怀疑。在这些疗法当中,极少会通过比较实验来证明它们不只是装在贴着漂亮植物图片的瓶子里售卖的安慰剂。
1702629801
1702629802
小心潜在变量
1702629803
1702629804
我的钱足够我这辈子花了,只要我不买东西。
1702629805
1702629806
杰基·梅森
1702629807
1702629808
有报道说,在美国,设有赌场的县犯罪率较高。有位大学教师说,在线上课的学生比在教室里上课的学生表现好。政府报告强调,受过良好教育的民众比受教育少的民众赚钱多。最好不要太快下结论,而要先问一句:“有没有什么是他们没告诉我的,却可以用来解释这些事?”
1702629809
1702629810
有赌场的县的确犯罪率较高,但是在城市或是较穷的县,犯罪率也比较高。什么样的县会开设赌场呢?这些县是否在开设赌场之前,犯罪率就已经很高了呢?在线上课的学生学得比较好,但是和在教室里上课的学生比起来,前者的年龄比较大,底子也比较好,因此他们表现好很正常。受教育程度高的人的确赚钱多,但受教育多的人和受教育少的人相比,平均来说前者的父母受的教育也较多,也比较有钱。而且,前者在更好的环境中长大,上更好的学校。这些有利条件让他们接受到更多的教育,即使他们不接受这么多教育,这些有利条件也可能会帮他们赚到很多钱。
1702629811
1702629812
以上这些案例,都涉及两个变量之间的相关性,并且引导我们得出结论,即其中一个变量影响了另一个变量。“赌场会增加犯罪率”和“想变富有就要多读点儿书”,是它们传达的信息。这些信息有可能是正确的,但我们看到的相关性,大部分说不定还可以由隐藏在背景中的一些变量来解释,比如开设赌场的县的本质,以及受教育程度高的人生来就具备的有利条件。好的统计研究会考虑许多的背景变量,这当然需要技巧,不过你至少可以找一找,看它们有没有这样做。
1702629813
1702629814
变异性无所不在
1702629815
1702629816
当事实改变时,我就改变主意。您呢?
1702629817
1702629818
约翰·梅纳德·凯恩斯
1702629819
1702629820
如果你的舌下温度超过37摄氏度,是不是就代表你在发烧呢?也许不是,每个人的“正常”体温都存在差异。你自己的体温在一天当中也会有变化,早上6点时稍高,下午6点时稍低。美国政府宣布上个月的失业率上升0.1个百分点,而新屋开工率下降3个百分点,导致股市波动。股市波动常常是不理性的。政府的数据是根据那些给出乐观预测的样本得出的,是好的估计,但不是百分之百的事实。同样的调查再做一遍,结果会有一些差别。和经济有关的因素原本就会上下波动,影响它的因素包括气候、罢工事件、节假日以及各式各样的其他原因。
1702629821
1702629822
很多人会像股市一样,对数据的一些微小变化做出过度反应,而事实上这些并不是实质性变化,根本微不足道。以下是全美最大的市场研究公司的领导人阿瑟·尼尔森的经验之谈:
1702629823
1702629824
太多商界人士对白纸黑字印出来的数字都深信不疑。他们认为数字就代表“事实”,让他们用“概率”的视角来看事情有点儿困难。他们不了解,数字只是一种简化的表示方法,它描述了一个范围,这个范围表明我们在现有情况下对某个问题的实际了解有多少。
1702629825
[
上一页 ]
[ :1.702629776e+09 ]
[
下一页 ]