打字猴:1.7010393e+09
1701039300
1701039301
1701039302 你也可以对第一章开头提到的所谓“1924届耶鲁毕业生的高收入”考究一番,他们究竟用的是哪一种平均数?
1701039303
1701039304
1701039305
1701039306
1701039307 统计数据会说谎:让你远离数据陷阱 [:1701039013]
1701039308
1701039309 统计数据会说谎:让你远离数据陷阱
1701039310
1701039311
1701039312
1701039313
1701039314
1701039315 统计数据会说谎:让你远离数据陷阱
1701039316
1701039317 报纸上大字标题历历在目:用户反映,使用多克斯牙膏后蛀牙减少了23%!你也不想遭受这23%的痛苦,所以你继续往下读。接着你发现,这个结论来自某个“独立”实验室,并且还附有注册会计师的证明。你还有什么不放心的吗?
1701039318
1701039319 但显而易见,你不是一个容易上当受骗的人,也并非过于乐观,你的经验告诉你——某种牙膏不会比其他牙膏好很多。那么,多克斯公司的人是怎么得出这个结论的?他们明目张胆地说谎并且还能得逞吗?不,他们不必说谎,还有更简单、更有效的方法。
1701039320
1701039321 这个例子中主要的技巧在于使用了有限的样本——也就是说数据不够充分,但对多克斯公司的人来说却是恰到好处。如果你看见小字印刷的部分,你会发现参加测试的用户仅有12人。(你还得感谢多克斯公司给了你这个冒险的机会。有些广告商会直接略去这些信息,就连最资深的统计学家也猜不透他们到底使用的是哪种诡计。多克斯公司使用的12人样本还不算太糟。几年前,市场上出现过一种“科尼斯博士”牌的牙粉,该产品声称“在治疗龋齿方面效果显著”。该产品中含有尿素,实验证明尿素对治疗龋齿的确有效。但是,这个实验的结果先入为主,而且只做了6个个案测试,这使得整个实验成了一个无稽之谈。)
1701039322
1701039323 但是让我们回过头看看,多克斯公司如何轻而易举地就做出了一个毫无破绽的大字标题,还附有权威证明。让一个小组的人数清自己的蛀牙数量,然后坚持在6个月内使用多克斯牙膏,这必然会出现下列三种情况的其中之一:蛀牙明显增多、明显减少和没有变化。如果得出第一种或第三种结果,多克斯公司就要把这个数据归档(放到看不见的某个地方),然后接着实验。在机缘巧合之下,他们迟早都会得出一个重大成果,这个成果值得登报,甚至用整版广告刊出。无论测试者使用的是多克斯牙膏或是小苏打,哪怕用的还是他们以前的洁牙剂,都会出现这个结果。
1701039324
1701039325 使用规模较小的实验小组的关键意义在于:如果实验组的规模过大,那么碰巧之下产生的结果会是微不足道的,甚至不值得用大字标题刊出。试想一个只减少了2%蛀牙的牙膏销量能有多好?
1701039326
1701039327 在样本规模很小的情况下,怎样才能在巧合之下得出一个说明不了任何问题的结果?你可以亲自动手做一个花费无几的小实验来验证一下。抛出一个硬币,有几次它落地时会头像朝上?大家都知道,这个概率当然是50%。
1701039328
1701039329 那么,让我们来检验一下。刚才我抛了10次硬币,其中有8次头像朝上,这证明了抛硬币时头像朝上的可能性会有80%。好吧,牙膏的统计数据也是如此。现在,你自己试试。你也许会得到一个一半对一半的结果,也许你不会;你的结果很可能像我的一样,远非一半对一半这么简单。但如果你有足够耐心能抛上1 000次硬币,你多半(尽管不一定)就能得出一个非常接近50%的结果——这个结果才是最真实的概率。只有试验的样本数目足够庞大时,平均数定律才会是一个有用的描述或猜测。
1701039330
1701039331
1701039332
1701039333
1701039334
1701039335
1701039336
1701039337 那么,多少样本就够了呢?这个问题很微妙。这取决于你抽样研究的样本人数和种类。而且有时,样本中单位的数量看上去已经很多,但实际却不足。
1701039338
1701039339 这有一个很好的例子来证明这个结论,这个例子与几年前的小儿麻痹疫苗试验有关。这个试验的规模非常大,几乎与医学实验的规模相当:一个地区的450名儿童注射了小儿麻痹疫苗,另有680名儿童作为对照没有接受注射。不久之后,该地区出现了传染病。注射过疫苗的儿童中没有一个患上小儿麻痹症。
1701039340
1701039341 但是,对照组中也没有儿童患病。在设立这个实验项目时,实验者忽视或者假装不知道一个事实——小儿麻痹症的发病率很低。在一般情况下,这么大规模的群体中只可能出现两例患病者。因此,从一开始这个实验就注定毫无意义。如果想获得任何有意义的结论,实验组需要用比这个群体多15~20倍的儿童做样本。
1701039342
1701039343 许许多多转瞬即逝的医学发现都是这样产生的。正如一位医师所说:“赶紧使用新的方法,要不就迟了。”
1701039344
1701039345
1701039346
1701039347
1701039348 这种情况并非医学界独有。由于受到的公众压力过大且新闻报道过于草率,医学治疗经常未经证实就被报道,尤其是在公众需求很大而且数据背景模糊不清时。曾一度非常流行的流感疫苗和最近的抗组胺剂便是如此。许多无法治本的“治疗措施”很快就被广泛使用,但事实上,他们连疾病的原理都还没弄清楚,也缺乏一定的逻辑。其实,如果时间足够,一场感冒自己就会痊愈。
1701039349
[ 上一页 ]  [ :1.7010393e+09 ]  [ 下一页 ]