1701024002
1701024003
下面,我们以管理中常用的逐条列举的形式给出推翻零假设的程序:
1701024004
1701024005
1.开始实验。
1701024006
1701024007
2.假定零假设为真,设p为观察结果中出现极端情况的概率(零假设前提下)。
1701024008
1701024009
3.数字p叫作p值。如果p值很小,我们就可以认为实验结果具有统计学显著性;如果p值很大,我们就得承认零假设还没有被推翻。
1701024010
1701024011
那么,p值多小的时候我们可以说它很小呢?在显著性与非显著性之间并没有一条泾渭分明的原则性分界线,但是传统观点认为p=0.05是临界点,这个传统观点始于费舍尔本人。
1701024012
1701024013
显著性检验体现了我们对不确定性的直觉推理,因此人们普遍接受这个方法。圣经密码至少在乍看上去时令人信服,是什么原因呢?这是因为在《托拉》无法预见未来这个零假设前提下,对于魏茨滕所发现的这类密码而言,其存在的可能性极低,p值(即发现大量等距字母序列,可以准确地对著名拉比进行人口统计分析的可能性)与0非常接近。
1701024014
1701024015
多种版本的神创论在时间上远早于费舍尔正式提出的这个检验方法。我们的世界包罗万象、秩序井然,如果我们设定的零假设为“这一切并不是某位首席设计师的杰作”,那么在这个前提下,出现这样一个世界的可能性实在是太小了!
1701024016
1701024017
首次尝试用数学语言做出这个论断的人是约翰·阿布斯诺特(John Arbuthnot)。阿布斯诺特是一位物理学家、讽刺作家、亚历山大·蒲柏(Alexander Pope)式的人物,还是一位数学爱好者。他研究1629~1710年的伦敦人口出生记录,发现了显著的规律性:在这81年间,每年出生的男孩都多于女孩。于是,阿布斯诺特提出了一个疑问:在上帝不存在、新生儿性别随机分布这个零假设前提下,出现这种巧合情况的概率是多少呢?假设在任一特定年份,伦敦新生人口中男孩多于女孩的概率为1/2,那么p值(即连续81年出生的男孩多于女孩的概率)为:
1701024018
1701024019
1/2×1/2×1/2×……×1/2
1701024020
1701024021
1701024022
81个1/2相乘的得数略小于,也就是说,几乎等于0。阿布斯诺特根据这个发现撰写并发表了一篇论文,论文的题目为“神圣天意的论据——从新生儿性别研究中发现的永恒规律”。
1701024023
1701024024
阿布斯诺特提出的这个论据受到了神学研究名流的普遍赞誉,并被他们反复引用。但是,其他数学家却迅速指出他的推理过程存在某些缺陷,其中最主要的问题是他的零假设不合理,即婴儿性别是随机确定的,生男孩与生女孩的概率相同。这两个概率一定是相同的吗?尼古拉斯·伯努利(Nicholas Bernoulli)提出了一个不同的零假设:婴儿性别是由偶然性决定的,是男孩的概率为18/35,是女孩的概率为17/35。与阿布斯诺特的零假设一样,伯努利的零假设也否认了神的存在,但是与统计数据极为吻合。如果我们将一枚硬币抛了82次,结果全为正面朝上,那么我们应该认为“这枚硬币有问题”,而不是“上帝青睐硬币的正面”。[5]
1701024025
1701024026
尽管阿布斯诺特的论证没有得到广泛认可,但是其中的精神却得以传承。阿布斯诺特不仅是圣经密码学术研究之父,而且对神学研究者影响极深。时至今日,神学研究者仍然认为数学研究证明上帝必然存在,理由是没有神的世界绝不可能是现在这样。
1701024027
1701024028
不过,显著性检验的对象不应仅仅是神学研究给出的各种辩词。从某种意义上讲,查尔斯·达尔文(Charles Darwin)——在神学研究者眼中,他就是一个粗野、邪恶的无神论者——在论证自己的研究成果时,也采用了基本相同的方式。
1701024029
1701024030
自然选择理论对上述几大类事实的解释非常完美,几乎可以肯定,错误的理论是不可能拥有如此令人满意的效果的。最近,有人质疑这是一种危险的论证方法,但是人们评判生活中一些常见事件时都会使用这种方法,而且伟大的自然哲学家们也经常采用这种方法。
1701024031
1701024032
换句话说,如果自然选择理论是错误的,那么我们面前的生物世界几乎不可能与该理论的预测完全一致。
1701024033
1701024034
费舍尔的贡献是把显著性检验变成了一种形式主义的手段,借助这个系统性的方法可以客观地分析实验结果的显著性(或非显著性)。近100年来,显著性检验一直是评估科研结果的标准方法。有一本权威教材把这个方法称作“心理学研究的支柱”,我们在判断实验成功与否时也以此为标准。我们所看到的医学、心理学或经济调查的研究结果,很有可能都经过了显著性检验。
1701024035
1701024036
但是,达尔文从“危险的论证方法”这个说法中看出人们心存疑虑,而且这种担忧从未消失。几乎自成为标准方法之日起,就一直有人认为这个方法是一个天大的错误。早在1966年,心理学家戴维·巴肯(David Bakan)就撰文讨论过这个“心理学危机”,巴肯认为这是“统计学理论的危机”。
1701024037
1701024038
显著性检验并不能告诉我们该显著性引发的心理现象具有何种特征……它的应用已经造成了大量问题……就像那个孩子大声说出皇帝其实什么也没穿一样,我们也需要“大声疾呼”,揭穿它的真相。
1701024039
1701024040
近50年过去了,尽管越来越多的孩子四处奔走,传播皇帝赤身裸体的消息,但是这位皇帝仍然一丝不挂地待在他的办公室里,继续寻欢作乐。
1701024041
1701024042
并不显著的显著性
1701024043
1701024044
显著性到底有什么问题呢?首先,这个名称并不恰当。数学与文字之间的关系颇为奇怪。数学研究论文的主要表述工具不是数字与符号,而是文字,这种现象有时会令外行感到惊讶。我们提到的数学对象往往是《韦氏词典》编纂者们漫不经心列出的一个个词条。新事物需要新词汇,面对这种情况,通常有两种解决办法。第一种做法是,我们另起炉灶创造新词。例如,cohomology(上同调)、syzygies(对点)、monodromy(单值)等,但这些新词会让我们的研究看上去令人生畏。与这种方法相比,第二种做法更常见。在我们察觉拟描述的数学对象与真实世界中的某个事物之间存在某种相似性之后,可以基于这种相似性使用已有词语来指代这些数学对象。例如,“group”(群),在数学家眼中确实指代一群事物,但是数学领域的“群”非常特别,例如整数群或者几何图形的对称操作群。数学上的群与“OPEC”(石油输出国组织)、“ABBA”(瑞典乐队组合)这类群体不同,它是指具有某种属性的事物组合:群中任意两个事物可以组合变成第三个事物。例如,两个数字可以相加,两个对称操作可以相继执行。[6]此外,“scheme”(模式)、“bundle”(丛)、“ring”(环)与“stalk”(茎)等数学对象也与这些词的本义相差甚远。有时我们选用的数学对象的名称具有田园生活的特点,例如,现代代数几何学中频繁使用的“fi eld”(场)、“sheaf”(层)、“kernel”(核)与“stalk”等。还有的时候,数学语言看上去似乎平淡无奇,但却令人十分头疼,例如,某个计算符号会“kill”(中止)某个进程,而“annihilate”(零化)这个词则更加时髦。有一次,一位同事在机场使用了数学领域中一个非常普通的词,说总有一天有必要把飞机“blow up”[7],它让我感到胆战心惊。
1701024045
1701024046
“Signifi cance”这个词也一样,在普通语言环境中,它是指“重要的”或“有意义的”。但是,科学家进行的显著性检验,目的并不是检测重要性。我们在测试新药的疗效时,零假设是“该药没有任何疗效”,因此,要推翻该零假设,我们仅需要证明该药物有疗效。但是,它的疗效可能非常小,如果按照非数学专业人士对疗效“显著性”的理解,那么这种药物可能会被评估为没有任何疗效。
1701024047
1701024048
“signifi cance”一词的两种含义会带来一系列后果,而不仅仅是让科研论文晦涩难懂。1995年10月18日,英国药品安全委员会(CSM)向20万名医生与保健人员发出了一封“致全体医生”的公开信,对某个品牌的第三代口服避孕药发出警告。信中称:“新的证据表明,在服用某些类型避孕药的人群中,患静脉血栓的风险增加了一倍。”静脉血栓可不能等闲视之,因为它会妨碍血液在静脉中的流动。如果血块摆脱束缚,就会随血液进入肺部形成肺栓塞,夺走人的生命。
1701024049
1701024050
这封“致全体医生”公开信随后立即安慰读者,称口服避孕药对大多数女性来说是安全的,除非医生建议停药,否则可继续服用。但是,由于标题中使用了“致命的药丸”这样的字眼,因此这些内容中的细节很容易被人忽视。10月19日,美联社在新闻报道的开头就指出:“英国政府在星期四发出警告,称150万名英国妇女服用的新型避孕药物可能会引发血栓……英国政府曾考虑召回这些药物,但最终没有形成决议,部分原因是某些妇女无法接受其他避孕药。”
1701024051
[
上一页 ]
[ :1.701024002e+09 ]
[
下一页 ]