打字猴:1.702631721e+09
1702631721
1702631722 • 用“比较”环节的设计来确保除了实验中的处理方式外,其他所有因素对所有组的作用都相同。
1702631723
1702631724 • 反应变量的差异必是处理方式的效应所致。
1702631725
1702631726 我们用随机抽样的方法分组,以避免系统性偏差。例如,在镰刀型细胞贫血症的研究中,医生有可能会下意识地把最严重的病人分到羟基脲组,期望新药能对他们有所帮助。这样一来,就会使实验结果产生偏差。从实验对象中抽取简单随机样本作为第一组,会使得每个实验对象被选入第一组或第二组的概率相等。我们可以预期两组在各方面都很接近,例如年龄、病情严重程度、抽不抽烟,等等。
1702631727
1702631728 如果不采用随机分配的方法,潜在变量的影响会是怎样呢?例如,安慰剂效应就是这样的潜在变量,这种效应只在这种疗法被用在实验对象身上之后才会发生。如果各个组在一年中的不同时间接受治疗,那么有的组会在流感高发季节接受治疗,而有的组则不是,那么流感就是一个潜在变量。在随机比较实验的设计中,我们努力使这些潜在变量对于所有组的作用都是相似的。比如,力争使他们同样暴露在安慰剂效应的影响下,或者所有组在同一时间段内接受治疗,同样暴露在流感的风险中。
1702631729
1702631730 如果我们告诉你医学研究者对于随机比较实验接受得很慢,应该不会让你感到惊讶,因为许多医生认为一项新疗法对病人是否有用,他们“只要看看”就会知道。但事实并非如此。有很多医疗方法只经过单轨实验后就被普遍采用,但后来有人起疑,在进行了随机比较实验后,却发觉其效用充其量就是安慰剂。这种例子不胜枚举。在医学文献里我们可以找到经过适当的随机比较实验检验过的疗法,以及经过“历史对照组”(historical control)实验检验过的疗法。历史对照组实验不是把新疗法的效果和控制组做比较,而是和过去类似的病人在治疗后的效果做比较。在被纳入实验的56种新疗法当中,用历史对照组实验来检验时,有44种被证明有效。然而,在经过适当的随机比较实验的检验后,只有10种被证明有效。目前,法律明文规定,任何新药都必须用随机比较实验来证明其安全性和有效性。但是对于其他治疗方法,比如手术,则没有这类法律条文。在谷歌上搜索“历史对照组实验”可以找到近期采用了历史对照实验检验法的其他疗法。
1702631731
1702631732 我们必须注意的是,和随机抽样一样,随机比较实验也要遵守“机会法则”(law of chance)。就像抽取一个选民的简单随机样本时,有可能运气不好,抽到的人几乎都来自同一党派;随机分配实验对象时,也可能运气不好,把抽烟的人几乎全放在一组。我们知道,如果抽取很大的随机样本,样本的组成和总体相近的概率就会很大。同理,如果我们找来很多实验对象,利用随机抽样方法分组,就有可能与实际的组成情况类似。实验对象较多,实验组的“机会变异性”(chance variation)就比较小,实验结果的机会变异性也会比较小。“用足够多的实验对象”、“同时比较多种处理方式”、“随机化”,同为统计实验设计的基本原则。
1702631733
1702631734 统计实验设计的原则
1702631735
1702631736 统计实验设计的基本原则如下:
1702631737
1702631738 • 要控制潜在变量对反应变量的影响,最简单的方法就是同时比较至少两种处理方式。
1702631739
1702631740 • 随机化:用随机抽样的方法把实验对象分配成不同的组。
1702631741
1702631742 • 每组的实验对象要足够多,以降低实验结果的机会变异性。
1702631743
1702631744 统计学显著性
1702631745
1702631746 机会变异性的存在促使我们更仔细地了解随机比较实验的设计逻辑。我们不能够轻易地下结论,只要羟基脲组和控制组的患者剧痛发作的次数有差别,就一定是因为羟基脲的疗效。就算两组用完全相同的疗法,机会差异性仍会存在,随机只能消除组与组之间的系统差异。
1702631747
1702631748 统计学显著性
1702631749
1702631750 我们观察到的效果如果大到某种程度,光靠机会产生这种结果的概率很小时,我们就称此结果具有统计学显著性(statistical significance)。
1702631751
1702631752 羟基脲组和控制组的剧痛发作的平均次数之间的差别具有“高度的统计学显著性”(highly statistically significance),这意味着这种差别几乎不可能全是由机会性因素造成的。而且,我们的确有强有力的证据证明羟基脲对镰刀型细胞贫血症患者的疗效胜过安慰剂。在很多不同研究领域的调查报告中,你都会看到“具有统计学显著性”这个说法。这是在告诉你,对于想要证明的结果,调查人员已经找到好的统计学证据了。
1702631753
1702631754 当然,实验的实际结果比起统计学显著性更重要。在镰刀型细胞贫血症的实验当中,实验组在一年时间里剧痛发作的平均次数是2.5次,而控制组是4.5次。这么大的差距,对患者来说是很重要的结果。如果只是2.5和2.8的差别,那么即便具有统计学显著性,这个结果也没什么意义。
1702631755
1702631756 造成多大的影响才会被视为具有统计学显著性,这取决于有多少实验对象。如果实验对象的数量很大,即便是一个比较小的、可能被视为不重要的结果,也可能具有统计学显著性。所以,在镰刀型细胞贫血症的实验中,每年平均2.51次剧痛与每年平均2.50次剧痛相比,也可以具有统计学显著性,如果实验对象的数量足够大。如果实验对象人数很少,有可能观察到的较大影响只具有偶然性,我们将在本书的第三部分和第五部分充分讨论这个问题。
1702631757
1702631758 所以在评估统计学显著性时,了解实验对象的数量也是有必要的。也许对于统计学显著性来说,一个更好的术语可能是“统计上不相似”(statistiacally dissimilar)。
1702631759
1702631760 好的观察研究
1702631761
1702631762 按时去教堂会延长人的寿命吗?医生在治疗心脏病时,会歧视女性患者吗?一边开车一边打手机,会增加出车祸的概率吗?这些都是因果问题(cause-and-effect question),应该用随机比较实验来检验。可是,很遗憾,我们不能随机安排某些人去教堂,因为是否参加宗教活动是个人信仰问题;我们也不能用随机数字表,随机指定心脏病患者是男性或女性;而要求驾驶员一边开车一边打手机,也是我们不愿意做的事情,因为边开车边打电话可能很危险。
1702631763
1702631764 对于以上这些问题,以及许多其他的因果问题,我们能得到的最好数据,都来自观察研究。我们知道观察研究是仅次于实验的第二选择,虽然其所得结果比实验弱得多,但好的观察研究还是非常有价值的。那么,什么样的观察研究才算好的呢?
1702631765
1702631766 首先,好的研究不管是不是实验,都一定要是对比研究。我们可以分别从固定做礼拜的人和非固定做礼拜的人中抽取随机样本做比较,可以比较医生如何治疗男性心脏病患者和女性心脏病患者,也可以比较同一个人在开车过程中打手机和不打手机时的风险情况。我们可以同时运用比较和“配对”(matching)的方法来建立一个控制组。为了了解怀孕期间服用止痛药的影响,我们比较研究了妊娠期服用止痛药和未服用止痛药的女性。我们从未服药的许多怀孕女性中选出一些人,她们在年龄、教育背景、生育子女数以及其他潜在变量方面,都和孕期服用了止痛药的那组女性很接近。这样我们就有了两组女性,她们在所有潜在变量方面都相似,所以这些潜在变量应该不会影响我们的研究结果。尽管如此,还会存在我们无法观察或考虑不到的其他潜在变量,它们会影响研究结果。
1702631767
1702631768 配对并不能消除变量间交叉干扰的问题。按时去教堂或犹太教堂或清真寺参加宗教活动的人,比不去的人更会照顾自己。他们当中较少人抽烟,较多人运动,超重的人也比较少。配对可以缩小某些差距,但不是所有差距。如果去教堂的人和不去教堂的人去世时的年龄做比较,就会把宗教信仰的影响和良好生活习惯的影响混杂在一起。所以,好的比较研究,必须能够测量和调整那些“交叉干扰变量”(confounding variable)的影响。如果我们测量体重、抽烟习惯、运动习惯,就可以用统计技巧来减少这些变量对人的寿命的影响,而只剩下宗教信仰的影响。
1702631769
1702631770 例6 宗教活动与人的寿命
[ 上一页 ]  [ :1.702631721e+09 ]  [ 下一页 ]