打字猴:1.702631747e+09
1702631747
1702631748 统计学显著性
1702631749
1702631750 我们观察到的效果如果大到某种程度,光靠机会产生这种结果的概率很小时,我们就称此结果具有统计学显著性(statistical significance)。
1702631751
1702631752 羟基脲组和控制组的剧痛发作的平均次数之间的差别具有“高度的统计学显著性”(highly statistically significance),这意味着这种差别几乎不可能全是由机会性因素造成的。而且,我们的确有强有力的证据证明羟基脲对镰刀型细胞贫血症患者的疗效胜过安慰剂。在很多不同研究领域的调查报告中,你都会看到“具有统计学显著性”这个说法。这是在告诉你,对于想要证明的结果,调查人员已经找到好的统计学证据了。
1702631753
1702631754 当然,实验的实际结果比起统计学显著性更重要。在镰刀型细胞贫血症的实验当中,实验组在一年时间里剧痛发作的平均次数是2.5次,而控制组是4.5次。这么大的差距,对患者来说是很重要的结果。如果只是2.5和2.8的差别,那么即便具有统计学显著性,这个结果也没什么意义。
1702631755
1702631756 造成多大的影响才会被视为具有统计学显著性,这取决于有多少实验对象。如果实验对象的数量很大,即便是一个比较小的、可能被视为不重要的结果,也可能具有统计学显著性。所以,在镰刀型细胞贫血症的实验中,每年平均2.51次剧痛与每年平均2.50次剧痛相比,也可以具有统计学显著性,如果实验对象的数量足够大。如果实验对象人数很少,有可能观察到的较大影响只具有偶然性,我们将在本书的第三部分和第五部分充分讨论这个问题。
1702631757
1702631758 所以在评估统计学显著性时,了解实验对象的数量也是有必要的。也许对于统计学显著性来说,一个更好的术语可能是“统计上不相似”(statistiacally dissimilar)。
1702631759
1702631760 好的观察研究
1702631761
1702631762 按时去教堂会延长人的寿命吗?医生在治疗心脏病时,会歧视女性患者吗?一边开车一边打手机,会增加出车祸的概率吗?这些都是因果问题(cause-and-effect question),应该用随机比较实验来检验。可是,很遗憾,我们不能随机安排某些人去教堂,因为是否参加宗教活动是个人信仰问题;我们也不能用随机数字表,随机指定心脏病患者是男性或女性;而要求驾驶员一边开车一边打手机,也是我们不愿意做的事情,因为边开车边打电话可能很危险。
1702631763
1702631764 对于以上这些问题,以及许多其他的因果问题,我们能得到的最好数据,都来自观察研究。我们知道观察研究是仅次于实验的第二选择,虽然其所得结果比实验弱得多,但好的观察研究还是非常有价值的。那么,什么样的观察研究才算好的呢?
1702631765
1702631766 首先,好的研究不管是不是实验,都一定要是对比研究。我们可以分别从固定做礼拜的人和非固定做礼拜的人中抽取随机样本做比较,可以比较医生如何治疗男性心脏病患者和女性心脏病患者,也可以比较同一个人在开车过程中打手机和不打手机时的风险情况。我们可以同时运用比较和“配对”(matching)的方法来建立一个控制组。为了了解怀孕期间服用止痛药的影响,我们比较研究了妊娠期服用止痛药和未服用止痛药的女性。我们从未服药的许多怀孕女性中选出一些人,她们在年龄、教育背景、生育子女数以及其他潜在变量方面,都和孕期服用了止痛药的那组女性很接近。这样我们就有了两组女性,她们在所有潜在变量方面都相似,所以这些潜在变量应该不会影响我们的研究结果。尽管如此,还会存在我们无法观察或考虑不到的其他潜在变量,它们会影响研究结果。
1702631767
1702631768 配对并不能消除变量间交叉干扰的问题。按时去教堂或犹太教堂或清真寺参加宗教活动的人,比不去的人更会照顾自己。他们当中较少人抽烟,较多人运动,超重的人也比较少。配对可以缩小某些差距,但不是所有差距。如果去教堂的人和不去教堂的人去世时的年龄做比较,就会把宗教信仰的影响和良好生活习惯的影响混杂在一起。所以,好的比较研究,必须能够测量和调整那些“交叉干扰变量”(confounding variable)的影响。如果我们测量体重、抽烟习惯、运动习惯,就可以用统计技巧来减少这些变量对人的寿命的影响,而只剩下宗教信仰的影响。
1702631769
1702631770 例6 宗教活动与人的寿命
1702631771
1702631772 关于按时参与宗教活动的效果的一个好的研究,选取了一个包含3617名成年人的随机样本。除了解释变量(宗教活动)和反应变量(寿命长短)之外,研究者还测量了很多其他变量。一篇新闻报道说:
1702631773
1702631774 在去教堂参加活动的人中,有较大比例的人不抽烟、经常做运动,而且体重适中。不过,即使考虑到健康习惯,未定期参加宗教活动的人,死亡概率还是多出了25%。
1702631775
1702631776 所谓“考虑到”的意思是,最后的研究结果根据两组的差异做出了调整。该调整降低了宗教活动的影响,但它仍然对结果有重要影响。
1702631777
1702631778 例7 心脏病治疗中存在性别歧视吗?
1702631779
1702631780 医生在治疗心脏病时,对于有相似症状的女性患者,所用方法不像男性患者那样激进。这是不是表明医生有性别歧视的倾向?未必如此。女性通常比男性患心脏病的时间晚,女性心脏病患者的年龄一般较大,而且还有其他健康问题。这也许可以解释为何医生在为她们治疗时更加谨慎。
1702631781
1702631782 这种情况需要做一次比较研究,对交叉干扰变量的影响进行统计调整。类似的研究已经有很多人做过了,结果却相互矛盾。用医生的话说,有的结果是“当男性患者和女性患者除了性别以外的其他变量都相似时,治疗方法是很接近的”。而其他研究结果则发现,即使对男女患者的性别的影响进行调整之后,女性患者接受的治疗还是比较保守。
1702631783
1702631784 从例7可以看出,统计调整是很微妙的。随机分配实验对象可以建立起在所有已知或未知变量方面都接近的组,而配对和调整对研究中未考虑要度量的变量,并不起作用。即使你相信研究者什么都考虑到了,还是要对统计调整存疑。在决定调整哪些变量时,有很大的作弊空间。而且,“经过调整”的结论,实际上等于在说:
1702631785
1702631786 如果女性心脏病患者的年纪轻些、身体健康些,而男性心脏病患者年纪大些,健康状况差些,两种性别的患者就会得到差不多的治疗。
1702631787
1702631788 也许这已经做到最好了,而且我们应该感谢统计学。不过,这让我们更喜欢能得出清清楚楚的结果的好实验了。
1702631789
1702631790 小结
1702631791
1702631792 本章要点
1702631793
1702631794 • 统计研究常常试图找到证据,证明当改变某个变量(解释变量)的时候,会使另一个变量(反应变量)产生变化。
1702631795
1702631796 • 在实验当中,我们会自己设定解释变量,而不是只观察它们。
[ 上一页 ]  [ :1.702631747e+09 ]  [ 下一页 ]