1702645260
虚假相关
1702645261
1702645262
假设有三个变量X、Y和Z,我们观察到X和Y之间存在相关,但怀疑这种相关关系可能完全是因为X和Y都分别与Z相关。(一个实际例子如前一章提到的假设,宗教信仰虔诚度和激进之间存在负相关关系是因为两者都与受教育程度有关——黑人的受教育程度越高,则越不信教且越激进。)这一假设如图2-1所示。
1702645263
1702645264
本书都使用这类因果关系图来解释、说明各种关系。因果关系图被广泛地用于路径分析(path analysis)——一种表达和以代数形式使用结构方程模型的方法。结构方程模型曾在20世纪70年代非常流行,但现在已较少使用(见第16章对结构方程模型和路径分析更为深入的讨论)。我在这里使用此类模型纯粹是探索性的。尽管如此,我在使用它们时也力求概念完整。因此,从x到X(pXx)和从y到Y(pYy)的路径表示除Z之外的其他变量对X和Y的影响。
1702645265
1702645266
现在,如果在Z的各类别内,X和Y之间的相关很弱或不存在,我们就可以认为X和Y之间的相关完全被它们与Z的相关所解释。然而,这种情况一般不会发生。例如,在控制了受教育程度之后,宗教信仰虔诚度和激进之间仍存在负相关。除了我们有很强的理论支持某种关系是完全的虚假相关,我们通常不会要求做要么全有要么全无的虚假相关假设。相反,我们会问,在控制Z之后,X和Y之间是什么关系(以及在控制X之后,Z和Y之间是什么关系)。我们的分析逻辑如图2-2所示。
1702645267
1702645268
换个角度来说,我们不去假设X和Y之间的因果关系为0并去检验这个假设是否正确,而是估计在控制Z之后X和Y之间的关系及其程度大小——当然,这可能为0,如图2-1和图2-2所示。当估计在控制Z之后X和Y之间的相关为0时,图2-1和图2-2是完全相同的。
1702645269
1702645270
1702645271
1702645272
1702645273
图2-1 X和Y之间是完全虚假相关:当控制Z后,相关为0
1702645274
1702645275
1702645276
1702645277
1702645278
图2-2 X和Y之间是部分虚假相关:当控制Z后,X对Y的影响减弱(Z影响X,且Z和X共同影响Y)
1702645279
1702645280
干预变量
1702645281
1702645282
我们现在开始介绍干预变量。设想两个变量X和Y相关,仅仅因为X导致Z,而Z导致Y,如父亲的职业、儿子的受教育程度和儿子的收入之间的关系。假如我们期望X和Y之间的关系是正相关的——有时称为零级相关(zero-order association),简称零级偏相关(zero-order partial association),也就是说,不存在偏相关关系。例如,完全是因为这样的事实:父亲的职业地位影响儿子的受教育程度,进而儿子的受教育程度影响儿子的收入,因此我们认为,父亲的职业地位对儿子的收入没有直接影响,而只是通过儿子的受教育程度产生间接影响,如图2-3所示。
1702645283
1702645284
1702645285
1702645286
1702645287
图2-3 X和Y之间的相关完全被干预变量Z解释:当控制Z后,相关为0
1702645288
1702645289
但是,如前所述,除非我们有很强的理论支持X和Y之间不存在直接关系,不然,我们可能要通过数据来考察在控制干预变量Z后,X对Y的影响;同时考察在控制事前变量X后,Z对Y的影响。如图2-4所示。
1702645290
1702645291
1702645292
1702645293
1702645294
图2-4 X和Y之间的相关部分地被干预变量Z解释:当控制Z后,X对Y的影响减弱(X影响Z,且X和Z共同影响Y)
1702645295
1702645296
如果X和Y之间的净(net)或偏(partial)相关为0,那么我们可以得到如图2-3描绘的链式模型,否则,我们仅估计X和Y、Z和Y之间相关(出于完整性考虑,也可包括X和Z之间的零级相关)的强度和性质。
1702645297
1702645298
注意图2-2和图2-4之间的相似性,这两个模型的最终因变量Y是相同的。仅有的差别在于是Z导致X,还是X导致Z。也有另一种可能:X和Z共同导致Y,但是不清楚X和Z之间是否存在因果关系,如图2-5所示。
1702645299
1702645300
1702645301
1702645302
1702645303
图2-5 X和Z共同影响Y,但没有假设X和Z的因果顺序
1702645304
1702645305
在几乎所有的分析——包括已讨论的列联表、常规最小二乘多元回归模型、有关分类因变量的对数线性模型和逻辑斯蒂回归——中,图2-2、2-4和2-5所示的模型或理论在分析层次上是无法区分因变量Y的。因此,要区分它们必须根据研究者自己的想法,而不是通过数据决定。从数据操作的角度来看,三个模型都要求估计两个变量中的一个变量对第三个变量的净影响,即在控制了一个自变量后另一个自变量的影响。显然,这也适用于包含三个以上变量的情况。
1702645306
1702645307
1702645308
1702645309
[
上一页 ]
[ :1.70264526e+09 ]
[
下一页 ]