打字猴:1.702647583e+09
1702647583 量化数据分析:通过社会研究检验想法 [:1702644773]
1702647584 量化数据分析:通过社会研究检验想法 分解两个均值之差
1702647585
1702647586 社会研究中的一个常见问题是解释为什么两个(或多个)群组在某一变量上的平均得分或数值有差异。例如,我们可能观察到黑人和非黑人的平均收入不一样,并且想知道此差异是如何产生的。特别地,我们或许想知道组间差异在多大程度上是由他们的“禀赋”(即能够增加收入的那些特质)差异导致的,又在多大程度上是因为各个组禀赋的“回报率”不一样——某些组在“禀赋”的任何水平上的“回报”都比其他组高。以教育为例,黑人和非黑人的收入差异在多大程度上是由黑人比非黑人的受教育程度低导致的,又在多大程度上是由黑人比非黑人的教育回报低导致的?要想考察我们感兴趣的任何结果变量的决定因素,一般是将结果变量对一组可能的决定因素做回归,然后留意每个自变量系数的相对大小。比较两个组方法的一个自然延伸,是先对感兴趣的两个组分别做回归,再将两个回归方程相减,最后看差值的大小。
1702647587
1702647588 请看下面的方程:
1702647589
1702647590
1702647591
1702647592
1702647593
1702647594
1702647595
1702647596
1702647597
1702647598 它们是用k个自变量分别对组1和组2进行估计的模型。因为回归方程的拟合线会经过每个变量的均值,所以有:
1702647599
1702647600
1702647601
1702647602
1702647603
1702647604
1702647605
1702647606
1702647607
1702647608 然后,取方程7.46和方程7.47之差,我们有:
1702647609
1702647610
1702647611
1702647612
1702647613 (你们可以自己对上述过程进行推导,反过来推导会比较简单。)
1702647614
1702647615 方程7.48也可以被写成:
1702647616
1702647617
1702647618
1702647619
1702647620 (同样,你们可以自己通过代数运算来加以证明。)
1702647621
1702647622 方程7.48和7.49都是将两个均值之差分解为以下几部分:截距项之差、斜率之差、自变量均值之差以及斜率之差和自变量均值之差的交互效应,但它们表示的是两种不同的分解方法。在方程7.48中,组2被作为比较的标准。因此,斜率之差的影响是以组2的均值为基础进行估计的,均值之差的影响也是以组2的斜率为基础进行估计的。在方程7.49中,组1被作为比较的标准。使用这两种分解方程一般会得到不同的答案,且通常没有较好的办法来对它们进行取舍。因此,最好是同时给出两种分解方法的结果,就像我在这里做的。我也会对因使用不同的比较标准所产生的不同解释做简短的讨论。
1702647623
1702647624 在这两种分解方程中,代表均值之差和交互效应影响的系数在将自变量增加或减去一个常数时并不发生变化,但代表截距项之差和自变量回报率之差影响的系数却随变量测度的变化而变化(Jones and Kelley,1984)。正是由于此原因,一般可取的做法是合并后两项。这样做的结果是将方程7.48分解成三部分。从方程7.48出发,我们有:
1702647625
1702647626
1702647627
1702647628
1702647629 当然,方程7.49也可以用同样的方法来改写。注意,在方程7.48和7.49中,交互项的绝对值相等,只是符号相反,这是由交互项的定义本身决定的。
1702647630
1702647631 一个具体例子:影响教育获得种族差异的因素
1702647632
[ 上一页 ]  [ :1.702647583e+09 ]  [ 下一页 ]