打字猴:1.70264675e+09
1702646750
1702646751 对新教徒:
1702646752
1702646753
1702646754
1702646755
1702646756 对天主教徒:
1702646757
1702646758
1702646759
1702646760
1702646761 对犹太教徒:
1702646762
1702646763
1702646764
1702646765
1702646766 对其他宗教信仰群体和不信教的群体:
1702646767
1702646768
1702646769
1702646770
1702646771 从方程6.12到方程6.15,可以很明显地看出截距项a是省略或参照类别的期望值,与每个虚拟变量有关的系数bi是相应类别与省略或参照类别的期望值之差(difference)。在当前的例子中,新教徒在因变量上的期望得分是3.98分,即平均来讲他们接受6个堕胎条件中的约4个。相比较而言,天主教徒的期望得分是3.65分,比新教徒低0.33分。犹太教徒几乎赞成所有的6个条件(确切值是5.59分),比新教徒高1.61分。最后,剩下的样本,即剩余类别“其他宗教信仰群体和不信教的群体”介于新教徒和犹太教徒接受堕胎的平均水平之间。
1702646772
1702646773 为什么在分析中应该包括所有样本 虽然“其他宗教信仰群体和不信教的群体”类别包括了所有剩余类别,因而是非常没有意义的一类,但在分析中包括此类别而不是局限于分析“可被解释的”宗教信仰类别的那些样本,却是有道理的。其原因是我们通常希望将结果推论至总体人口,而不是部分可定义特征的人口。如果我们在分析中省略了剩余类别,那么我们对平均人口特征的估计可能会有偏,且更糟糕的是,我们不知道偏误的方式。此外,回归系数也会有偏(见第16章“样本选择偏误”这一段的讨论)。
1702646774
1702646775 注意,R2与前一章讲到的相关比率η2一致,而且对堕胎态度测度的预测值恰好是表5-1中每组宗教信仰者的均值。这是因为在没有其他信息的情况下,均值是一个观测值的最小二乘预测。因此,每个宗教信仰类别的“最小二乘”估计只是该组的均值。到目前为止,我们只是用更复杂的方法估计各组的均值和相关比率。
1702646776
1702646777 虚拟变量的真正价值反映在当它们和其他变量一起使用时,可以检验在控制了其他变量的影响后,各组成员身份对因变量的影响,也可以估计成员身份对其他变量和因变量之间关系的影响(以及其他变量对成员身份和因变量之间关系的影响),即估计组别和其他变量之间的交互作用。要理解这一点,让我们继续看例子。假设我们希望估计受教育年限对接受堕胎的影响,假设我们还希望估计不同宗教信仰者接受堕胎的程度是否不同,以及受教育年限和接受堕胎之间的关系在不同宗教信仰者之间是否不同——对天主教徒来说,无论受教育程度如何他们都倾向于反对堕胎;而对犹太教徒来说,无论受教育程度如何他们都倾向于接受堕胎;其余的两组则随着受教育程度的提高接受堕胎的程度也随之提高。为了检验这些结论,我们估计三个更为复杂的回归方程:
1702646778
1702646779
1702646780
1702646781
1702646782 第一个模型(方程6.16)假设只有受教育程度有影响,而宗教信仰没有影响。此模型假设所有宗教信仰群体接受堕胎的程度是一样的。第二个模型(方程6.17)假设在宗教信仰群体之间接受堕胎的差异是固定的或恒定不变的,且假设受教育年限和接受堕胎之间的关系在各宗教信仰群体之间一样。第三个模型(方程6.18)假设在接受堕胎的程度上,受教育年限和宗教信仰之间存在交互影响(interaction),换言之,即假设受教育年限在影响接受堕胎方面在各宗教信仰群体之间不一样。〔在回归框架中表示一个交互项的传统做法是构建一个变量,它是我们假设有交互关系的两个(或更多)变量的乘积,尽管有时我们也可能假设其他非线性函数形式的交互项。〕
1702646783
1702646784
1702646785
1702646786
1702646787 量化数据分析:通过社会研究检验想法 [:1702644761]
1702646788 量化数据分析:通过社会研究检验想法 组间比较的方法
1702646789
1702646790 我们的首要任务是在方程6.16至方程6.18表示的模型之间进行抉择。在这种情况下,我们将估计在某些社会过程中是否存在组间差别,我们一般倾向于选择最简约的模型(除非我们有很强的理论假设认为存在组间差异,或者正如前面讨论量测回归系数那节所提到的,当我们质疑存在省略变量偏误的问题时)。也就是说,只有在更复杂的模型解释因变量(接受堕胎)的变异时表现得明显更好,我们才选择更复杂的模型。我们通过比较每个模型的判定系数选择模型。如果一个较复杂的模型解释了因变量方差的更多部分,那么我们就接受此模型,否则我们接受较简单的模型。(这是经典的或频率论者的方法。下一节我们讲解另一种评估模型的方法,即基于贝叶斯方法比较BIC值。)
1702646791
1702646792 我们从比较第一和第三个模型开始。也就是说,我们将一个假设没有宗教信仰差异但只有受教育年限差异的模型,与另一个假设受教育年限和接受堕胎的关系在宗教信仰群体之间不同的模型进行比较。为了评估R2差异的显著性,我们计算F比率(F-ratio):
1702646793
1702646794
1702646795
1702646796
1702646797 这里,R2B是被较复杂模型解释的方差(方程6.18);R2A是被较简单模型解释的方差(方程6.16);N是样本数;k是较复杂模型中自变量的数量;m是较复杂模型与较简单模型之间自变量数量的差异;分子的自由度=m;分母的自由度=N-k-1。对于我们的例子有:
1702646798
1702646799
[ 上一页 ]  [ :1.70264675e+09 ]  [ 下一页 ]