打字猴:1.702647293e+09
1702647293 量化数据分析:通过社会研究检验想法 [:1702644769]
1702647294 量化数据分析:通过社会研究检验想法 趋势分析:检验线性假设
1702647295
1702647296 随着GSS的成熟,它已经成为越来越有价值的研究历时趋势的资源。因为自1972年首次开展GSS以来,许多问题都用完全相同的方式询问,将所有年份的数据合并在一起就可以做各种趋势分析。此外,如果没有发现时期变异,所有年份的数据可以作为美国20世纪后期人口的一个样本以得到足够多的个案去研究人口相对较少的群体。
1702647297
1702647298 最简单的趋势模型(暂不考虑有限的没有趋势的情况)是所研究的结果变量随时间变化的线性趋势。将此模型与一个假设结果变量逐年变异的模型——许多年前Sorokin将之称为“无趋势波动”(trendless fluctuations)——进行对比是很有益的。为进行这一比较,我们估计两个模型:
1702647299
1702647300
1702647301
1702647302
1702647303
1702647304
1702647305
1702647306
1702647307
1702647308 其中,T是时间的一个线性表达(这里是调查年份),Tj是每个调查年份的虚拟变量;注意,两个虚拟变量必须省略,因为线性项使用了一个自由度。然后,我们用常用的方法——R2增量显著性的F检验和比较BIC值——比较两个模型。在Stata中,第一种方法的习惯做法是估计方程7.33,然后通过用Stata的-test-命令执行Wald检验,即检验所有cj都为0这一假设。(注意,方程7.33与省略线性项而只包含虚拟变量的方程相比,只不过是参数化形式不同而已。当然,两个方程的系数会不一样,但期望值、R2和BIC是一样的。)如果我们得出简单线性趋势无法拟合数据的结论,我们或许会设想:要么加一个T的平方项使之成为一个平滑曲线模型;要么通过将年份分成有历史意义的组,并且用虚拟变量识别每个组(需要舍弃一个组),对特殊历史事件建模;要么使用一个样条模型(见本章后面的“线性样条”一节)。在表示时间(用年份来测量)的所有函数中,方程7.33解释的方差是最大的,因此,方程7.33的R2可以作为一个标准来评价各种社会学意义上的约束模型如何最大限度地解释了因变量的时期变异(这里所谓的评价并非严格的统计术语,而是从实际意义上来说的)。
1702647309
1702647310 为了阐述的简单化,我在模型中没有纳入除时间以外的任何变量,但实际上研究者所设想的模型一般都会包含一些协变量(即其他自变量),并且也可能包含协变量与时间变量的交互项,其分析逻辑与刚才介绍过的简单模型完全相同,其逻辑与上一章介绍的评估组间差异的虚拟变量方法也是一样的(尽管这里的“组”是年份或历史时期——如果分析结果支持了时期划分的正确性)。
1702647311
1702647312 预测性别角色态度随时间变异:一个具体例子
1702647313
1702647314 在1974~1998年的多数年份,GSS都问了关于性别角色平等态度的四个问题。将所有问及这四个问题的年度数据合并在一起,就得到四个变量。以下是每个问题的具体陈述,以及相应的持性别平等态度者的百分比。
1702647315
1702647316 ·您是否同意这种观点:妇女应该照顾好家庭而将社会性事务留给男性?(74%的受访者反对)
1702647317
1702647318 ·您是否赞成已婚妇女在外挣钱,即使她丈夫有能力供养她?(77%的受访者赞成)
1702647319
1702647320 ·如果您的党派提名一名妇女做主席,且她胜任此工作,您会投票给她吗?(84%的受访者持肯定态度)
1702647321
1702647322 ·请告诉我您是否同意这种观点:从性情上来说男性比女性大多更适合从政?(63%的受访者反对)
1702647323
1702647324 我简单地将对四个问题持赞同性别平等的应答加总,构建一个性别平等测度,排除了那些没有被问到这四个问题的人,并将其他无应答情况作为负值对待,将“不知道”之类的应答作为负值而不删除它们是为了保留样本。但是,如果没有实质性的理由,这样处理不一定是明智之举——在当前的例子中,我似乎有理由将“不知道”与赞同性别平等看作两个不同的类别。
1702647325
1702647326 在实施GSS的某些年份,只有部分受访者才会被问及某些问题 GSS使用者需要知道,为了每年都能在GSS的调查问卷中增加问题的数目,仅有部分受访者才会被问及某些问题。排除没有被问及某些问题的那些人的一个常用方法是在Stata软件的-egen-命令中用-rmiss-选项来计算缺失值的数量,然后排除测度指标中在所有题项上都有缺失值的人。但是,在现在分析的这个例子中,只要受访者在四个题项中的任何一个上存在缺失值,我就将之排除在外,因为有些年份只问了这四个题项中的某几项。
1702647327
1702647328 方程7.32和7.33的估计结果表明,关于性别平等的态度呈显著的非线性。根据R2增量得出F=3.54,它在14和21448自由度下具有小于0.0001的概率。但是,线性趋势模型的BIC比逐年变异模型的BIC小(BIC值分别为-959和-871),这意味着数据更有可能存在线性趋势。因为使用BIC得出的结果和使用传统推论方法得出的结果相矛盾,明智的做法是接下来图示赞同性别平等的均值水平的逐年变异,以观察是否存在任何明显的非线性模式。如果观察到十分显著的线性偏差,就可以接受逐年变异模型,或者通过将一些年份聚合成有历史意义的时期来建立一个新模型(要谨记根据数据结果来修正假设的危害性——见第6章结尾处对此问题的讨论),抑或用平滑曲线或样条函数来拟合数据。图7-4显示了线性趋势直线和均值水平的逐年变异连接线。检视该图我们会发现,线性偏差既不明显也不是系统性的。因此,我倾向于把线性趋势模型作为表述数据的最简形式,而不管F检验的结果如何。事实上,线性趋势是相当强的,它意味着在我们数据所跨越的四分之一世纪里,赞同性别平等的均值水平提高了0.81[=0.0338×(1998-1974)];这相当于我所构建的性别平等测度的理论区间得分(0~4)的20%,且相当于该测度实际得分标准差的三分之二。显然,对性别平等的支持水平在整个20世纪后期一直在稳步上升,且有一定程度的提高。
1702647329
1702647330
1702647331
1702647332
1702647333 图7-4 美国成年人在1974~1998年调查中表现出的对性别平等的态度趋势(线性趋势和年度均值水平;N=21464)
1702647334
1702647335 从技术的角度看,比较两种反映线性偏差的估计值——方程7.33和另一种没有包含年份线性项的方程设定——是有意义的。当包括线性项时,两个虚拟变量被省略(而不是一个),因为线性项占用一个自由度。然而,用这两种方法得到的结果完全相同,这在表7-1中得到了印证。
1702647336
1702647337 遗憾的是,方程7.33(或类似形式的方程)的系数与线性方程预测值的偏差之间没有简单的对应关系。如果你们想展示逐年的线性偏差,那么需要构建一个新变量,即方程7.32和方程7.33每年的预测值之差。在Stata中使用-foreach-或-forvalues-命令很容易实现这一点。
1702647338
1702647339 表7-1 包含线性项但不会影响预测值的示范
1702647340
1702647341
1702647342
[ 上一页 ]  [ :1.702647293e+09 ]  [ 下一页 ]