1702649671
1702649672
为了了解这是怎样做的,我们来介绍Treiman和Yamaguchi(1993)完成的一项日本教育获得的趋势分析。为了说明这种方法,我在这里只展示涉及日本在“二战”后从初中升高中、从高中升大专或大学的转变的部分分析内容。数据集包括1320名在战后期间完成教育的男性。因为在日本一直到初中都是义务教育,我们分析的基本对象是1320名初中毕业生,即这1320人都处在可以接受高中教育的“风险”中。其中,有1056人接受了高中教育,因此他们又处在继续升大专或大学的“风险”中。将那些处在第一次和第二次转变风险中的人汇总在一起,我们就得到了2376(=1320+1056)个转变可能性供研究。对于每一条记录,我们创建一个虚拟变量SUCCESS(S),如果发生转变就赋值为1,否则为0。我们用一个虚拟变量TRANSITION(T)来区分两种转变,从高中到大专或大学的转变赋值为1,否则为0。然后,我们估计一系列逻辑斯蒂回归方程,其因变量是成功发生转变的比率的自然对数,其自变量是转变变量,父母的地位变量、出生年份(用来研究趋势),以及变量之间的各种交互项。表13-4列出了教育转变进程的各类模型的拟合优度统计量,而表13-5报告了首选模型的参数。〔这项研究是在基于抽样设计的估计方法得到普遍应用之前进行的。因此,当时并没有考虑样本的整群特性。除了常见的数据在各抽样点聚集之外——这是全国性调查所具有的典型特征——转变比率模型(transition-ratio models)还是按人聚集的,因为发生在任何个人身上的转变很难是相互独立的。因此,除了要对整群样本做调整之外,对每个个体的观测也应该被看作是非独立的。〕
1702649673
1702649674
表13-4 日本教育转变进程的各类模型的拟合优度统计量(首选模型用黑体表示)
1702649675
1702649676
1702649677
1702649678
1702649679
从表13-4中我们看到,似然比和BIC都显示模型3拟合得最好。该模型假定家庭背景的影响在两次转变之间是不一样的,并且两次转变的比率随时间变化(但家庭背景的影响不随时间变化)。按照我们先前假设的观点——家庭背景的影响随转变进程而减小——模型2和模型1的比较尤其值得注意。模型1假定个体上升到更高受教育水平的比率受到父母社会地位的影响(具体来讲是受到父母受教育程度和父亲职业地位的影响,后者由职业声望来测量),但这一关系对各种转变来说是一样的。相比之下,模型2不仅假定转变的比率取决于所考察的是哪一次转变,而且假定家庭背景和实现某一转变的比率之间的关系也取决于所考察的是哪一次转变。模型2代表我们先前的假设。
1702649680
1702649681
表13-5 表13-4中模型3的参数
1702649682
1702649683
1702649684
1702649685
1702649686
正如我们所看到的,模型2远远好于模型1,但模型3更好,它进一步假定实现每次转变的比率存在历时变化。因此,我们的假设得到初步支持,而且我们也有转变进程随时间变化的证据(原文对这一点做了进一步探讨,但这里我们不需要考虑)。
1702649687
1702649688
现在看来,Treiman和Yamaguchi给出的那些模型比较并不完全令人满意。在模型1和模型2之间再加入一个模型或许会更好,即假定各次转变的成功比率之间存在差异,但将各次转变中家庭背景的影响限定为相同。困难在于我们不知道模型2优于模型1的原因是什么:是因为各次转变的实现比率不一样,还是因为家庭背景的影响在各次转变之间不一样,或者两者兼有。对出生年份的影响来说,也可以提出同样的问题——如果有一个介于模型2和模型3之间的模型会比较理想。
1702649689
1702649690
实际上,表13-4中的系数告诉我们的就是,假定家庭背景在不同转变中具有不同影响的模型比假定家庭背景在不同转变中具有相同影响的模型更好。为了证实我们的判断,我们需要检查表13-5中报告的参数以确定它们的符号与预期的相符。
1702649691
1702649692
表13-5报告了首选模型的参数。注意,我没有报告标准误或每个系数的p值。因为模型中所有的“主效应”也出现在“交互项”中,评估某个单一维度的合适方法是比较排除了反映此维度变量的模型与纳入该变量的模型。我在表13-4中已经这样做了,但只是做了选择性的比较,而没有给出每种可能的成对模型比较。〔Raftery论述过,S-Plus软件可以从包含一组指定变量的所有可能模型中选择最可能拟合数据的模型。有兴趣的读者可参考Raftery(1995a)。〕
1702649693
1702649694
注意,表13-5与表13-3在对标准误的处理上有所不同,在表13-3中我列出了标准误和p值。区别在于表13-3只有一个交互项,所以交互项的p值就表示包含和不包含交互项的两个模型拟合差异的显著性。如果一个模型既包含了单个的显著性检验有意义的变量,又包含了单个的显著性检验没有意义的变量——因为有交互项(或其他如平方项之类的转变)的影响,通常的做法是报告所有的显著性检验和p值。然而,为了避免不正确的解释,只报告那些有意义的显著性统计量更加可取。
1702649695
1702649696
此模型意味着,在日本,受教育水平从某一级到下一级的过程正如我们所期望的那样:每次转变的实现比率与父母的受教育水平和父亲的职业地位呈正相关。更有意思的是,交互项系数T×E和T×P都是负数,表示在此数据中家庭背景对教育转变进程的影响在高中升大学这一转变中比在初中升高中这一转变中要小。父母的平均受教育年限每增加一年使从初中升入高中这第一次转变的实现比率上升约40%(因为e0.3480=1.416),但使从高中升入大学这第二次转变的实现比率仅上升约35%(因为e(0.3480-0.0503)=1.347)。因此,举例来说,在所有其他因素都相同的情况下,一个大学毕业生的儿子继续就读高中的比率是一个初中毕业生的儿子的11倍以上(因为1.416(16-9)=11.414)。相比之下,在那些进入高中就读的学生中,大学毕业生的儿子继续就读大学的比率仅为初中毕业生的儿子的8倍〔因为1.416(0.951)(16-9)=8.030〕。类似地,父亲的职业声望每提高一个单位的净影响使第一次转变的实现比率上升约6%(因为e0.0569=1.059),但使第二次转变的实现比率仅上升4%(因为e(0.0569-0.0180)=1.040)。因此,举例来说,一个小店主(声望得分=42分)的儿子从初中升入高中的净比率是一个工人(声望得分=29分)的儿子的2倍多(因为1.059(42-29)=2.107)。但小店主的儿子从中学升入大学的净比率仅比工人的儿子高66%(因为1.040(42-29)=1.665)。出生年份以及转变与出生年份交互项的影响可用类似的方法解释。
1702649697
1702649698
提示一下,对模型中包含交互项的对数比率的解释完全与最小二乘回归中的解释相同(见第6章):系数可通过相加得到。然而,正如我们在第一个例子中看到的,系数取幂后(表示的是对比率比的贡献)并不是相加的,而是相乘的。因此,举例来说,父母受教育水平的系数对第一次转变来说是0.3480,对第二次转变来说是0.2977(=0.3480-0.0503)。相应地,系数取幂对第一次转变来说是1.4162,对第二次转变来说是1.3468(=1.4162×0.9509)。当然,1.3468=e0.2977。
1702649699
1702649700
1702649701
1702649702
1702649704
量化数据分析:通过社会研究检验想法 第三个具体例子(离散时间风险率模型):初婚年龄
1702649705
1702649706
二项逻辑斯蒂回归最强有力的应用之一是估计离散时间风险率模型(discrete-time hazard-rate models),有时被称作事件史模型(event history models)。风险率模型的分析对象是事件发生的比率或一个事件将在某一特定时间发生的可能性。已经有很好的统计技术估计这类模型,它们中的大多数超出了本书的范围。这类模型的一种特殊形式是将时间作为一组离散值来估计某一事件在每个时间段发生的可能性,然而,一旦对数据做适当的处理,就可以使用传统的二项逻辑斯蒂回归方法。正如我们接下来会看到的,离散时间风险率模型在形式上确实等价于我们刚才讨论过的教育转变模型。
1702649707
1702649708
基本步骤是创建一个人—期数据集(person-period data set),即将原始数据集中处在事件发生“风险”的每一个人的每一时期的记录进行堆积排列。例如,假设我们有兴趣估计人们在特定年龄结婚的可能性,比如说从15岁到36岁的每个年龄点。我们可以通过创建一个新数据集来完成这一估计,新数据集由每个人在未婚期间每一年的观测构成,如果结婚,再加上结婚年龄,直到(并包括)现在的年龄为止。因变量是一个二分变量,如果某人在某一年龄结婚,赋值为1,否则为0。对于已经结婚的人,将因变量从15岁到结婚前的每个年龄点都赋值为0,将结婚时的年龄点赋值为1。将代表结婚之后各年龄点的观测从数据集中删除,因为一旦结婚,个人就不再处于(初)婚的“风险”之中。对于从来没有结过婚的人,将因变量在从15岁到当前年龄的所有年份都赋值为0。大于当前年龄的记录被从数据集中删除,因为对于尚未达到年龄点的人来说,他们显然不在结婚“风险”之中。然后,我们就可以用通常的方法来分析此数据集,即估计一个二项逻辑斯蒂回归方程。
1702649709
1702649710
此时你们或许会奇怪我们为什么要这样小题大做,因为将初婚年龄作为一个间距因变量直接做OLS回归会很简便。如果我们样本中的受访者年龄大到不再处于结婚“风险”中,这或许是一种合理的方法。然而,情况通常不会如此,因为我们通常分析的是对某一总体具有代表性的样本,因此会包括所有年龄的成年人,他们之中有些人还没有结婚,但将来会结婚。这些样本被删失了(censored),因为我们停止了对他们的观测但他们仍然处在事件发生的风险中。在这种情况下,OLS回归会得到误导性的结果,而离散时间风险率模型则正确地估计了那些仍处在风险中的人在每个年龄点上的结婚可能性(因为他们达到这些年龄点时还没有结婚)。
1702649711
1702649712
为了说明进行此类分析的具体过程,我用1994年GSS数据估计结婚的可能性,将初婚作为年龄、母亲的受教育程度、性别和种族(黑人与非黑人)的函数。考虑到美国20世纪晚期的结婚模式,我们期望结婚的可能性一开始会随年龄增大,但到25岁以后会下降。我们也期望男性较女性结婚晚。我们期望那些来自受教育水平较高家庭(用母亲的受教育程度来测量)的人结婚较晚,部分原因是他们自身倾向于接受更高水平的教育因而直到完成学业后才会结婚(尽管对有些人来讲结婚会影响继续学业的可能性)。最后,我们期望黑人比非黑人结婚的可能性小,一方面是因为黑人的社会经济地位(较低),另一方面是因为种族之间在对待婚外生育价值观上的差异。黑人因意外怀孕而被迫结婚的可能性较小。
1702649713
1702649714
可下载的文件“ch13_2.do”和“ch13_2.log”给出了我用来进行分析的具体命令和说明。由于我在这些文件中已做了大量的文字注释,这里就没有必要对其中大部分内容所涉及的具体的Stata命令做进一步说明。关于此处Stata的设置,唯一的新颖之处是-reshape-命令的使用,它被用来创建一个合适的数据集,其结果见Stata日志文件。此命令将数据由宽格式转为长格式;在当前的例子中,就是从一个“人文件”转为一个“人—年文件”,即对于他/她未婚期间的每一年,每人都有一个观测值,再加上结婚年份。这是创建一个适合离散时间风险率分析数据集的非常有效的方法,只需要几行命令。请阅读我的设置并参考Stata手册的相关部分,以确定你理解了此命令的逻辑。
1702649715
1702649716
我首先将15~56岁这一年龄段定义为风险集,因为(在删除了少量自变量有缺失值的样本之后)样本中没有人在15岁之前或56岁之后初婚。然后我估计下面形式的方程:
1702649717
1702649718
1702649719
1702649720
[
上一页 ]
[ :1.702649671e+09 ]
[
下一页 ]