1702649704
量化数据分析:通过社会研究检验想法 第三个具体例子(离散时间风险率模型):初婚年龄
1702649705
1702649706
二项逻辑斯蒂回归最强有力的应用之一是估计离散时间风险率模型(discrete-time hazard-rate models),有时被称作事件史模型(event history models)。风险率模型的分析对象是事件发生的比率或一个事件将在某一特定时间发生的可能性。已经有很好的统计技术估计这类模型,它们中的大多数超出了本书的范围。这类模型的一种特殊形式是将时间作为一组离散值来估计某一事件在每个时间段发生的可能性,然而,一旦对数据做适当的处理,就可以使用传统的二项逻辑斯蒂回归方法。正如我们接下来会看到的,离散时间风险率模型在形式上确实等价于我们刚才讨论过的教育转变模型。
1702649707
1702649708
基本步骤是创建一个人—期数据集(person-period data set),即将原始数据集中处在事件发生“风险”的每一个人的每一时期的记录进行堆积排列。例如,假设我们有兴趣估计人们在特定年龄结婚的可能性,比如说从15岁到36岁的每个年龄点。我们可以通过创建一个新数据集来完成这一估计,新数据集由每个人在未婚期间每一年的观测构成,如果结婚,再加上结婚年龄,直到(并包括)现在的年龄为止。因变量是一个二分变量,如果某人在某一年龄结婚,赋值为1,否则为0。对于已经结婚的人,将因变量从15岁到结婚前的每个年龄点都赋值为0,将结婚时的年龄点赋值为1。将代表结婚之后各年龄点的观测从数据集中删除,因为一旦结婚,个人就不再处于(初)婚的“风险”之中。对于从来没有结过婚的人,将因变量在从15岁到当前年龄的所有年份都赋值为0。大于当前年龄的记录被从数据集中删除,因为对于尚未达到年龄点的人来说,他们显然不在结婚“风险”之中。然后,我们就可以用通常的方法来分析此数据集,即估计一个二项逻辑斯蒂回归方程。
1702649709
1702649710
此时你们或许会奇怪我们为什么要这样小题大做,因为将初婚年龄作为一个间距因变量直接做OLS回归会很简便。如果我们样本中的受访者年龄大到不再处于结婚“风险”中,这或许是一种合理的方法。然而,情况通常不会如此,因为我们通常分析的是对某一总体具有代表性的样本,因此会包括所有年龄的成年人,他们之中有些人还没有结婚,但将来会结婚。这些样本被删失了(censored),因为我们停止了对他们的观测但他们仍然处在事件发生的风险中。在这种情况下,OLS回归会得到误导性的结果,而离散时间风险率模型则正确地估计了那些仍处在风险中的人在每个年龄点上的结婚可能性(因为他们达到这些年龄点时还没有结婚)。
1702649711
1702649712
为了说明进行此类分析的具体过程,我用1994年GSS数据估计结婚的可能性,将初婚作为年龄、母亲的受教育程度、性别和种族(黑人与非黑人)的函数。考虑到美国20世纪晚期的结婚模式,我们期望结婚的可能性一开始会随年龄增大,但到25岁以后会下降。我们也期望男性较女性结婚晚。我们期望那些来自受教育水平较高家庭(用母亲的受教育程度来测量)的人结婚较晚,部分原因是他们自身倾向于接受更高水平的教育因而直到完成学业后才会结婚(尽管对有些人来讲结婚会影响继续学业的可能性)。最后,我们期望黑人比非黑人结婚的可能性小,一方面是因为黑人的社会经济地位(较低),另一方面是因为种族之间在对待婚外生育价值观上的差异。黑人因意外怀孕而被迫结婚的可能性较小。
1702649713
1702649714
可下载的文件“ch13_2.do”和“ch13_2.log”给出了我用来进行分析的具体命令和说明。由于我在这些文件中已做了大量的文字注释,这里就没有必要对其中大部分内容所涉及的具体的Stata命令做进一步说明。关于此处Stata的设置,唯一的新颖之处是-reshape-命令的使用,它被用来创建一个合适的数据集,其结果见Stata日志文件。此命令将数据由宽格式转为长格式;在当前的例子中,就是从一个“人文件”转为一个“人—年文件”,即对于他/她未婚期间的每一年,每人都有一个观测值,再加上结婚年份。这是创建一个适合离散时间风险率分析数据集的非常有效的方法,只需要几行命令。请阅读我的设置并参考Stata手册的相关部分,以确定你理解了此命令的逻辑。
1702649715
1702649716
我首先将15~56岁这一年龄段定义为风险集,因为(在删除了少量自变量有缺失值的样本之后)样本中没有人在15岁之前或56岁之后初婚。然后我估计下面形式的方程:
1702649717
1702649718
1702649719
1702649720
1702649721
这里,W是以受访者年龄为条件的初婚概率,Ai是历险年龄的虚拟变量,15岁为省略类别。此回归得到的期望概率见Stata日志文件(由公式13.17估计的logit转换而来)和图13-1。审视此图,我们看到右边尾部不是很合理。
1702649722
1702649723
1702649724
1702649725
1702649726
图13-1 1994年美国成年人按历险年龄分的初婚期望概率(N=1556)
1702649727
1702649728
图的右边尾部显示,对于那些40多岁和50多岁的人,初婚概率呈上升趋势。查看下载的Stata-log-文件可以清楚地明白其原因:30多岁以后几乎人人都已结婚,因此一两个结婚案例就占了处于风险集中所有案例的不容忽视的比例。该图还在另外一种方式上产生一定的误导,因为在某些年龄(37岁、42岁、44~48岁,以及50~55岁)没有人结婚,导致(不结婚的结果)被完美预测,因此这些年龄被从方程和图中删除。这里的教训是,样本量太小可能导致误导性的结果。在继续分析之前,我删除了所有大于36岁的记录。
1702649729
1702649730
接着我再次估计模型,预测每个年龄的结婚概率(用类似于13.17的方程),然后用一个4阶多项式将历险年龄的离散年份拟合成一条平滑曲线。通过逐步增加历险年龄的乘幂并检验显著性,我发现有必要使用下面的4阶多项式来估计:
1702649731
1702649732
1702649733
1702649734
1702649735
两条曲线见图13-2和13-3。从视觉上看它们很相似,尽管正式的显著性检验表明在某些年龄点上二者之间存在显著不同。当我决定这样做的时候,我得考虑是继续用历险年龄的离散形式还是平滑形式。我倾向于用离散形式,因为它更能如实地反映数据,尽管更加简约的平滑形式也是合理的。
1702649736
1702649737
1702649738
1702649739
1702649740
图13-2 1994年美国成年人按历险年龄(15~36岁)分的初婚期望概率(离散时间模型)
1702649741
1702649742
1702649743
1702649744
1702649745
图13-3 1994年美国成年人按历险年龄(15~36岁)分的初婚期望概率(多项式模型)
1702649746
1702649747
然后,我估计另外两个模型:先纳入我认为会影响结婚年龄的其他三个变量(性别、种族和母亲的受教育程度);再纳入这三个变量与历险年龄的交互项。对所有交互项以及每个包含主效应的交互项的Wald检验清晰地表明,包括交互项的模型是首选模型,所有的检验都在0.000水平上显著。因此,在每个年龄点结婚的可能性随性别、种族和母亲的受教育程度而变化。表13-6报告了(各变量)对比率比的影响,它们是从下式估计出的系数的反对数:
1702649748
1702649749
1702649750
1702649751
1702649752
这里,W是处于风险状态的某人的结婚概率;E是受访者母亲完成的受教育年限,用与样本均值的偏差来表示;M赋值为1表示男性,为0表示女性;B赋值为1表示黑人,为0表示非黑人;Ai是历险年龄的虚拟变量,25岁为参照类别。
[
上一页 ]
[ :1.702649703e+09 ]
[
下一页 ]