打字猴:1.70264971e+09
1702649710 此时你们或许会奇怪我们为什么要这样小题大做,因为将初婚年龄作为一个间距因变量直接做OLS回归会很简便。如果我们样本中的受访者年龄大到不再处于结婚“风险”中,这或许是一种合理的方法。然而,情况通常不会如此,因为我们通常分析的是对某一总体具有代表性的样本,因此会包括所有年龄的成年人,他们之中有些人还没有结婚,但将来会结婚。这些样本被删失了(censored),因为我们停止了对他们的观测但他们仍然处在事件发生的风险中。在这种情况下,OLS回归会得到误导性的结果,而离散时间风险率模型则正确地估计了那些仍处在风险中的人在每个年龄点上的结婚可能性(因为他们达到这些年龄点时还没有结婚)。
1702649711
1702649712 为了说明进行此类分析的具体过程,我用1994年GSS数据估计结婚的可能性,将初婚作为年龄、母亲的受教育程度、性别和种族(黑人与非黑人)的函数。考虑到美国20世纪晚期的结婚模式,我们期望结婚的可能性一开始会随年龄增大,但到25岁以后会下降。我们也期望男性较女性结婚晚。我们期望那些来自受教育水平较高家庭(用母亲的受教育程度来测量)的人结婚较晚,部分原因是他们自身倾向于接受更高水平的教育因而直到完成学业后才会结婚(尽管对有些人来讲结婚会影响继续学业的可能性)。最后,我们期望黑人比非黑人结婚的可能性小,一方面是因为黑人的社会经济地位(较低),另一方面是因为种族之间在对待婚外生育价值观上的差异。黑人因意外怀孕而被迫结婚的可能性较小。
1702649713
1702649714 可下载的文件“ch13_2.do”和“ch13_2.log”给出了我用来进行分析的具体命令和说明。由于我在这些文件中已做了大量的文字注释,这里就没有必要对其中大部分内容所涉及的具体的Stata命令做进一步说明。关于此处Stata的设置,唯一的新颖之处是-reshape-命令的使用,它被用来创建一个合适的数据集,其结果见Stata日志文件。此命令将数据由宽格式转为长格式;在当前的例子中,就是从一个“人文件”转为一个“人—年文件”,即对于他/她未婚期间的每一年,每人都有一个观测值,再加上结婚年份。这是创建一个适合离散时间风险率分析数据集的非常有效的方法,只需要几行命令。请阅读我的设置并参考Stata手册的相关部分,以确定你理解了此命令的逻辑。
1702649715
1702649716 我首先将15~56岁这一年龄段定义为风险集,因为(在删除了少量自变量有缺失值的样本之后)样本中没有人在15岁之前或56岁之后初婚。然后我估计下面形式的方程:
1702649717
1702649718
1702649719
1702649720
1702649721 这里,W是以受访者年龄为条件的初婚概率,Ai是历险年龄的虚拟变量,15岁为省略类别。此回归得到的期望概率见Stata日志文件(由公式13.17估计的logit转换而来)和图13-1。审视此图,我们看到右边尾部不是很合理。
1702649722
1702649723
1702649724
1702649725
1702649726 图13-1 1994年美国成年人按历险年龄分的初婚期望概率(N=1556)
1702649727
1702649728 图的右边尾部显示,对于那些40多岁和50多岁的人,初婚概率呈上升趋势。查看下载的Stata-log-文件可以清楚地明白其原因:30多岁以后几乎人人都已结婚,因此一两个结婚案例就占了处于风险集中所有案例的不容忽视的比例。该图还在另外一种方式上产生一定的误导,因为在某些年龄(37岁、42岁、44~48岁,以及50~55岁)没有人结婚,导致(不结婚的结果)被完美预测,因此这些年龄被从方程和图中删除。这里的教训是,样本量太小可能导致误导性的结果。在继续分析之前,我删除了所有大于36岁的记录。
1702649729
1702649730 接着我再次估计模型,预测每个年龄的结婚概率(用类似于13.17的方程),然后用一个4阶多项式将历险年龄的离散年份拟合成一条平滑曲线。通过逐步增加历险年龄的乘幂并检验显著性,我发现有必要使用下面的4阶多项式来估计:
1702649731
1702649732
1702649733
1702649734
1702649735 两条曲线见图13-2和13-3。从视觉上看它们很相似,尽管正式的显著性检验表明在某些年龄点上二者之间存在显著不同。当我决定这样做的时候,我得考虑是继续用历险年龄的离散形式还是平滑形式。我倾向于用离散形式,因为它更能如实地反映数据,尽管更加简约的平滑形式也是合理的。
1702649736
1702649737
1702649738
1702649739
1702649740 图13-2 1994年美国成年人按历险年龄(15~36岁)分的初婚期望概率(离散时间模型)
1702649741
1702649742
1702649743
1702649744
1702649745 图13-3 1994年美国成年人按历险年龄(15~36岁)分的初婚期望概率(多项式模型)
1702649746
1702649747 然后,我估计另外两个模型:先纳入我认为会影响结婚年龄的其他三个变量(性别、种族和母亲的受教育程度);再纳入这三个变量与历险年龄的交互项。对所有交互项以及每个包含主效应的交互项的Wald检验清晰地表明,包括交互项的模型是首选模型,所有的检验都在0.000水平上显著。因此,在每个年龄点结婚的可能性随性别、种族和母亲的受教育程度而变化。表13-6报告了(各变量)对比率比的影响,它们是从下式估计出的系数的反对数:
1702649748
1702649749
1702649750
1702649751
1702649752 这里,W是处于风险状态的某人的结婚概率;E是受访者母亲完成的受教育年限,用与样本均值的偏差来表示;M赋值为1表示男性,为0表示女性;B赋值为1表示黑人,为0表示非黑人;Ai是历险年龄的虚拟变量,25岁为参照类别。
1702649753
1702649754 在表13-6的第一列,标示为“主效应”,表示母亲的受教育年限为样本均值的非黑人女性的结婚期望比率,用与25岁时的效应之比来表示。其余三列表示历险年龄与母亲的受教育程度、性别和种族的交互项,但这些变量在非黑人女性25岁时的系数是主效应。这些比率比可以用来做任何想做的比较。例如,在21岁前尚未结婚的女性中,黑人在此年龄段结婚的比率是非黑人的五分之三(确切地说是0.591=0.190×3.108)。在30岁尚未结婚的人群中,那些母亲是大学毕业的人在此年龄结婚的比率与同样种族、同样性别但母亲只是高中毕业的人相比高出10%〔确切地说是1.094=(0.918×1.114)4〕。
1702649755
1702649756 表13-6 用历险年龄、性别、种族和母亲的受教育程度,以及历险年龄与其他变量的交互项模型预测结婚可能性的比率比
1702649757
1702649758
1702649759
[ 上一页 ]  [ :1.70264971e+09 ]  [ 下一页 ]