1702650190
(4)正确估计观测被删截时(变量)的效应;
1702650191
1702650192
(5)处理样本选择性问题。
1702650193
1702650194
在下一节中,我提供一个具体的例子来说明某些扩展(有关估计的详细内容,见下载文件“ch14_3.do”和“ch14_3.log”)。
1702650195
1702650196
具体例子:性生活频率
1702650197
1702650198
2000年GSS调查中有这样一个问题:“在过去的12个月中您的性生活频率如何?”表14-6中是详细的应答分类(以及后面即将用到的对应编码)。
1702650199
1702650200
显然,这些数据在低值和高值处同时存在删失。那些在过去一年根本没有性生活的人包括那些从来没有性生活的人和那些恰巧只是在过去一年里没有性生活的人,以及其他介于这两种情况之间的人。在测量的另一端,将一周4次或一周5次都编码为“一周3次以上”,这可能低估了新婚夫妇和一些性欲旺盛者的性生活次数。最后,某些类别包含了一定的变动范围,用中间值来表示或许并不是最优的。
1702650201
1702650202
表14-6 2000年美国成年人在过去一年内性生活频率的编码
1702650203
1702650204
1702650205
1702650206
1702650207
为了说明删失(数据)的影响,让我们设想一个简单模型,用年龄、性别和婚姻状态(目前有婚姻关系相对于没有婚姻关系)来预测性生活次数。事实上,在这个例子及在大多数含有年龄变量的分析中,纳入一个年龄的平方项会更好。但是,我在这里并没有这样做,因为仅仅包含线性项会使讲解较为简单。
1702650208
1702650209
表14-7给出了四种估计结果:
1702650210
1702650211
(1)常规最小二乘估计,原类别区间被编码为其中间值,且强制性地将“每周3次以上”这一最高类别编码为208(=52×4);
1702650212
1702650213
(2)在低值处存在删失的tobit估计;
1702650214
1702650215
(3)在低值和高值处都存在删失的tobit估计;
1702650216
1702650217
(4)在低值和高值处都存在删失的间距(变量)回归估计(interval regression estimates)。
1702650218
1702650219
比较左边两列系数,我们看到低值处的删失影响很大。如果没有正确地考虑这一删失,会将婚姻状态对性生活的影响效应低估约一半,年龄和性别的影响也会被低估很多。有趣的是,在同时考虑低值和高值处的删失后,系数反而不会有什么变化,这意味着婚姻状态、年龄和性别对性生活极度活跃的概率几乎没有影响。考察在高值处发生删失的概率证实了这一推测:即使是在性生活最活跃的人群(即年轻的有婚姻关系的男性)中,性生活每周在3次以上的比例也不超过15%。相反,过去一年完全没有性生活的概率随婚姻状态、性别,尤其是年龄的不同而存在很大差异,在年轻的有婚姻关系的男性中约为3%,在年长的没有婚姻关系的女性中约为90%。
1702650220
1702650221
表14-7 2000年美国成年人性生活模型的不同估计值(N=2258)(括号中是标准误;所有的系数在0.001或更高水平上统计显著)
1702650222
1702650223
1702650224
1702650225
1702650226
除了概率之外,我们还对三个预测值感兴趣:模型的线性预测(linear prediction)、删失预测(censored prediction)和删截预测(truncated prediction)。根据模型4对有婚姻关系的女性按年龄画出这些预测值,结果见图14-1。线性预测是从模型得到的潜变量预测,它告诉我们,在控制了其他因素之后,年龄每增加一岁,一年内的性生活次数大约下降2.3次。图14-1告诉我们,对有婚姻关系的女性来说,性生活次数在70岁左右时下降到每年不足一次。虽然负观测值没有意义,但线性预测给出了潜在或隐含变量的取值。我们可以认为此变量反映了性生活的倾向,它稳定地随着年龄的增加而下降(当然,这是因为我们将性生活次数模型化为年龄的一个线性函数)。
1702650227
1702650228
当因变量被观测时,删失预测等同于潜变量预测(latent prediction);当因变量存在删失时,删失预测就等于删失值。(Stata用“ystar”选项来得到删失预测,尽管Y*如公式14.12那样通常被用来表示潜在变量——这在某种程度上会令人感到困惑。)因此,在当前的例子中,我们假设0和208对于那些最低和最高值组别的人来讲就是真实值。根据建模规则,删失预测必须落在未删失观测的值域范围之内。
1702650229
1702650230
1702650231
1702650232
1702650233
图14-1 2000年美国有婚姻关系的女性年性生活次数期望值的三种估计(N=552)
1702650234
1702650235
删截预测只限于那些没有发生删失现象的观测。在这种情况下,删截预测对那些在过去一年有过性生活的人给出他们性生活次数的预测值。注意,删失预测和删截预测都不是线性的。因此,必须在自变量的特定取值上对这些预测值进行评估。一般情况下,我们感兴趣的是线性预测。
1702650236
1702650237
我们现在来看如何解释tobit系数,让我们将分析略微扩展到更加符合实际的情况。我增加了年龄的平方项以及年龄、性别和婚姻状态之间的交互项。正如在数据分析过程中所显示的那样,没有必要设定婚姻状态、性别分别与年龄和年龄平方的三维交互项;含三维交互项的模型在拟合性上并没有显著地优于只含两组二维交互项的模型——性别分别与年龄和年龄平方的二维交互以及婚姻状态分别与年龄和年龄平方的二维交互。此模型的系数可在下载文件“ch14_3.log”中看到。因为很难直接对它们进行解释,我针对每种性别—婚姻状态的组合画出了年龄与性生活次数之间的关系(见图14-2)。
1702650238
1702650239
[
上一页 ]
[ :1.70265019e+09 ]
[
下一页 ]