1702650110
类似地,此人为“不坚定的民主党人士”的概率是:
1702650111
1702650112
1702650113
1702650114
1702650115
虽然这些概率可以用手工计算,但让Stata来操作会很简单。方法是用-predict-命令得到具有我们所期望特征的那些人的预测分布(见此例的Stata-log-文件)。表14-3给出了年收入为40000~50000美元且生活在SMSA中的大中心城市的黑人和非黑人男性党派认同的预测分布。〔当然,我同样可以对特征变量的其他各种组合估计预测概率分布。其实,即使在样本中某些变量组合并没有出现,也可以通过创建一个包含这些组合的新数据集来对其进行估计。见StataCorp(2007)中有关-predict-的讨论。〕正如我们所看到的,非黑人比在其他方面都相似的黑人在很大程度上更倾向于共和党。
1702650116
1702650117
表14-3 居住在南方以外的SMSA中的大中心城市且年收入在40000~50000美元的黑人与非黑人党派认同的预测概率分布
1702650118
1702650119
1702650120
1702650121
1702650122
1702650123
计算比率比 评估某一自变量的净影响(net effect)还有另外一种方法,即计算它对(结果变量)低于序次(量测)尺度上任意一个给定取值的比率与等于或高于该取值的比率之比的贡献。鉴于logit的计算方法,它们对比率比的贡献是常数,与分界点无关,并且已被证明(Long,1997:139),第k个自变量对比率比的贡献为。因此,举例来说,男性和女性是坚定的民主党人士相对于不是坚定的民主党人士的比率比是e-0.334=0.72;或者,更通俗地讲,在控制了其他因素之后,女性成为坚定的民主党人士(而不是其他任何一种相对更倾向于共和党的类别)的可能性比男性高约40%(准确地说是1.39=1/0.72)。类似地,女性倾向于民主党(与无党派和倾向于共和党相比)的可能性比男性高约40%。
1702650124
1702650125
与其他估计方法的比较:-gologit2- 正如我们刚才所看到的,在-ologit-估计步骤中,一个重要的约束条件是所谓的成比例比率假设(proportional odds assumption)——解释变量对因变量在任何分界点之下的比率具有同样的影响。从表面上看,通常没有理由假设比率是成比例的。例如,在区分坚定的民主党人士与所有其他人群时,以及在区分倾向于民主党的人士与其他人群(无党派和倾向于共和党的人士)时,为什么我们要假设性别具有同样的效应呢?对于其他每一个自变量我们也都有同样的疑问。一个由用户编写的-ado-文件-gologit2-〔用于一般化序次logit模型(generalized ordered logit model)〕放松了此假设,允许比率在分界点之间变化。用-gologit2-而非-ologit-来重新估计表14-2中的模型2,得到的系数见表14-4。
1702650126
1702650127
表14-4 1998年美国成年人政治党派认同的一般化序次logit模型的效应参数
1702650128
1702650129
1702650130
1702650131
1702650132
续表
1702650133
1702650134
1702650135
1702650136
1702650137
正如我们所看到的,每个变量的影响效应在类别之间有很大的不同。例如,居住在南方这一变量既没有将坚定的民主党人士或倾向于民主党的人士(包括坚定的和不坚定的民主党人士)与相对更倾向于共和党的人士区分开来,也没有将坚定的共和党人士与其他人群区分开来,但它确实显著地影响了其他区分。类似地,居住在SMSA之外对中间类别的影响要大于对两端类别的影响,而且,区分模式没有呈现很强的系统性。
1702650138
1702650139
根据我的判断,因为gologit模型比ologit模型复杂得多,用-gologit2-代替-ologit-来估计需要满足两个条件:其一,需要表明成比例比率假设不恰当;其二,gologit模型的系数是可解释的且是有意义的。要判断成比例比率假设是否不恰当,我们估计gologit模型并检验每个分界点所对应系数的等价性。在当前的例子中,我们拒绝系数相等的零假设(χ2=147,自由度为30;p<0.0000)。但是,我很难对各分界点所对应系数的差异做出明确的解释。因此,出于简约性考虑,我倾向于选择常规的序次logit模型。
1702650140
1702650141
用Stata估计一般化序次logit模型 估计一般化序次logit模型的一种常规方法的程序最早由Vincent Fu(Fu,1998)编写,他当时还只是UCLA的一名研究生。Williams(2006)改进了Fu的方法。Williams的-ado-文件-gologit2-可以在Stata中下载。键入“net search gologit2”,点击第一个条目,然后选择“Click here to install”。
1702650142
1702650143
常规最小二乘法也是一种选择 最后,我们可以将因变量当作间距变量(interval variable)来估计常规最小二乘方程。这相当于假设任何一对相邻类别之间的距离是一样的。在当前的例子中,其结果是,OLS模型得到的系数(见表14-5)与ologit模型得到的系数十分相似。因此,我们也可以简单地估计一个OLS模型,它估计和解释起来都比ologit模型简单得多。麻烦在于,除非我们同时用这两种方法来分析,否则我们真的不知道其结果在某一特定情形下是否相似。因此,一种合理的策略就是同时用两种方法来分析,如果发现结果相似,那就报告OLS结果,但要加一条注释,说明你用了两种方法而且得到的分析结果相似。当然,如果两个结果的差别足以影响结论,那么应该选择序次logit模型而非OLS模型,因为它的约束性不强;也就是说,因为它并不假设类别之间是等距的。
1702650144
1702650145
表14-5 1998年美国成年人政治党派认同的常规最小二乘回归模型的效应参数
1702650146
1702650147
1702650148
1702650149
1702650150
1702650151
1702650152
1702650154
量化数据分析:通过社会研究检验想法 针对删失因变量的tobit回归(及同类方法)
1702650155
1702650156
我们经常会遇到删失因变量,即记录的值不能反映真正的潜在变量的全部取值。经典的例子是经济学家James Tobin(1958)的研究——这就是tobit回归(tobit regression)这一名称的由来(计量经济学家Arthur Goldberger在介绍“Tobin’s probit”时最先使用了这个词)——在该研究中,如果“占有欲”足够强,人们就会购买某种商品,而“占有欲”是由花在该商品上的钱数来测量的。根据对“占有欲”的这一定义,显然,测量在0这一点上是“删失”的,因为那些没有购买行为的人其“占有欲”被记录为0。但在现实中,这些人当中的一部分人的行为或许很接近购买行为,或许价格再低一点他们就会购买;其他一些人或许根本就不想买,无论价格怎样都不会购买;还有一些人或许在买与不买之间犹豫不决。也就是说,那些“占有欲”被记录为0的人其实在相对“占有欲”上存在差异。
1702650157
1702650158
在许多其他情况下一个潜在变量也会被删失。典型的情况是当许多值低于采取行动的门槛值的时候。例如,婚外恋的次数(Fair,1978),母亲所经历的婴儿死亡次数(Wood and Lovell,1992),不同管辖区内警察所杀的人数(Jacobs and O’Bren,1998),囚犯被从监狱释放后再次被捕的次数(Witte,1980),科学论文的发表数量(Stephan and Levin,1992),一个国家示威游行的次数(Walton and Ragin,1990),年工作小时数(Rosen,1976;Keeley et al.,1978;Quester and Greene,1982)。除此之外,我们还可以设想其他各种情况:没有提供足够多答案的态度变量,最大编码值太低的以分类区间编码的收入变量,之所以会被删失,是因为只对那些经历了事件的人分析在事件发生之前所经历的时间长短(Daula,Smith,and Nord,1990)。其他应用实例包括Mare和Chen(1986),Saltzman(1987),Roncek(1992)以及Treno、Alaniz和Gruenewald(2000)。
1702650159
[
上一页 ]
[ :1.70265011e+09 ]
[
下一页 ]