1702650060
·无党派人士
1702650061
1702650062
·无党派人士,倾向于共和党
1702650063
1702650064
·不坚定的共和党人士
1702650065
1702650066
·坚定的共和党人士基于共和党日渐由非都市地区富裕的非黑人男性(尤其是从南方来的这类人)构成这一事实,我用下面一些变量来预测人们在上述响应类别之下的一个连续型变量上的分值:·居住地大小〔住在标准都市统计区域(Standard Metropolitan Statistical Areas,SMSAs)中的大中心城市(人口超过25万)的人,其他住在SMSAs中的人,以及住在SMSAs之外的人〕;
1702650067
1702650068
·收入〔取各收入区间的中间值(在问卷中,收入为区间选项),将11万美元及以上这个最高的开放区间重新编码为15万美元〕;
1702650069
1702650070
·性别(男性与女性);
1702650071
1702650072
·居住区域(南方与其他地方);
1702650073
1702650074
·种族(黑人与非黑人)。考虑到聚类效应和家庭户规模差异,我们使用调查估计方法(survey estimation)。执行此分析的Stata命令见下载文件“ch14_2.do”,其结果见下载文件“ch14_2.log”。
1702650075
1702650076
序次逻辑斯蒂回归的一个特性(这一特性也适用于前一章讨论过的二项逻辑斯蒂回归模型)是,当(新的)变量被加入预测方程时,假定的在观测到的结果变量之下的潜在变量的方差会发生变化。因此,像在OLS模型中通常所做的那样,直接比较各模型的相应系数是不合适的(见第6章)。正确的方法是,潜在因变量必须先被标准化。为了说明如何进行这种标准化以及如何解释得到的系数,我估计两个模型——模型1省略种族变量,模型2包括种族。
1702650077
1702650078
先来看模型1,见表14-2的左栏。我们看到,所有变量的符号都与期望相符——正号意味着偏向认同共和党。然而,居住在南方这一变量根本不显著。(为了评估两个“城市”系数的联合显著性,我按照通常所用的方法,使用Stata的-test-命令。检验得出的结论是,城市差异是显著的,且远远大于一般的程度。)现在来看模型2。一旦黑人变量被加入模型,居住在南方这一变量变得略微显著(在0.048的水平上)。这正是我们所期望的,因为黑人比非黑人更有可能居住在南方(53%的黑人居住在南方,而非黑人的这一比例只有33%),而且黑人远比非黑人更有可能认同民主党(63%的黑人认同民主党,而非黑人的这一比例只有30%)。当种族变量不在模型中时,南方黑人民主党(在样本中)的高比例抑制了居住在南方这一变量对共和党认同倾向的正向影响。一旦我们控制了种族,此影响就表现出来了。
1702650079
1702650080
表14-2 1998年美国成年人政治党派认同的一个序次logit模型的效应参数(N=2443)
1702650081
1702650082
1702650083
1702650084
1702650085
续表
1702650086
1702650087
1702650088
1702650089
1702650090
将logits转换为Y*的标准化形式 审视系数我们会发现,在模型中纳入种族变量大幅提升了居住在南方这一变量的影响——从0.050上升到0.187。然而,这种比较是不合适的,因为当新的变量被纳入模型时,潜在变量“共和党主义”的方差会发生变化。因此,在比较系数之前,有必要对系数进行标准化。虽然在这方面有好几种方法,但其中一种特别有吸引力的方法是只对潜在因变量进行标准化,以使得到的(标准化Y*的)系数表示自变量变化一个单位时期望得到的潜在变量标准差的变化。正如我们在第6章看到的,标准化Y*相对于完全标准化的一个重要优点是,完全标准化了的系数对于分类变量并不适合,因为对此类变量而言,它们会同时受到各类别中样本量相对大小以及量测效应(metric effect)大小的影响。
1702650091
1702650092
即使我们不想在模型之间比较相应系数的大小,对系数进行标准化也还有另一个原因,那就是潜在因变量本身没有量测单位,因而非标准化系数的大小没有意义。(从公式14.3可知,表14-2中的系数表示,在其他自变量保持不变的情况下,每个自变量一个单位的变化对未被观测到的或潜在因变量Y*的影响。)然而,因为有可能估计Y*的方差,我们就可以将系数除以Y*的标准差来得到半标准化系数,即Y*标准化系数,它可以被解释为,当两人在给定的自变量上相差一个单位时,期望得到的在Y*上的差异的标准差数值,也就是,
1702650093
1702650094
1702650095
1702650096
1702650097
这里,bi是第i个变量的系数,βi是Y*标准化系数。为得到Y*的方差,我用Long(1997:129)的公式:
1702650098
1702650099
var(Y*)=B′VB+var(μ) (14.9)
1702650100
1702650101
这里,B是系数向量,V是自变量的方差—协方差矩阵,且var(μ)为π2/3。(关于如何估计这些系数,见下载文件“ch14_2.do”,系数被报告在表14-2中每一栏的最右边一列。)
1702650102
1702650103
让我们来看模型2。正如我们所看到的,在控制了其他因素之后,黑人的共和党倾向比非黑人低将近半个标准差,其他变量都没有如此强的影响。尤其是,尽管居住在南方这一变量的影响是正向的,但相当弱,只有性别影响的约一半,也只有居住在非标准都市统计区域影响的1/3。家庭收入也只有微弱的影响。例如,在控制了其他因素之后,两个人的年收入差异要达到约184000美元才能产生类似于黑人与非黑人之间在共和党倾向上的那种差异(准确地讲是0.423=0.023×18.39)。
1702650104
1702650105
计算预测百分比 评估影响程度的另一种方法是计算自变量取特定值时的预测百分比。为达到这一目的,我们需要同时考虑每个自变量的系数以及与方程14.4中分界点(cut point)k对应的辅助参数(ancillary parameters)。用这两组系数一起对类别进行建模。例如,我们依据方程14.7可以估计(依据模型2的系数),一个年收入为40000~50000美元且生活在南方以外的SMSA中的大中心城市的非黑人男性被归类为“坚定的民主党人士”的概率是:
1702650106
1702650107
1702650108
1702650109
[
上一页 ]
[ :1.70265006e+09 ]
[
下一页 ]