1702649544
1702649546
量化数据分析:通过社会研究检验想法 逻辑斯蒂回归的第一个具体例子:预测枪械威胁的发生率
1702649547
1702649548
假设我们有兴趣研究是什么影响了一个人曾经被枪械威胁的可能性。更进一步,假设我们有兴趣弄清楚枪械威胁的发生率是否随时间发生变化(研究后一个问题为我们提供了另一个机会来展示如何用GSS数据进行历时比较)。首先,我们或许会认为男性比女性更有可能经历此类威胁。这不仅是因为一部分男性会参军作战(不像女性直到最近才会如此),而且因为男性比女性更有可能卷入犯罪活动、酒吧斗殴和其他对抗性活动。其次,鉴于居住隔离和闲暇活动的差别,受枪械威胁的可能性应该与社会经济地位呈负相关。为方便起见,我将受教育程度作为社会经济地位(SES)的一个指标:与职业地位和收入这两个变量不同,受教育程度在整个成年期是基本不变的,并且解释起来对男性和女性而言是一样的。再次,鉴于居住地域上的歧视,即使中产阶级黑人也被迫居住在高犯罪率的社区,在控制了SES变量后,黑人可能会比其他种族更多地受到枪械威胁。最后,美国“礼崩乐坏”这种观点意味着枪械威胁的发生率会随时间而上升。
1702649549
1702649550
GSS数据中有用来评估这些可能性的数据。从1973年到1994年的大多数年份,受访者被问及“您是否曾经受到枪械威胁,或受到枪击?”此外,每位受访者的性别、种族(白人、黑人和其他),以及受教育程度(完成的受教育年限,数值范围为0~20)都已知。我先删除了5031个没有回答此问题的样本(大多是因为在某些年份只对部分受访者问了这个问题),再删除52个缺失受教育程度信息的样本,又删除了16个缺失家庭户中成年人数量信息(这被用来构建权重变量)的样本。这样一来就得到了19260个1973~1994年的有效样本。我将每一年作为一个(抽样)层,用调查估计方法(survey estimation procedures)进行分析(关于估计的详细内容,见附录B和下载文件“ch13_1.do”和“ch13_1.log”)。
1702649551
1702649552
表13-1证实,在曾经受到枪械威胁方面,男性比女性的百分比明显高得多,黑人比其他种族的百分比略高。至于教育获得或年份,很难从中看出一个统一的模式,这可能是由于这两个变量的影响效应具有相互抑制性,因为受教育程度一直随时间在提高。
1702649553
1702649554
表13-1 1973~1994年美国成年人按一些变量分类的曾经受到枪械威胁的百分比(N=19260)
1702649555
1702649556
1702649557
1702649558
1702649559
表13-1的技术要点
1702649560
1702649561
注意,表13-1中的百分比是基于加权频数计算的,但给出的百分比基数却是未加权频数。我对数据做加权处理是因为要考虑不同的家庭户规模,调整1987年数据中对黑人的过度抽样,以及使每个年份的数据对样本的贡献相等(详见下载文件“ch13_1.do”)。对于描述统计量,有必要使用加权数据获得对总体的正确估计。但是,报告未加权N值以告诉读者每项计算所用的实际样本数是可取的。
1702649562
1702649563
我的首要任务是选择一个最优模型。表13-2给出了5个模型的拟合优度统计量。模型1是基准模型,它假设性别、种族和受教育程度显著地影响受到枪械威胁的比率。模型2进一步假设,在控制了性别、种族和受教育程度的影响后,受枪械威胁的(对数)比率呈线性趋势。如果受枪械威胁的可能性随时间上升,那么与年份相关的系数应该是正数。模型3假设受枪械威胁的(对数)比率围绕某一线性趋势逐年变化。模型1、2和3彼此之间具有层级关系。模型4假设受到枪械威胁的对数比率取决于性别、种族和受教育程度;对数比率随时间呈线性增加;性别和种族具有交互效应——其假设是,受到枪械威胁可能性的性别差异在黑人中比在其他种族中要小,这是由居住地域上的歧视造成的,因为黑人比其他种族更可能居住在危险社区,所以黑人妇女特别容易受到威胁。模型5将同样的论点扩展到包含种族和受教育程度的交互项,即假设受教育程度对受到枪械威胁的比率的影响在黑人中比在其他种族中要小,因为即使是受过良好教育的黑人在居住地域也处于不利地位。
1702649564
1702649565
表13-2 几个预测美国成年人在1973~1994年受到枪械威胁发生率模型的拟合优度统计量
1702649566
1702649567
1702649568
1702649569
1702649570
续表
1702649571
1702649572
1702649573
1702649574
1702649575
如果GSS是美国人口的一个简单随机样本,就可以用似然比χ2值或L2值(执行-logistic-命令后在Stata输出结果中报告为LR chi2)对嵌套模型进行比较;L2被定义为某模型的对数似然与没有自变量模型的对数似然之差的2倍。如果我们分析的是一个简单随机样本,L2值会近似于χ2分布,任何两个L2值的差也会近似于χ2分布。在这种情况下,我们可以通过评估两个L2值之差的显著性来评估某一模型的拟合是否显著地好于另一个(该统计量的自由度为两个模型的自由度之差)。然而,当我们使用加权数据(weighted data)、聚类数据(clustered data)或抽样设计的估计方法时,Stata所估计的实际上是与χ2没有关系的伪对数似然值(pseudo-log likelihood)。因此,我们用一个调整的Wald检验去选择最优模型。我们在第6章中讲过,Wald检验就是评估一组系数是否都等于0。因此,我们可以用Wald检验来比较两个(层级)模型。如果结果是显著的,我们就选择更加复杂的模型——拒绝只适当地反映数据的较简单模型这一零假设,而选择更加复杂的模型。当然,如果结果不显著,我们就选择简单模型,因为它告诉我们用于区分两个模型的系数没有一个显著地不等于0。
1702649576
1702649577
出于同样的原因,有时与逻辑斯蒂回归模型一起报告的另一个统计量——pseudo-R2——也不适用于加权或整群数据。Pseudo-R2=1-L1/L0,这里,L0是只有截距项模型(即一个没有自变量的模型)的对数似然值,L1是估计模型的对数似然值。显然,如果因变量被一组自变量完全解释,则L1=0且Pseudo-R2=1;如果自变量没有任何解释作用,则Pseudo-R2=0。因此,Pseudo-R2给出了模型拟合好坏的程度。然而,在加权或整群数据的情况下,我们估计出来的是Pseudo对数似然值,随着模型的复杂化,Pseudo对数似然值会增加而非减小,因此Pseudo-R2会减小,这就不合理。更一般地讲,当估计Pseudo对数似然值时,在Pseudo对数似然值和提高拟合优度之间不存在简单的对应关系,因此,Pseudo-R2变得无法解释。出于同样的原因,BIC也不适用于基于抽样设计的估计,因为它也是基于对数似然值的比较。〔对于随机样本,逻辑斯蒂回归的BIC由-L2+(d.f.)[ln(N)]估计得到。符号与公式12.8相反,因为这里不是与饱和模型而是与一个仅含截距项的基准模型相比较。〕正如现在这个例子一样,当我们的数据来自复杂样本时,调查估计(Stata命令是-svy:logistic-)是最好的可供使用的工具,而模型比较通过调整的Wald检验进行。
1702649578
1702649579
Wald检验的局限性 对复杂样本做统计推断的恰当方法目前仍是一个尚未解决的问题。正如我们在第9章看到的,当忽略观测数据的聚类性质时——典型的情况是多阶段概率样本,统计量的标准误可能会有很大偏误——它们通常是被低估,但在某些情况下可能会被高估。然而,拟用的更正方法在理论上和现实中都具有自身的局限性。尤其是Wald检验被认为存在一些缺陷,因而会得到误导性的结果(Gould and Sribney,1999:7-8);此外,正如前面提到过的,BIC不适合用在加权或整群样本上。最佳的解决方法可能是将整群样本置于一个多层分析框架中来处理,估计固定效应(fixed-effects)或随机效应(random-effects)模型(Mason,2001),在Stata中可以用-xt-或-gee-命令完成;这些方法超出了本书的范畴,但可以参见第16章对多层分析的简要介绍。虽然现在许多公开出版的研究性著作(有一些论文甚至发表在顶级刊物上)都完全忽略复杂的样本设计,并将数据看作是使用随机抽样方法的结果,但一般来讲这是不合适的,这会导致不正确的推论。有鉴于此,对于不同形式的逻辑斯蒂回归,我建议当数据是加权的或整群的时候,你们可以用Stata的调查估计命令做参数估计,并用调整的Wald检验来选择模型。然而,在你们探索和解释不同的模型设定时需要注意,只有当数据是真正未加权的随机样本的时候,你们才应该使用-logistic-命令和似然比检验(-lrtest-)。最后,在可能的情况下,避免对数据进行加权,而改为在模型中纳入那些用来构建权重的变量。
1702649580
1702649581
查看表13-2中底部一栏的Wald检验统计量,我们看到模型2比模型1拟合得更好,但没有哪个模型显著地优于模型2。因此我们得出的结论是,受到枪械袭击的可能性取决于性别、种族和受教育程度,并且随时间呈线性变化。为了弄清楚这些关系的性质,我们来看表13-3中的系数。虽然模型4比模型2只稍具显著性(p=0.092),但我还是在表13-3中报告了模型4的系数。我之所以这样做是为了说明如何在逻辑斯蒂回归中处理交互项。
1702649582
1702649583
表13-3 表13-2中模型2和4的参数
1702649584
1702649585
1702649586
1702649587
1702649588
我们有两种方法(彼此等价)可用于讨论从逻辑斯蒂回归估计得到的影响效应:①每个自变量对因变量的对数比率的相加效应;②每个自变量对因变量的比率的乘积效应。先来介绍一下如何解释对数比率效应,也即对logits的影响效应。正如公式13.1所示,我们可以将变量对对数比率的影响(b)像OLS回归方程中的系数那样解释:在控制了所有其他变量的影响后,自变量某一单位的变化将导致受到枪械威胁的对数比率发生b个单位的变化。因此,以表13-3的模型2为例,在种族、受教育程度和调查年份保持不变的情况下,男性和女性受到枪械威胁的对数比率的差异为1.42。同样,在控制了性别、种族和受教育程度后,受到枪械威胁的期望对数比率(expected log odds)逐年增加0.0101。因此,在其他条件都相同的情况下,1994年受到枪械威胁的期望对数比率比1973年大约高出20%〔准确地说是0.2121=0.0101×(1994-1973)〕,依此类推。
1702649589
1702649590
虽然解释起来简单、直接,但对数比率的意义并不是很直观。因此,一个更好的方法是解释b的反对数,即eb。这样,在控制了所有其他变量后,自变量一个单位的变化将导致受到枪械威胁的相对比率增加(或减少)eb个单位。这直接来自公式13.6(与公式13.1是一样的):
1702649591
1702649592
1702649593
[
上一页 ]
[ :1.702649544e+09 ]
[
下一页 ]