打字猴:1.702649567e+09
1702649567
1702649568
1702649569
1702649570 续表
1702649571
1702649572
1702649573
1702649574
1702649575 如果GSS是美国人口的一个简单随机样本,就可以用似然比χ2值或L2值(执行-logistic-命令后在Stata输出结果中报告为LR chi2)对嵌套模型进行比较;L2被定义为某模型的对数似然与没有自变量模型的对数似然之差的2倍。如果我们分析的是一个简单随机样本,L2值会近似于χ2分布,任何两个L2值的差也会近似于χ2分布。在这种情况下,我们可以通过评估两个L2值之差的显著性来评估某一模型的拟合是否显著地好于另一个(该统计量的自由度为两个模型的自由度之差)。然而,当我们使用加权数据(weighted data)、聚类数据(clustered data)或抽样设计的估计方法时,Stata所估计的实际上是与χ2没有关系的伪对数似然值(pseudo-log likelihood)。因此,我们用一个调整的Wald检验去选择最优模型。我们在第6章中讲过,Wald检验就是评估一组系数是否都等于0。因此,我们可以用Wald检验来比较两个(层级)模型。如果结果是显著的,我们就选择更加复杂的模型——拒绝只适当地反映数据的较简单模型这一零假设,而选择更加复杂的模型。当然,如果结果不显著,我们就选择简单模型,因为它告诉我们用于区分两个模型的系数没有一个显著地不等于0。
1702649576
1702649577 出于同样的原因,有时与逻辑斯蒂回归模型一起报告的另一个统计量——pseudo-R2——也不适用于加权或整群数据。Pseudo-R2=1-L1/L0,这里,L0是只有截距项模型(即一个没有自变量的模型)的对数似然值,L1是估计模型的对数似然值。显然,如果因变量被一组自变量完全解释,则L1=0且Pseudo-R2=1;如果自变量没有任何解释作用,则Pseudo-R2=0。因此,Pseudo-R2给出了模型拟合好坏的程度。然而,在加权或整群数据的情况下,我们估计出来的是Pseudo对数似然值,随着模型的复杂化,Pseudo对数似然值会增加而非减小,因此Pseudo-R2会减小,这就不合理。更一般地讲,当估计Pseudo对数似然值时,在Pseudo对数似然值和提高拟合优度之间不存在简单的对应关系,因此,Pseudo-R2变得无法解释。出于同样的原因,BIC也不适用于基于抽样设计的估计,因为它也是基于对数似然值的比较。〔对于随机样本,逻辑斯蒂回归的BIC由-L2+(d.f.)[ln(N)]估计得到。符号与公式12.8相反,因为这里不是与饱和模型而是与一个仅含截距项的基准模型相比较。〕正如现在这个例子一样,当我们的数据来自复杂样本时,调查估计(Stata命令是-svy:logistic-)是最好的可供使用的工具,而模型比较通过调整的Wald检验进行。
1702649578
1702649579 Wald检验的局限性 对复杂样本做统计推断的恰当方法目前仍是一个尚未解决的问题。正如我们在第9章看到的,当忽略观测数据的聚类性质时——典型的情况是多阶段概率样本,统计量的标准误可能会有很大偏误——它们通常是被低估,但在某些情况下可能会被高估。然而,拟用的更正方法在理论上和现实中都具有自身的局限性。尤其是Wald检验被认为存在一些缺陷,因而会得到误导性的结果(Gould and Sribney,1999:7-8);此外,正如前面提到过的,BIC不适合用在加权或整群样本上。最佳的解决方法可能是将整群样本置于一个多层分析框架中来处理,估计固定效应(fixed-effects)或随机效应(random-effects)模型(Mason,2001),在Stata中可以用-xt-或-gee-命令完成;这些方法超出了本书的范畴,但可以参见第16章对多层分析的简要介绍。虽然现在许多公开出版的研究性著作(有一些论文甚至发表在顶级刊物上)都完全忽略复杂的样本设计,并将数据看作是使用随机抽样方法的结果,但一般来讲这是不合适的,这会导致不正确的推论。有鉴于此,对于不同形式的逻辑斯蒂回归,我建议当数据是加权的或整群的时候,你们可以用Stata的调查估计命令做参数估计,并用调整的Wald检验来选择模型。然而,在你们探索和解释不同的模型设定时需要注意,只有当数据是真正未加权的随机样本的时候,你们才应该使用-logistic-命令和似然比检验(-lrtest-)。最后,在可能的情况下,避免对数据进行加权,而改为在模型中纳入那些用来构建权重的变量。
1702649580
1702649581 查看表13-2中底部一栏的Wald检验统计量,我们看到模型2比模型1拟合得更好,但没有哪个模型显著地优于模型2。因此我们得出的结论是,受到枪械袭击的可能性取决于性别、种族和受教育程度,并且随时间呈线性变化。为了弄清楚这些关系的性质,我们来看表13-3中的系数。虽然模型4比模型2只稍具显著性(p=0.092),但我还是在表13-3中报告了模型4的系数。我之所以这样做是为了说明如何在逻辑斯蒂回归中处理交互项。
1702649582
1702649583 表13-3 表13-2中模型2和4的参数
1702649584
1702649585
1702649586
1702649587
1702649588 我们有两种方法(彼此等价)可用于讨论从逻辑斯蒂回归估计得到的影响效应:①每个自变量对因变量的对数比率的相加效应;②每个自变量对因变量的比率的乘积效应。先来介绍一下如何解释对数比率效应,也即对logits的影响效应。正如公式13.1所示,我们可以将变量对对数比率的影响(b)像OLS回归方程中的系数那样解释:在控制了所有其他变量的影响后,自变量某一单位的变化将导致受到枪械威胁的对数比率发生b个单位的变化。因此,以表13-3的模型2为例,在种族、受教育程度和调查年份保持不变的情况下,男性和女性受到枪械威胁的对数比率的差异为1.42。同样,在控制了性别、种族和受教育程度后,受到枪械威胁的期望对数比率(expected log odds)逐年增加0.0101。因此,在其他条件都相同的情况下,1994年受到枪械威胁的期望对数比率比1973年大约高出20%〔准确地说是0.2121=0.0101×(1994-1973)〕,依此类推。
1702649589
1702649590 虽然解释起来简单、直接,但对数比率的意义并不是很直观。因此,一个更好的方法是解释b的反对数,即eb。这样,在控制了所有其他变量后,自变量一个单位的变化将导致受到枪械威胁的相对比率增加(或减少)eb个单位。这直接来自公式13.6(与公式13.1是一样的):
1702649591
1702649592
1702649593
1702649594
1702649595 将等式两边取指数,我们得到:
1702649596
1702649597
1702649598
1702649599
1702649600 也就是说,属于某个二分变量的类别1而非类别2的比率由系数的反对数的乘积给出。b的反对数被解释为对比率比(odds ratios)的影响,即在保持所有其他自变量不变的情况下,在某一自变量的取值上相差一个单位的两个人(或两组人),他们(在因变量上)的比率之比。因此,以模型2为例,在种族、受教育程度和调查年份保持不变的条件下,男性受到枪械威胁的期望比率是女性的4.15倍(=e1.4235)。同样,在控制了性别、种族和受教育程度之后,受到枪械威胁的比率逐年增加1.0102,因此,1994年受到枪械威胁的净期望比率比1973年大约高出25%〔准确地说是1.2363[=e0.0101(1994-1973)=(e0.0101)(1994-1973)]〕,依此类推。
1702649601
1702649602 那么,我们能够得出什么样的实质性结论呢?在控制了其他因素后,男性曾经受到枪械威胁的期望比率是女性的4倍;受到枪械威胁的期望比率随受教育程度的提高而略微有所下降(那些至少大学毕业的人受到枪械威胁的比率比那些只受过8年教育的人低约14%——准确地说是0.8624=e(-0.0185(16-8))),但正如我们所看到的,它随时间在缓慢增加;黑人在任何年份受到枪械威胁的比率都是同性别和同等受教育程度非黑人的1.5倍以上(准确地说是1.56=e0.4463)。
1702649603
1702649604 现在让我们来看模型4。注意,受教育程度和调查年份的系数几乎没有变化。因此,我们可以只解释男性和黑人这两个变量的系数以及它们的交互项。要想知道如何解释这些系数,一种简便的方法是将受教育程度和调查年份这两个变量取固定值之后再来对方程求值。让我们取1994年和受过20年教育作为这两个变量的值,以估算种族和性别对曾经受到枪械威胁概率的影响。因此,我们计算出一个新截距:a′=a+bE×20+bY×94=-2.9037-0.0191×20+0.0101×94=-2.3363(这里,bE是受教育程度变量的系数,bY是调查年份变量的系数)。然后,我们按照种族和性别算出曾经受到枪械威胁的期望对数比率(为方便起见,称之为G)(这里,bM是男性变量的系数,bB是黑人变量的系数,而bBM是这两个变量交互项的系数)。
1702649605
1702649606 对于非黑人女性,我们有:
1702649607
1702649608 G=a′
1702649609
1702649610          =-2.3363      (13.8)
1702649611
1702649612 对于黑人女性,我们有:
1702649613
1702649614 G=a′+bB
1702649615
1702649616              =-2.3363+0.5690=-1.7673      (13.9)
[ 上一页 ]  [ :1.702649567e+09 ]  [ 下一页 ]