打字猴:1.702649848e+09
1702649848 量化数据分析:通过社会研究检验想法 [:1702644822]
1702649849 量化数据分析:通过社会研究检验想法 附录13.B Probit分析介绍
1702649850
1702649851 正如本章在开始时提到的,除了逻辑斯蒂回归之外,用来预测二分因变量模型的另一个模型是probit模型,其定义为:
1702649852
1702649853
1702649854
1702649855
1702649856 这里,Φ是标准累积正态分布,并且有k个预测变量。从此定义可知,β是z值(z scores),相应的概率由对应于某一z值的正态曲线下的面积决定。这可以由Stata中的-normal-命令完成。
1702649857
1702649858 回到本章在介绍逻辑斯蒂回归模型的解释方法时所使用的例子——受到枪械威胁或枪击可能性的决定因素。表13-B.1列出了probit模型的系数b,对应于表13-3中模型2和4的逻辑斯蒂回归系数。注意,probit模型和logit模型得出的结论相似,差别只在于模型4中的交互项在用logit模型估计时接近显著,而在用probit模型估计时则不显著。
1702649859
1702649860 因为probit是z值,所以它们表示的是预测变量一个单位的变化所引起的潜在因变量〔StataCorp,2007(Reference I-P,620)称之为“probit指标”(probit index)〕以标准差为单位的期望值的变化。然而,probit和logit都具有一个特征,即当其他变量被引入模型时潜在变量的方差会发生变化。这意味着,通过比较各方程中对应的probit来评估中间变量的影响(就像我们比较OLS的回归系数那样)是不合适的。如果要进行这种比较,我们必须首先将潜在因变量除以潜在分布的方差以将其标准化。这样就得到Y*标准化系数,它们可以在具有不同数量预测变量的方程之间直接进行比较。要了解如何实现这一过程,参阅下一章对序次logit模型Y*标准化系数的讨论〔注意,在公式14.9中probit模型的var(μ)=1〕。
1702649861
1702649862 因为probits和Y*标准化probits都没有度量单位,所以很难加以解释。因此,通常用下面两种方法中的一种对probits进行转换:在给定预测变量的具体取值的情况下计算正向结果的期望概率,或者解释每个预测变量的变化对正向结果概率的边际效应(marginal effect)。
1702649863
1702649864 再回到上面的例子。我们在本章知道了如何用模型4中的logit系数来评估不同种族和性别的期望概率。为了从probit模型中计算出相应的概率,我们需要先预测z值,然后通过累积正态变换将它们转换成概率。回想我们对在1994年时完成20年教育的人群估计的logit方程。要对在同一年调查的、受教育年限相同的人群估计probit方程,我们需要计算一个新的截距:a′=a+bE×20+bY×94=-1.7117-0.0114×20+0.0062×94=-1.3569(这里,bE是受教育年限的probit系数,bY是调查年份的probit系数)。然后,我们写出不同种族和性别的期望z值(其中,bM是男性变量的系数,bB是黑人变量的系数,bBM是交互项的系数),用Stata的-normal-命令对它们进行变换:
1702649865
1702649866       非黑人                         黑人
1702649867
1702649868   女性  Φ(a′)                   Φ(a′+bB)
1702649869
1702649870   男性  Φ(a′+bM)   Φ(a′+bB+bM+bBM)
1702649871
1702649872 用数值替换系数,我们得到:
1702649873
1702649874       非黑人             黑人
1702649875
1702649876   女性  Φ(-1.3569)=0.0874      Φ(-1.3569+0.2994)
1702649877
1702649878                       =Φ(-1.0575)=0.1451
1702649879
1702649880   男性  Φ(-1.3569+0.8126)      Φ(-1.3569+0.8126+0.2994)
1702649881
1702649882       =Φ(-0.5443)=0.2931      -0.0806)=Φ(-0.3255)=0.3724
1702649883
1702649884 注意,这些结果乘以100%后就非常接近logit模型所预测的百分比,即非黑人女性和黑人女性分别为8.8%和14.6%;非黑人男性和黑人男性分别为29.3%和37.2%(见公式13.16下面的段落)。
1702649885
1702649886 现在让我们来看边际效应。我们或许会问,对于某一自变量所发生的微小变化,期望概率的变化有多大。然而,因为probit指标和概率之间的关系是非线性的,所以答案取决于我们评估变化时自变量的取值。在评估每个变量相对于期望值的边际效应时将所有(其他)自变量设定为均值似乎最为合理,除非我们有理由不这样做,这正是Stata对连续型变量所采用的方法。但是,有一个例外——评估虚拟变量相对于其均值的边际变化是没有意义的。对于虚拟变量,一种较好的方法是计算离散变化(discrete change)——在所有其他变量(包括方程中任何其他的虚拟变量)被设定为其均值时,虚拟变量取值为0和1期望概率的差别。例如,我们想知道的是在对其他变量取其均值的人群中,男性和女性受到(枪械)威胁的期望概率差异。但是,对于连续型变量我们想知道的是相对于均值所发生的微小变化的效应。因此,对于连续型变量,边际效应被定义为在均值处概率函数的斜率,即自变量增加一个单位时概率变化的期望值。
1702649887
1702649888 模型2的边际效应见表13-B.1最右边一列。注意,我没有给出模型4的边际效应。这是因为当我们有交互项的时候,被纳入交互项的变量效应不能被分离出来。因此,对于含交互项的模型,最好是评估各种变量组合的概率,就像我们在logit模型的例子中所做的那样。
1702649889
1702649890 我们先来解释预测概率0.1753,它告诉我们在数据集中一个普通人曾经受到枪械威胁或枪击的期望概率。令人欣慰的是,预测值接近观测值——样本中受到过枪械威胁的人占19.5%。这使我们对模型的正确性有了信心。
1702649891
1702649892 现在来解释男性(变量)的边际效应。因为性别是一个二分变量,所以其系数反映了男性和女性在模型中其他特征变量取均值时曾经受到枪械威胁的期望概率的差异;在这些人中,预计男性比女性受到枪械威胁的可能性高21%。我们也看到,当其他变量取均值时,受教育年限每增加一年,受到枪械威胁的概率预计降低0.0029。受教育年限增加10年的结果又如何呢?注意,这里,我们不能对边际效应简单地进行外推。例如,如果说受教育年限增加10年将导致受到枪械威胁的期望概率减少0.029,那是不正确的。我们需要在均值和均值加上10年之间比较累积正态变换:
1702649893
1702649894
1702649895
1702649896
1702649897 表13-B.1 受到枪械威胁的probit分析的参数(对应于表13-3中的模型2和4)
[ 上一页 ]  [ :1.702649848e+09 ]  [ 下一页 ]