1702649936
量化数据分析:通过社会研究检验想法 多项logit分析
1702649937
1702649938
我们有时会分析具有两个以上类别的分类因变量。在这种情况下,我们可以使用二项逻辑斯蒂回归的一个自然扩展的形式——多项逻辑斯蒂回归。其方法是同时估计一组逻辑斯蒂回归方程,其形式为
1702649939
1702649940
1702649941
1702649942
1702649943
1702649944
1702649945
1702649946
这里,因变量的某一类别被省略了,成为参照类别。对于某个具有m+1个类别的因变量,这种估计方法会产生m个逻辑斯蒂回归方程,每个方程预测的是个案落入某一特定类别而非参照类别的对数比率(参照类别在这里用Y=0来表示)。然而,请注意,虽然解释起来类似于二项逻辑斯蒂回归,但这里的估计方法并不等价于估计一组二项逻辑斯蒂回归方程;二项逻辑斯蒂回归方程预测的是落入某一特定类别相对于不落入此类别的比率。一般来说,两种方法得到的估计值将会不同,而且在这种情况下二项逻辑斯蒂回归估计将是不正确的。
1702649947
1702649948
这很容易理解。设想我们有兴趣研究在1988年的波兰,是什么因素决定了一个人是共产党官员,是共产党员但不是官员,或者既不是党员也不是官员。如果我们估计一个预测普通党员身份(但没有官员身份)的二项逻辑斯蒂回归方程,以及另一个预测党员兼官员身份的二项逻辑斯蒂回归方程,我们会在第一个方程那儿遇到麻烦,因为相反的那个类别(即不是普通党员)会同时包括既不是党员也不是官员的人以及既是党员又是官员的人。这样,得到的系数会具有误导性。例如,受教育程度与党员身份之间的系数可能会非常小,因为既是党员又是官员的人的受教育程度可能会比仅仅是党员的人要高,而普通党员的受教育程度可能比非党员要高。
1702649949
1702649950
处理这种问题的合适方法是估计一个具有三个类别——非党员、普通党员和官员——的多项逻辑斯蒂回归模型。结果会得到两个方程:一个是将普通党员与非党员相比,另一个是将官员与非党员相比,然后可以用常规方法来解释。另一种方法是做序列logit分析(sequential logit analysis):先将党员与非党员相比,然后只在党员人群中将官员与普通党员相比。选择哪一种方法取决于成为党员或党员兼官员的机制是怎样的(见本章结尾“其他分析模型”部分的简要讨论)。
1702649951
1702649952
具体例子:捷克人使用外语的情况
1702649953
1702649954
为了理解此方法在实际应用中是如何操作的,我们来分析在捷克影响英语和俄语使用情况的因素。这里使用的数据是1993年收集的5496名年龄在20~69岁的全国代表性概率样本,是1989年后东欧社会分层(Social Stratification in Eastern Europe After 1989)调查的一部分(Treiman and Szelényi,1993;关于这个调查以及如何获得数据和相关文本的详细说明见附录A)。在这里我们考虑4个群体:
1702649955
1702649956
(1)既不说英语也不说俄语的人;
1702649957
1702649958
(2)说英语但不说俄语的人;
1702649959
1702649960
(3)说俄语但不说英语的人;
1702649961
1702649962
(4)两种语言都说的人。
1702649963
1702649964
要被划分为会说某种语言,受访者必须报告他/她说这种语言“较好”或“很好”;那些“只会一点点”或“根本不会”的人或者没有回答此问题的人都被归为不会说这种语言。因为调查在捷克进行,每个受访者都说捷克语,少数人还会说除俄语和英语之外的第二种语言,但这里不分析这种情况。
1702649965
1702649966
我的预期是专业技术人员比从事其他职业的人说英语的可能性更大,因为现在英语是科学、技术和学术交流的国际语言,因此,会说英语这种能力对提升专业能力相当重要。那些曾经是共产党员的人,尤其是那些政府或党的官员,比其他职业的人说俄语的可能性更大,因为俄语对前东欧集团(Eastern Bloc)内的政治升迁来说是必需的。管理者是否或在多大程度上会说英语(或许英语对进行国际贸易来说是必需的)或俄语(或许俄语对处理前东欧集团的事务来说是必需的)的比率不是很清楚。
1702649967
1702649968
为了识别那些职业生涯对俄语有潜在需要的人,我根据受访者1988年的职业对他们进行划分,并针对1988年的职业构建了4个虚拟变量,属于某个类别就赋值为1,否则为0;包括官员、其他管理者、专业技术人员,以及其他。〔这个变量是根据ISCO 88的扩展版本重新编码后构建的,见Treiman(1994,附录C)。“官员”包括编码1000~1166,“其他管理者”包括编码1200~1320,“专业技术人员”包括编码2000~3480,“其他”包括编码4000~9333。那些没有报告1988年职业的人被排除在分析之外。〕除了这些变量之外,我还使用了受教育年限这一控制变量,因为显然那些受过教育的人一般来说更有可能会说外语。
1702649969
1702649970
为了调整家庭规模差异并使样本特征符合总体分布,对数据进行了加权处理(详细内容见Treiman,1994,Section I.G)。但是,标准误并没有针对整群(clustering)抽样的情况做调整。在抽样设计中,普查区(census tracts)按照规模被分为8层,然后在每层中随机抽取家庭户。由于该调查的文本记录没有给出可以识别分层的信息,没有办法,我们只能将样本当作是一个简单(加权)随机样本。考虑到普查区的规模与其他特征之间可能并不存在系统性关联,不对(抽样)分层做调整可能不会出现什么问题。对1988年有工作且信息完整的3945人进行分析的结果报告在表14-1中(可下载文件“ch14_1.log”记载了Stata的分析记录,而“ch14_1.do”则给出了用来得到这些结果的-do-文件)。
1702649971
1702649972
分析表14-1中的系数,我们看到,正如预期的那样,会说俄语或会说英语或两种语言都会说(相对于参照组——两种语言都不会)的比率随受教育年限的增加大幅提高。表格第二部分显示的比率乘数告诉我们,受教育年限每增加一年,会说俄语的人的比率就会提高25%,会说英语的人的比率则会提高36%,两种语言都会说的人的比率将提高51%——所有这些都是相对于既不说俄语也不说英语(这个参照组)的人的比率。因此,举例来说,在控制了其他因素后,一个捷克大学毕业生会说俄语而不会说英语(与既不会说俄语也不会说英语的人相比)的比率几乎是一个高中毕业生相应比率的2.5倍(因为1.248(16-12)=2.43)。大学毕业生会说英语而不会说俄语的比率是高中毕业生相应比率的3倍以上(因为1.363(16-12)=3.45)。大学毕业生俄语和英语都会说的比率是高中毕业生相应比率的5倍以上(因为1.508(16-12)=5.17)。
1702649973
1702649974
注意,我们并非只能与被省略了的参照组进行比较。通过将对数比率系数相减(或者取比率乘数之比),我们能够对有明确系数的类别进行比较。因此,举例来说,受教育年限每增加一年,一个捷克人会说英语而不会说俄语的比率提高约9%(因为e(0.3096-0.2213)=1.363/1.248=1.092)。由此,大学毕业生会说英语而不会说俄语(与会说俄语而不会说英语的人相比)的比率比高中毕业生的相应比率高出40%还多,因为[e4(0.3096-0.2213)=(1.363/1.248)4=1.423]。〔注意,我们的一般准则是有三位有效小数就足够了,但这里可能最好是报告系数的4位小数,因为在接下来的计算中它们经常会被用到。当只报告三位小数时,会产生太多的省略误差,这样会导致可下载文件“ch14_1.log”中显示的系数所暗含的数学关系不成立。〕
1702649975
1702649976
我们注意到,正如所期望的那样,共产党员身份使会说俄语的人的比率增大,而使会说英语的人的比率降低,但对同时会说这两种语言的人的比率没有影响。在所有其他条件都相同的情况下,共产党员会说俄语而不会说英语的比率比两种语言都不会说的共产党员的比率高大约三分之一,而共产党员会说英语而不会说俄语的比率是两种语言都不会说的共产党员的比率的约40%。因此,共产党员会说俄语而不会说英语的比率是会说英语而不会说俄语的共产党员比率的3倍以上(因为e(0.3020-(-0.8965))=1.353/0.408=3.316)。对政府或党的官员来说也是一样。正如所预期的那样,官员会说俄语(与既不会说俄语也不会说英语的官员相比较)的可能性是既非管理者也非专业技术人员(回想一下,参照类别是所有其他职业)的人的近5倍。政府官员会说英语或者既会说俄语也会说英语的比率实际上为0——他们理应如此,因为样本中的16位官员没有一个人会说英语。最后,我们看到,1988年,作为一名专业技术人员只会说俄语或只会说英语的比率约是两种语言都不会说的人的3倍,两种语言都会说的专业技术人员的比率是两种语言都不会说的专业技术人员的4倍。相比之下,1988年,管理者只会说俄语的比率是两种语言都不会说的管理者的约3倍。但是,管理者对会说英语或两种语言都会说的人的比率的影响稍微小于管理者对会说俄语的人的比率的影响。系数也仅仅勉强显著——大约在0.1的水平上。
1702649977
1702649978
虽然在此例中我事先只设定了一个模型,但对多项logit模型来说,模型选择的方法与二项logit模型完全相同——通过对任意两个模型取L2(模型χ2)之差与自由度之差的比值,来判断某一模型对数据的拟合是否显著好于另一模型(但请记住,在使用稳健估计的时候——当数据被加权或具有聚类效应的时候,此方法并不奏效;在这种情况下,应该使用Wald检验来比较各个模型)。
1702649979
1702649980
表14-1 1993年捷克人会说英语和俄语的决定因素模型的效应参数(N=3945)(括号内是标准误;斜体表示p值)
1702649981
1702649982
1702649983
1702649984
[
上一页 ]
[ :1.702649935e+09 ]
[
下一页 ]