1702649966
我的预期是专业技术人员比从事其他职业的人说英语的可能性更大,因为现在英语是科学、技术和学术交流的国际语言,因此,会说英语这种能力对提升专业能力相当重要。那些曾经是共产党员的人,尤其是那些政府或党的官员,比其他职业的人说俄语的可能性更大,因为俄语对前东欧集团(Eastern Bloc)内的政治升迁来说是必需的。管理者是否或在多大程度上会说英语(或许英语对进行国际贸易来说是必需的)或俄语(或许俄语对处理前东欧集团的事务来说是必需的)的比率不是很清楚。
1702649967
1702649968
为了识别那些职业生涯对俄语有潜在需要的人,我根据受访者1988年的职业对他们进行划分,并针对1988年的职业构建了4个虚拟变量,属于某个类别就赋值为1,否则为0;包括官员、其他管理者、专业技术人员,以及其他。〔这个变量是根据ISCO 88的扩展版本重新编码后构建的,见Treiman(1994,附录C)。“官员”包括编码1000~1166,“其他管理者”包括编码1200~1320,“专业技术人员”包括编码2000~3480,“其他”包括编码4000~9333。那些没有报告1988年职业的人被排除在分析之外。〕除了这些变量之外,我还使用了受教育年限这一控制变量,因为显然那些受过教育的人一般来说更有可能会说外语。
1702649969
1702649970
为了调整家庭规模差异并使样本特征符合总体分布,对数据进行了加权处理(详细内容见Treiman,1994,Section I.G)。但是,标准误并没有针对整群(clustering)抽样的情况做调整。在抽样设计中,普查区(census tracts)按照规模被分为8层,然后在每层中随机抽取家庭户。由于该调查的文本记录没有给出可以识别分层的信息,没有办法,我们只能将样本当作是一个简单(加权)随机样本。考虑到普查区的规模与其他特征之间可能并不存在系统性关联,不对(抽样)分层做调整可能不会出现什么问题。对1988年有工作且信息完整的3945人进行分析的结果报告在表14-1中(可下载文件“ch14_1.log”记载了Stata的分析记录,而“ch14_1.do”则给出了用来得到这些结果的-do-文件)。
1702649971
1702649972
分析表14-1中的系数,我们看到,正如预期的那样,会说俄语或会说英语或两种语言都会说(相对于参照组——两种语言都不会)的比率随受教育年限的增加大幅提高。表格第二部分显示的比率乘数告诉我们,受教育年限每增加一年,会说俄语的人的比率就会提高25%,会说英语的人的比率则会提高36%,两种语言都会说的人的比率将提高51%——所有这些都是相对于既不说俄语也不说英语(这个参照组)的人的比率。因此,举例来说,在控制了其他因素后,一个捷克大学毕业生会说俄语而不会说英语(与既不会说俄语也不会说英语的人相比)的比率几乎是一个高中毕业生相应比率的2.5倍(因为1.248(16-12)=2.43)。大学毕业生会说英语而不会说俄语的比率是高中毕业生相应比率的3倍以上(因为1.363(16-12)=3.45)。大学毕业生俄语和英语都会说的比率是高中毕业生相应比率的5倍以上(因为1.508(16-12)=5.17)。
1702649973
1702649974
注意,我们并非只能与被省略了的参照组进行比较。通过将对数比率系数相减(或者取比率乘数之比),我们能够对有明确系数的类别进行比较。因此,举例来说,受教育年限每增加一年,一个捷克人会说英语而不会说俄语的比率提高约9%(因为e(0.3096-0.2213)=1.363/1.248=1.092)。由此,大学毕业生会说英语而不会说俄语(与会说俄语而不会说英语的人相比)的比率比高中毕业生的相应比率高出40%还多,因为[e4(0.3096-0.2213)=(1.363/1.248)4=1.423]。〔注意,我们的一般准则是有三位有效小数就足够了,但这里可能最好是报告系数的4位小数,因为在接下来的计算中它们经常会被用到。当只报告三位小数时,会产生太多的省略误差,这样会导致可下载文件“ch14_1.log”中显示的系数所暗含的数学关系不成立。〕
1702649975
1702649976
我们注意到,正如所期望的那样,共产党员身份使会说俄语的人的比率增大,而使会说英语的人的比率降低,但对同时会说这两种语言的人的比率没有影响。在所有其他条件都相同的情况下,共产党员会说俄语而不会说英语的比率比两种语言都不会说的共产党员的比率高大约三分之一,而共产党员会说英语而不会说俄语的比率是两种语言都不会说的共产党员的比率的约40%。因此,共产党员会说俄语而不会说英语的比率是会说英语而不会说俄语的共产党员比率的3倍以上(因为e(0.3020-(-0.8965))=1.353/0.408=3.316)。对政府或党的官员来说也是一样。正如所预期的那样,官员会说俄语(与既不会说俄语也不会说英语的官员相比较)的可能性是既非管理者也非专业技术人员(回想一下,参照类别是所有其他职业)的人的近5倍。政府官员会说英语或者既会说俄语也会说英语的比率实际上为0——他们理应如此,因为样本中的16位官员没有一个人会说英语。最后,我们看到,1988年,作为一名专业技术人员只会说俄语或只会说英语的比率约是两种语言都不会说的人的3倍,两种语言都会说的专业技术人员的比率是两种语言都不会说的专业技术人员的4倍。相比之下,1988年,管理者只会说俄语的比率是两种语言都不会说的管理者的约3倍。但是,管理者对会说英语或两种语言都会说的人的比率的影响稍微小于管理者对会说俄语的人的比率的影响。系数也仅仅勉强显著——大约在0.1的水平上。
1702649977
1702649978
虽然在此例中我事先只设定了一个模型,但对多项logit模型来说,模型选择的方法与二项logit模型完全相同——通过对任意两个模型取L2(模型χ2)之差与自由度之差的比值,来判断某一模型对数据的拟合是否显著好于另一模型(但请记住,在使用稳健估计的时候——当数据被加权或具有聚类效应的时候,此方法并不奏效;在这种情况下,应该使用Wald检验来比较各个模型)。
1702649979
1702649980
表14-1 1993年捷克人会说英语和俄语的决定因素模型的效应参数(N=3945)(括号内是标准误;斜体表示p值)
1702649981
1702649982
1702649983
1702649984
1702649985
续表
1702649986
1702649987
1702649988
1702649989
1702649990
无关选择的独立性
1702649991
1702649992
在多项logit模型中,两个类别之间的相对比率被假设为独立于模型中的其他选择。这可从方程14.1推导出来,两个类别——d和c——在对数比率上的差异为:
1702649993
1702649994
1702649995
1702649996
1702649997
注意,只有被比较的两个类别进入方程。然而,如果这个相对比率的确依赖于其他选择,那么模型会得出误导性的估计。为了更好地理解这一点,考虑McFadden(1974)著名的交通选择的例子。假定人们可以乘公共汽车或乘小轿车上班,且一半人选择乘小轿车,一半人选择乘公共汽车。现在假定另一个公共汽车公司也开通了在线路和时刻表上都相同的公共汽车,这样我们不再只有蓝色公共汽车,而且还有红色公共汽车。可能原来乘小轿车的那一半人会继续乘小轿车,但原来乘公共汽车的那一半人会被均等地分成两部分:一部分人乘红色公共汽车,另一部分人乘蓝色公共汽车,这取决于哪个颜色的公共汽车先出现在站台上。因此,乘小轿车与乘蓝色公共汽车的客流量的比率比由1∶1变为2∶1,这违背了模型的假设。
1702649998
1702649999
现在设想另一个例子。假定一个社区有两个餐厅——一个墨西哥餐厅和一个意大利餐厅,而且墨西哥餐厅吸引了60%的生意。之后一家中国餐厅在社区开张,并各夺走了墨西哥餐厅和意大利餐厅20%的顾客。墨西哥餐厅现在所占的市场份额为48%,意大利餐厅所占的市场份额为32%。这里无关选择的独立性(independence-of-irrelevant-alternatives,IIA)假设是成立的,因为60/40=48/32=3/2。
1702650000
1702650001
由于当IIA假设被违背时多项logit模型是具有误导性的,McFadden建议,只有当结果类别“可以被合理地假定为彼此不同并且在每个决策者看来可以被给予独立的权重”时,才应该对其估计多项(和条件)逻辑斯蒂回归模型(McFadden,1974:113)。
1702650002
1702650003
用Stata 10的-suest-命令(即“似不相关估计”,是早期-hausman-命令的一般化形式)可以正式检验IIA假设是否成立。-suest-检验可用来比较两种模型:一种是包括被假定为无关的(额外)结果的模型;另一种则是不包括该结果的模型。如果这两种限制性和非限制性模型得到的参数相似,那么额外的结果可以被认为是无关的。将这一思想应用到当前的例子,我们会问:如果在模型中包括了“俄语”这一选择,人们说英语的比率是否会受到影响。在这个例子中,检验结果明确表明IIA条件不能得到满足。因此,我们考虑估计一个序列logit模型,在这个模型中我们相继考虑两个问题:首先,受访者会说英语或俄语还是两种都不会说;其次,对于会说俄语和会说英语的两组受访者来说,他们分别是否还会说另外一种外语。
1702650004
1702650005
对于IIA假设及其结果的进一步讨论,见McFadden(1974)、Hausman和MacFadden(1984)、Hoffman和Duncan(1988)、Zhang和Hoffman(1993)、Long(1997:182-184)、Powers和Xie(2000:245-247)、Long和Freese(2006),以及StataCorp(2007)的-hausman-和-suest-条目。多项logit模型的其他应用实例包括Aly和Shields(1991)、Haynes和Jacobs(1994)、Tomaskovic-Devey和Skaggs(1999),以及Breen和Jonsson(2000)。
1702650006
1702650007
1702650008
1702650009
1702650011
量化数据分析:通过社会研究检验想法 序次逻辑斯蒂回归
1702650012
1702650013
我们在社会科学中经常遇到序次因变量,即响应类别可按某种维度排序,但各类别之间的差距未知。大多数态度变量属于这种类型。例如,如果人们被问及他们的幸福感如何,回答类别包括“非常幸福”、“颇为幸福”和“不太幸福”,我们显然可以假定,那些回答“颇为幸福”的人比那些回答“非常幸福”的人的幸福感要低,但比那些回答“不太幸福”的人的幸福感要高。然而,没有理由假定“不太幸福”和“颇为幸福”之间的差距等同于“颇为幸福”和“非常幸福”之间的差距。许多其他的态度测度具有相似的属性。在这些情况下,我们可以用常规最小二乘回归来预测测度得分。但是,这样做相当于假定响应类别之间的差距是相同的〔关于这一点和其他要点的讨论,见Winship和Mare(1984)〕。
1702650014
1702650015
除了常规最小二乘回归法外,另一种方法是估计一个序次logit(ordinal logit)方程,它利用了因变量响应类别是有序的这一属性,但对类别之间的相对距离不做任何假定。序次logit模型的基本假设是,存在一个未被观测到的连续型因变量Y*,它是一组自变量的线性函数:
[
上一页 ]
[ :1.702649966e+09 ]
[
下一页 ]