1702649485
量化数据分析:通过社会研究检验想法 第13章 二项逻辑斯蒂回归
1702649486
1702649488
本章内容
1702649489
1702649490
本章介绍二项逻辑斯蒂回归(binomial logistic regression),它是一种估计二分因变量模型的技术。我们从二项逻辑斯蒂回归与对数线性分析的关系入手,然后通过一个具体例子研究如何估计和解释逻辑斯蒂回归模型。随后我们用另外三个例子将二项逻辑斯蒂回归的应用扩展到升学及类似模型、离散时间风险率模型,以及案例—对照(case-control)设计。
1702649491
1702649492
1702649493
1702649494
1702649496
量化数据分析:通过社会研究检验想法 引言
1702649497
1702649498
社会科学家经常面临分析分类因变量(dependent variables)的需要——人们是否投票,他们选谁,他们对某一看法的认同程度,他们的职业选择,等等。正如我们已经知道的,虽然OLS回归方法可以很容易地处理分类自变量(independent variables),但却不适合处理分类因变量,即使是二分因变量。在二分因变量的情况下,多元回归的假设——尤其是预测误差服从正态分布的假设——被严重违背,这通常会产生严重的误导性结果;而且,预测值通常会超出符合逻辑的可能范围(0~1)。正是由于这些原因,学者们发展出许多针对二分因变量的方法,其中最强有力的方法是使用最大似然估计的logit分析(logit analysis)或(换一种说法)逻辑斯蒂回归(logistic regression)。逻辑斯蒂回归可以很容易地被扩展至处理多分类因变量〔多项逻辑斯蒂回归(multinomial logistic regression)〕和序次分类因变量〔序次逻辑斯蒂回归(ordered logistic regression)〕。我们将在下一章介绍这两类扩展模型。现在我们从二项逻辑斯蒂回归开始。
1702649499
1702649500
最大似然估计 最大似然估计(maximum likelihood estimation)是指用来估计统计模型参数的一种框架。它被用于估计对数线性模型和逻辑斯蒂回归模型,其原理是寻找能够使观测到样本数据的可能性最大的参数值。〔见附录12.B中对最大似然估计的简要回顾;参见King(1989)、Eliason(1993)、Long(1997:24-33,52-61)、Powers和Xie(2000,附录B)针对这一主题的简明介绍,以及Gould和Sribney(1999)对如何在Stata中使用似然估计的技术方面的讨论。〕
1702649501
1702649502
Probit分析 与逻辑斯蒂回归类似的另一种方法是probit分析,它在经济学中比在社会学中的应用更广泛。使用这两种方法通常会得到相似的结果,在两者之间进行选择很大程度上取决于专业习惯(见附录13.B对probit分析的简要介绍)。
1702649503
1702649504
二项逻辑斯蒂回归是用一组自变量来预测个体将属于二分因变量的某个类别的对数比率(log odds)。逻辑斯蒂回归的公式表示为:
1702649505
1702649506
1702649507
1702649508
1702649509
Xk表示K个自变量,a和bk是系数,它们类似于OLS回归系数,因变量是在给定自变量取值的情况下属于因变量类别1而不是类别2的期望比率的自然对数。因此,逻辑斯蒂回归是一般线性模型的另一个特例。
1702649510
1702649511
二分因变量的期望条件频数(frequency)分布的对数比率等于属于每个类别的期望概率(probabilities)之比的对数,这也是正确的(通过除以N就可以很容易地加以证明):
1702649512
1702649513
1702649514
1702649515
1702649516
因变量(对数比率)就是大家所知道的logit。正如我们刚刚看到的,logit既可以用频数表示,也可以用概率来表示。
1702649517
1702649518
1702649519
1702649520
1702649522
量化数据分析:通过社会研究检验想法 与对数线性分析的关系
1702649523
1702649524
Logit模型与对数线性分析之间的关系是直截了当的,略懂一点代数知识就可以理解。假如对数线性分析中有三个变量——Y(我们想拿它做因变量的一个二分变量)、A和B。现在考虑表示这三个变量相互关系的饱和模型——[ABY]。在此模型中,单元格的期望频数被估计为:
1702649525
1702649526
ln(FABYijk)=θ+λAi+λBj+λYk+λABij+λAYik+λBYjk+λABYijk (13.3)
1702649527
1702649528
因为因变量Y是二分变量,所以我们可以很容易地从公式13.3得到Y属于类别1(而不属于类别2)的对数比率(对基础代数知识比较生疏的人,可以参见附录13.A列出的对数和指数之间的一些代数关系):
1702649529
1702649530
1702649531
1702649532
1702649533
因为每个维度的λ加总必须为0,所以λY1=-λY2,依此类推。因此,我们有:
[
上一页 ]
[ :1.702649484e+09 ]
[
下一页 ]