打字猴:1.702649494e+09
1702649494
1702649495 量化数据分析:通过社会研究检验想法 [:1702644814]
1702649496 量化数据分析:通过社会研究检验想法 引言
1702649497
1702649498 社会科学家经常面临分析分类因变量(dependent variables)的需要——人们是否投票,他们选谁,他们对某一看法的认同程度,他们的职业选择,等等。正如我们已经知道的,虽然OLS回归方法可以很容易地处理分类自变量(independent variables),但却不适合处理分类因变量,即使是二分因变量。在二分因变量的情况下,多元回归的假设——尤其是预测误差服从正态分布的假设——被严重违背,这通常会产生严重的误导性结果;而且,预测值通常会超出符合逻辑的可能范围(0~1)。正是由于这些原因,学者们发展出许多针对二分因变量的方法,其中最强有力的方法是使用最大似然估计的logit分析(logit analysis)或(换一种说法)逻辑斯蒂回归(logistic regression)。逻辑斯蒂回归可以很容易地被扩展至处理多分类因变量〔多项逻辑斯蒂回归(multinomial logistic regression)〕和序次分类因变量〔序次逻辑斯蒂回归(ordered logistic regression)〕。我们将在下一章介绍这两类扩展模型。现在我们从二项逻辑斯蒂回归开始。
1702649499
1702649500 最大似然估计 最大似然估计(maximum likelihood estimation)是指用来估计统计模型参数的一种框架。它被用于估计对数线性模型和逻辑斯蒂回归模型,其原理是寻找能够使观测到样本数据的可能性最大的参数值。〔见附录12.B中对最大似然估计的简要回顾;参见King(1989)、Eliason(1993)、Long(1997:24-33,52-61)、Powers和Xie(2000,附录B)针对这一主题的简明介绍,以及Gould和Sribney(1999)对如何在Stata中使用似然估计的技术方面的讨论。〕
1702649501
1702649502 Probit分析 与逻辑斯蒂回归类似的另一种方法是probit分析,它在经济学中比在社会学中的应用更广泛。使用这两种方法通常会得到相似的结果,在两者之间进行选择很大程度上取决于专业习惯(见附录13.B对probit分析的简要介绍)。
1702649503
1702649504 二项逻辑斯蒂回归是用一组自变量来预测个体将属于二分因变量的某个类别的对数比率(log odds)。逻辑斯蒂回归的公式表示为:
1702649505
1702649506
1702649507
1702649508
1702649509 Xk表示K个自变量,a和bk是系数,它们类似于OLS回归系数,因变量是在给定自变量取值的情况下属于因变量类别1而不是类别2的期望比率的自然对数。因此,逻辑斯蒂回归是一般线性模型的另一个特例。
1702649510
1702649511 二分因变量的期望条件频数(frequency)分布的对数比率等于属于每个类别的期望概率(probabilities)之比的对数,这也是正确的(通过除以N就可以很容易地加以证明):
1702649512
1702649513
1702649514
1702649515
1702649516 因变量(对数比率)就是大家所知道的logit。正如我们刚刚看到的,logit既可以用频数表示,也可以用概率来表示。
1702649517
1702649518
1702649519
1702649520
1702649521 量化数据分析:通过社会研究检验想法 [:1702644815]
1702649522 量化数据分析:通过社会研究检验想法 与对数线性分析的关系
1702649523
1702649524 Logit模型与对数线性分析之间的关系是直截了当的,略懂一点代数知识就可以理解。假如对数线性分析中有三个变量——Y(我们想拿它做因变量的一个二分变量)、A和B。现在考虑表示这三个变量相互关系的饱和模型——[ABY]。在此模型中,单元格的期望频数被估计为:
1702649525
1702649526 ln(FABYijk)=θ+λAi+λBj+λYk+λABij+λAYik+λBYjk+λABYijk      (13.3)
1702649527
1702649528 因为因变量Y是二分变量,所以我们可以很容易地从公式13.3得到Y属于类别1(而不属于类别2)的对数比率(对基础代数知识比较生疏的人,可以参见附录13.A列出的对数和指数之间的一些代数关系):
1702649529
1702649530
1702649531
1702649532
1702649533 因为每个维度的λ加总必须为0,所以λY1=-λY2,依此类推。因此,我们有:
1702649534
1702649535
1702649536
1702649537
1702649538 简言之,属于因变量某一类别而非另一类别的对数比率由常见的表示因变量与每一自变量关系的各对数线性系数的2倍值之和给出;此关系对非饱和模型也适用。注意,表示自变量之间关系的系数λABij不在公式中,这是因为λABij-λABij=0。因此,我们能够对公开出版的表格做二项逻辑斯蒂回归,这只需对表格进行对数线性分析,然后将得到的各项系数乘以2即可。然而,只有当对数线性系数是用虚拟变量的形式来表示时——它们表示的是与参照组(其系数为0)之间的距离——此关系才成立。
1702649539
1702649540 虽然logit分析和逻辑斯蒂回归在数学上是完全相同的,但它们各自有其起源。Logit分析是作为对数线性分析的一个特例发展起来的,即将某一(二分)变量看作一组其他分类变量的因变量。逻辑斯蒂回归是由统计学家和计量经济学家在为解决二分因变量给最小二乘回归带来的问题时发展起来的。因此,它被用来处理连续型自变量。〔对逻辑斯蒂回归统计理论的很好的介绍,见Hosmer和Lemeshow(2000)。在社会学中的应用,见Long(1997)、Powers和Xie(2000)。面向Stata教材的,见Long和Freese(2006)。〕
1702649541
1702649542
1702649543
[ 上一页 ]  [ :1.702649494e+09 ]  [ 下一页 ]