打字猴:1.702649521e+09
1702649521 量化数据分析:通过社会研究检验想法 [:1702644815]
1702649522 量化数据分析:通过社会研究检验想法 与对数线性分析的关系
1702649523
1702649524 Logit模型与对数线性分析之间的关系是直截了当的,略懂一点代数知识就可以理解。假如对数线性分析中有三个变量——Y(我们想拿它做因变量的一个二分变量)、A和B。现在考虑表示这三个变量相互关系的饱和模型——[ABY]。在此模型中,单元格的期望频数被估计为:
1702649525
1702649526 ln(FABYijk)=θ+λAi+λBj+λYk+λABij+λAYik+λBYjk+λABYijk      (13.3)
1702649527
1702649528 因为因变量Y是二分变量,所以我们可以很容易地从公式13.3得到Y属于类别1(而不属于类别2)的对数比率(对基础代数知识比较生疏的人,可以参见附录13.A列出的对数和指数之间的一些代数关系):
1702649529
1702649530
1702649531
1702649532
1702649533 因为每个维度的λ加总必须为0,所以λY1=-λY2,依此类推。因此,我们有:
1702649534
1702649535
1702649536
1702649537
1702649538 简言之,属于因变量某一类别而非另一类别的对数比率由常见的表示因变量与每一自变量关系的各对数线性系数的2倍值之和给出;此关系对非饱和模型也适用。注意,表示自变量之间关系的系数λABij不在公式中,这是因为λABij-λABij=0。因此,我们能够对公开出版的表格做二项逻辑斯蒂回归,这只需对表格进行对数线性分析,然后将得到的各项系数乘以2即可。然而,只有当对数线性系数是用虚拟变量的形式来表示时——它们表示的是与参照组(其系数为0)之间的距离——此关系才成立。
1702649539
1702649540 虽然logit分析和逻辑斯蒂回归在数学上是完全相同的,但它们各自有其起源。Logit分析是作为对数线性分析的一个特例发展起来的,即将某一(二分)变量看作一组其他分类变量的因变量。逻辑斯蒂回归是由统计学家和计量经济学家在为解决二分因变量给最小二乘回归带来的问题时发展起来的。因此,它被用来处理连续型自变量。〔对逻辑斯蒂回归统计理论的很好的介绍,见Hosmer和Lemeshow(2000)。在社会学中的应用,见Long(1997)、Powers和Xie(2000)。面向Stata教材的,见Long和Freese(2006)。〕
1702649541
1702649542
1702649543
1702649544
1702649545 量化数据分析:通过社会研究检验想法 [:1702644816]
1702649546 量化数据分析:通过社会研究检验想法 逻辑斯蒂回归的第一个具体例子:预测枪械威胁的发生率
1702649547
1702649548 假设我们有兴趣研究是什么影响了一个人曾经被枪械威胁的可能性。更进一步,假设我们有兴趣弄清楚枪械威胁的发生率是否随时间发生变化(研究后一个问题为我们提供了另一个机会来展示如何用GSS数据进行历时比较)。首先,我们或许会认为男性比女性更有可能经历此类威胁。这不仅是因为一部分男性会参军作战(不像女性直到最近才会如此),而且因为男性比女性更有可能卷入犯罪活动、酒吧斗殴和其他对抗性活动。其次,鉴于居住隔离和闲暇活动的差别,受枪械威胁的可能性应该与社会经济地位呈负相关。为方便起见,我将受教育程度作为社会经济地位(SES)的一个指标:与职业地位和收入这两个变量不同,受教育程度在整个成年期是基本不变的,并且解释起来对男性和女性而言是一样的。再次,鉴于居住地域上的歧视,即使中产阶级黑人也被迫居住在高犯罪率的社区,在控制了SES变量后,黑人可能会比其他种族更多地受到枪械威胁。最后,美国“礼崩乐坏”这种观点意味着枪械威胁的发生率会随时间而上升。
1702649549
1702649550 GSS数据中有用来评估这些可能性的数据。从1973年到1994年的大多数年份,受访者被问及“您是否曾经受到枪械威胁,或受到枪击?”此外,每位受访者的性别、种族(白人、黑人和其他),以及受教育程度(完成的受教育年限,数值范围为0~20)都已知。我先删除了5031个没有回答此问题的样本(大多是因为在某些年份只对部分受访者问了这个问题),再删除52个缺失受教育程度信息的样本,又删除了16个缺失家庭户中成年人数量信息(这被用来构建权重变量)的样本。这样一来就得到了19260个1973~1994年的有效样本。我将每一年作为一个(抽样)层,用调查估计方法(survey estimation procedures)进行分析(关于估计的详细内容,见附录B和下载文件“ch13_1.do”和“ch13_1.log”)。
1702649551
1702649552 表13-1证实,在曾经受到枪械威胁方面,男性比女性的百分比明显高得多,黑人比其他种族的百分比略高。至于教育获得或年份,很难从中看出一个统一的模式,这可能是由于这两个变量的影响效应具有相互抑制性,因为受教育程度一直随时间在提高。
1702649553
1702649554 表13-1 1973~1994年美国成年人按一些变量分类的曾经受到枪械威胁的百分比(N=19260)
1702649555
1702649556
1702649557
1702649558
1702649559 表13-1的技术要点
1702649560
1702649561 注意,表13-1中的百分比是基于加权频数计算的,但给出的百分比基数却是未加权频数。我对数据做加权处理是因为要考虑不同的家庭户规模,调整1987年数据中对黑人的过度抽样,以及使每个年份的数据对样本的贡献相等(详见下载文件“ch13_1.do”)。对于描述统计量,有必要使用加权数据获得对总体的正确估计。但是,报告未加权N值以告诉读者每项计算所用的实际样本数是可取的。
1702649562
1702649563 我的首要任务是选择一个最优模型。表13-2给出了5个模型的拟合优度统计量。模型1是基准模型,它假设性别、种族和受教育程度显著地影响受到枪械威胁的比率。模型2进一步假设,在控制了性别、种族和受教育程度的影响后,受枪械威胁的(对数)比率呈线性趋势。如果受枪械威胁的可能性随时间上升,那么与年份相关的系数应该是正数。模型3假设受枪械威胁的(对数)比率围绕某一线性趋势逐年变化。模型1、2和3彼此之间具有层级关系。模型4假设受到枪械威胁的对数比率取决于性别、种族和受教育程度;对数比率随时间呈线性增加;性别和种族具有交互效应——其假设是,受到枪械威胁可能性的性别差异在黑人中比在其他种族中要小,这是由居住地域上的歧视造成的,因为黑人比其他种族更可能居住在危险社区,所以黑人妇女特别容易受到威胁。模型5将同样的论点扩展到包含种族和受教育程度的交互项,即假设受教育程度对受到枪械威胁的比率的影响在黑人中比在其他种族中要小,因为即使是受过良好教育的黑人在居住地域也处于不利地位。
1702649564
1702649565 表13-2 几个预测美国成年人在1973~1994年受到枪械威胁发生率模型的拟合优度统计量
1702649566
1702649567
1702649568
1702649569
1702649570 续表
[ 上一页 ]  [ :1.702649521e+09 ]  [ 下一页 ]