打字猴:1.702646489e+09
1702646489 量化数据分析:通过社会研究检验想法 [:1702644756]
1702646490 量化数据分析:通过社会研究检验想法 第6章 多元相关和回归(常规最小二乘法)介绍
1702646491
1702646492 量化数据分析:通过社会研究检验想法 [:1702644757]
1702646493 本章内容
1702646494
1702646495 我们在本章介绍处理最典型的社会科学问题的核心技术——理解某些结果如何受几个彼此相关的决定变量的影响。我们从回顾多元相关和回归的概念开始,然后以一个具体例子描述如何解释回归系数。然后我们介绍分类变量的特殊属性,分类变量可以作为一组二分(“虚拟”)变量被纳入多元回归方程中,而原始变量的每一个类别则作为一个变量(为了让方程能够被估计,其中一个类别必须被省略)。在对虚拟变量的讨论中,我们会讨论组间比较的一种策略,它能使我们确定在人口的两个或更多亚组中,如男性和女性、种族分类等,我们研究的社会过程是否以同样的方式运行。最后,我们将讨论选择模型的另一个指标,即贝叶斯信息系数(BIC)。
1702646496
1702646497
1702646498
1702646499
1702646500 量化数据分析:通过社会研究检验想法 [:1702644758]
1702646501 量化数据分析:通过社会研究检验想法 引言
1702646502
1702646503 对大多数社会科学的目标而言,我们在前面章节讲到的两个变量的回归没有太大意义——除了作为基础模型与包含多个自变量的模型比较。后者正是本章的重点。这里我们将处理两个变量的方法一般化为处理多个变量的方法。也就是说,通过一组(set)自变量预测某个(间距或比率)因变量,我们除了将从多个维度估计方程之外,在逻辑上这与两个变量的回归是完全一样的。
1702646504
1702646505 让我们先来看前面曾讲过的两个自变量的例子。这10个样本的例子来自前面的章节,但有所扩展。假设我们认为受教育年限不仅依赖于父亲的受教育年限而且依赖于兄弟姐妹数。其依据是,(在其他情况一样时)兄弟姐妹数越多的人从父母那儿得到的关注越少,因而其结果是在学校的表现不好,因此最终所受的教育较差〔如文献中关于兄弟姐妹数影响的研究,见Downey(1995),Maralani(2004),Lu(2005),Lu和Treiman(2008)〕。进一步假设我们有这10个样本关于所有三个变量的信息:
1702646506
1702646507       父亲的受教育年限      受访者的受教育年限      兄弟姐妹数
1702646508
1702646509           2              4             3
1702646510
1702646511           12              10            3
1702646512
1702646513           4              8             4
1702646514
1702646515           13              13            0
1702646516
1702646517           6              9             2
1702646518
1702646519           6              4             5
1702646520
1702646521           8              13            3
1702646522
1702646523           4              6             4
1702646524
1702646525           8              6             3
1702646526
1702646527           10              11            4
1702646528
1702646529 注意,前两列只是前面章节例子的简单重复(见第83~84页)。
1702646530
1702646531 为了检验我们的假设,即兄弟姐妹数对教育获得有负面影响,我们估计下面的方程:
1702646532
1702646533
1702646534
1702646535
1702646536 (注意,我用常规符号表示常规方程中的变量,如X和Y,但用有助于记忆的符号表示具体例子方程中的变量,如E、EF和S。我发现用有助于记忆的符号代表变量更容易记录清楚曾经估计的方程。)
1702646537
1702646538 像方程6.1那样的方程,被称为多元回归(multiple regression)方程。在多元回归方程中,每个变量的系数是测量在所有其他自变量都保持不变的情况下,某一给定自变量一个单位的变化导致因变量期望值的相应变化。所以,在当前这个例子中,与兄弟姐妹数有关的系数告诉我们,对那些父亲具有完全相同受教育年限的人,每增加一个兄弟姐妹,其教育获得的期望值将会发生变化。相应地,与父亲受教育年限有关的系数告诉我们,那些兄弟姐妹数完全相同的人,父亲的受教育年限相差一年,其受教育年限的期望差异。在三个变量的情况下(即当我们只有两个自变量时),而不是有更多变量的时候,我们可以构建一个几何图示来说明保持一个变量不变并估计另一个变量净(net)效应的含义。
[ 上一页 ]  [ :1.702646489e+09 ]  [ 下一页 ]