打字猴:1.70264755e+09

1702647550 前面说过，得到这种结果的分类变量的编码方法见表7-6。一如以往，我们用k-1个变量来代表k个类别。参照类别在所有的指示变量（即用来表示某分类变量的一组变量）上都被编码为-1。为了在参照类别和每个其他类别之间进行比较，这些类别在指示变量上被相继编码为1和0，同时使这些类别的影响最小。

1702647551

1702647552 查看表7-7中的系数一栏，我们看到四个职业类别均值的未加权平均值是2.48，且在控制了受教育年限后，低级体力工人的单词得分显著地低于平均值，高级体力工人的单词得分稍低于平均得分，低级非体力人员的单词得分稍高于平均得分，高级非体力人员的单词得分显著地高于平均得分。请注意，在两个参数化方法中职业类别之间的差别是一致的（不计四舍五入误差），且受教育年限的效应和R2都不受影响。当分类变量包含大量类别而没有哪一个是特别有价值的参照类别时，这种新的参数化方法就可能是最有用的。同时还要注意此参数化方法与前一节所讨论的方法之间的不同，那种方法将系数表示为与各类别均值的加权平均值的偏差，但这里的系数表示的是与未加权平均值的偏差。两种方法都对，并且每种方法在特定的情况下都很有用。

1702647553

1702647554 比较编码

1702647555

1702647556 我们有时候想比较变量类别之间的效应。例如，我们或许想比较非体力人员和体力工人，然后比较两个非体力类别和两个体力类别。我们可以通过构建各类别均值的一系列比较来实现这一想法，即我们构建下面形式的一系列比较：

1702647557

1702647558

1702647559

1702647560

1702647561 它服从这样几个约束条件：ai之和为0；用k-1个比较来表示k个类别；每对比较的编码线性独立，或者换种方式说，每对比较的编码必须正交——当每对比较的编码乘积之和等于0时，此条件得到满足。

1702647562

1702647563 一系列比较的编码显示在表7-6的第三栏。请注意，它们满足上一段提到的所有三个约束条件：三个比较变量被用来表示四个职业类别；每行加总为0；每对比较的编码乘积之和等于0（例如，C2与C3比较，我们有0.5×1+0.5×（-1）+（-0.5）×0+（-0.5）×0=0；类似地，C2与C4比较以及C3与C4比较的编码乘积之和也都等于0）。使用此编码方法，再稍微对回归结果进行一些计算（具体的计算方法见下文），就得到了表7-7中第三栏的系数。

1702647564

1702647565 请注意，与效应编码一样，截距项就是各类别均值的未加权平均值，但对指示变量系数的解释稍有不同，它要求再做点计算。每对比较j给出了该比较所涉及的两个群组在各类别均值的未加权平均值上的差异，计算公式为：

1702647566

1702647567

1702647568

1702647569

1702647570 这里，ng1是第一组的类别数，ng2是第二组的类别数，bj是虚拟变量比较编码的回归系数。注意，标准误也必须像回归系数那样乘上同样的因子。

1702647571

1702647572 审视表7-7中第三栏的比较系数，我们看到，体力人员组的平均单词得分比非体力人员组大约低0.5分，且非常显著；高级体力工人的单词得分比低级体力工人平均大约高0.25分，但此差别只在0.14的统计水平上显著，这使我们怀疑这两个职业类别在单词得分上是否真的存在差异；高级非体力人员的单词得分同样比低级非体力人员平均大约高0.25分，此差异在0.04的统计水平上显著，这意味着我们可以相信这两个职业类别之间确实存在差异。

1702647573

1702647574 序次系数

1702647575

1702647576 表示分类变量系数的另一种方法有时也会有用。当潜在维度是有序的，或者我们想把它当作是有序的来对待时，重新将系数表示为每个类别与前一类别的差异或许是有用的。这样做很简单，只需要先用传统的虚拟变量编码方法来估计方程，然后再将每一个系数与它前面的那个系数相减即可。如果我们有k个类别并省略第一个类别，则k2保持不变（k′2=k2-0），k′3=k3-k2，依此类推。每个系数的标准误就应当是此系数与它前面的系数之差值的标准误。k2的标准误仍然保持不变，其余变量的标准误要么是用第6章专栏（“如何检验两个系数之间差异的显著性”）中公式的分母对系数的方差—协方差矩阵经手工计算得到，要么就是通过依次改变省略类别来对回归方程进行多次估计得到。

1702647577

1702647578 这里我们看到（表7-7中的第四栏），每两个相邻职业类别在单词得分上的差异大约都是0.25分，且除了第一个差异之外，其余的差异在通常的统计水平上都显著。还应注意，第一个类别与第二个类别（低级体力工人和高级体力工人）的比较以及第三个类别与第四个类别（低级非体力人员和高级非体力人员）的比较与上一栏中的比较2（C2）和比较3（C3）得到的结果是相同的（不计四舍五入误差）——当然，这是必然的，因为两种编码方法都是在对同样的职业类别作比较。

1702647579

1702647580

1702647581

1702647582

1702647583 量化数据分析：通过社会研究检验想法 [:1702644773]

1702647584 量化数据分析：通过社会研究检验想法分解两个均值之差

1702647585

1702647586 社会研究中的一个常见问题是解释为什么两个（或多个）群组在某一变量上的平均得分或数值有差异。例如，我们可能观察到黑人和非黑人的平均收入不一样，并且想知道此差异是如何产生的。特别地，我们或许想知道组间差异在多大程度上是由他们的“禀赋”（即能够增加收入的那些特质）差异导致的，又在多大程度上是因为各个组禀赋的“回报率”不一样——某些组在“禀赋”的任何水平上的“回报”都比其他组高。以教育为例，黑人和非黑人的收入差异在多大程度上是由黑人比非黑人的受教育程度低导致的，又在多大程度上是由黑人比非黑人的教育回报低导致的？要想考察我们感兴趣的任何结果变量的决定因素，一般是将结果变量对一组可能的决定因素做回归，然后留意每个自变量系数的相对大小。比较两个组方法的一个自然延伸，是先对感兴趣的两个组分别做回归，再将两个回归方程相减，最后看差值的大小。

1702647587

1702647588 请看下面的方程：

1702647589

1702647590

1702647591

1702647592

1702647593 和

1702647594

1702647595

1702647596

1702647597

1702647598 它们是用k个自变量分别对组1和组2进行估计的模型。因为回归方程的拟合线会经过每个变量的均值，所以有：

1702647599

[ 上一页 ] [ :1.70264755e+09 ] [ 下一页 ]