打字猴:1.70264752e+09

1702647520

1702647521 这里，V是单词得分，E是完成的受教育年限，Oi是职业类别，即对低级体力工人来说，O1=1，否则，O1=0……对于高级非体力人员来说，O4=1，否则，O4=0。表7-6最上面一栏给出的传统虚拟变量编码的“设计矩阵”（也被称为“模型矩阵”）表示每个职业类别各自的效应；得到的系数见表7-7。

1702647522

1702647523 正如你们所见，并没有出现令人感到意外的结果。正如所期望的，词汇知识随受教育年限的增加而增长，也随职业地位的上升而单调递增。我们现在看一下如何用其他方法来表示职业地位的效应——这些方法在数学上都是等价的。

1702647524

1702647525 表7-6 分类变量几种编码方法的设计矩阵（详细内容见正文）

1702647526

1702647527

1702647528

1702647529

1702647530 表7-7 1994年美国成年人词汇知识决定模型的系数（N=1757；R2=0.2445；分类变量系数都等于0的Wald检验：F（3，1752）=12.48；p＜0.0000）

1702647531

1702647532

1702647533

1702647534

1702647535 续表

1702647536

1702647537

1702647538

1702647539

1702647540 效应编码

1702647541

1702647542 有一种编码方法可以突出每个职业类别的效应，这可以通过与所有职业类别的未加权平均效应相比较来体现。如果我们在模型中只纳入一个分类变量，由一组k-1个三分变量表示，对每一个三分变量，用-1表示省略类别，1表示第i个类别，其余编码为0（参见表7-6的中间一栏），得到的回归系数就是某一类别在因变量上的均值与所有类别的未加权平均值之差，即：

1702647543

1702647544

1702647545

1702647546

1702647547

1702647548 也是方程的截距项。省略类别的系数就是纳入方程的k-1个类别系数总和的负数，在当前应用高速计算机的时代，一般很容易改变省略类别。当回归方程中包括其他变量时，同样的关系仍然适用，只是我们现在得到的是调整后的均值而不是实际均值。

1702647549

1702647550 前面说过，得到这种结果的分类变量的编码方法见表7-6。一如以往，我们用k-1个变量来代表k个类别。参照类别在所有的指示变量（即用来表示某分类变量的一组变量）上都被编码为-1。为了在参照类别和每个其他类别之间进行比较，这些类别在指示变量上被相继编码为1和0，同时使这些类别的影响最小。

1702647551

1702647552 查看表7-7中的系数一栏，我们看到四个职业类别均值的未加权平均值是2.48，且在控制了受教育年限后，低级体力工人的单词得分显著地低于平均值，高级体力工人的单词得分稍低于平均得分，低级非体力人员的单词得分稍高于平均得分，高级非体力人员的单词得分显著地高于平均得分。请注意，在两个参数化方法中职业类别之间的差别是一致的（不计四舍五入误差），且受教育年限的效应和R2都不受影响。当分类变量包含大量类别而没有哪一个是特别有价值的参照类别时，这种新的参数化方法就可能是最有用的。同时还要注意此参数化方法与前一节所讨论的方法之间的不同，那种方法将系数表示为与各类别均值的加权平均值的偏差，但这里的系数表示的是与未加权平均值的偏差。两种方法都对，并且每种方法在特定的情况下都很有用。

1702647553

1702647554 比较编码

1702647555

1702647556 我们有时候想比较变量类别之间的效应。例如，我们或许想比较非体力人员和体力工人，然后比较两个非体力类别和两个体力类别。我们可以通过构建各类别均值的一系列比较来实现这一想法，即我们构建下面形式的一系列比较：

1702647557

1702647558

1702647559

1702647560

1702647561 它服从这样几个约束条件：ai之和为0；用k-1个比较来表示k个类别；每对比较的编码线性独立，或者换种方式说，每对比较的编码必须正交——当每对比较的编码乘积之和等于0时，此条件得到满足。

1702647562

1702647563 一系列比较的编码显示在表7-6的第三栏。请注意，它们满足上一段提到的所有三个约束条件：三个比较变量被用来表示四个职业类别；每行加总为0；每对比较的编码乘积之和等于0（例如，C2与C3比较，我们有0.5×1+0.5×（-1）+（-0.5）×0+（-0.5）×0=0；类似地，C2与C4比较以及C3与C4比较的编码乘积之和也都等于0）。使用此编码方法，再稍微对回归结果进行一些计算（具体的计算方法见下文），就得到了表7-7中第三栏的系数。

1702647564

1702647565 请注意，与效应编码一样，截距项就是各类别均值的未加权平均值，但对指示变量系数的解释稍有不同，它要求再做点计算。每对比较j给出了该比较所涉及的两个群组在各类别均值的未加权平均值上的差异，计算公式为：

1702647566

1702647567

1702647568

1702647569

[ 上一页 ] [ :1.70264752e+09 ] [ 下一页 ]