打字猴:1.702647533e+09

1702647533

1702647534

1702647535 续表

1702647536

1702647537

1702647538

1702647539

1702647540 效应编码

1702647541

1702647542 有一种编码方法可以突出每个职业类别的效应，这可以通过与所有职业类别的未加权平均效应相比较来体现。如果我们在模型中只纳入一个分类变量，由一组k-1个三分变量表示，对每一个三分变量，用-1表示省略类别，1表示第i个类别，其余编码为0（参见表7-6的中间一栏），得到的回归系数就是某一类别在因变量上的均值与所有类别的未加权平均值之差，即：

1702647543

1702647544

1702647545

1702647546

1702647547

1702647548 也是方程的截距项。省略类别的系数就是纳入方程的k-1个类别系数总和的负数，在当前应用高速计算机的时代，一般很容易改变省略类别。当回归方程中包括其他变量时，同样的关系仍然适用，只是我们现在得到的是调整后的均值而不是实际均值。

1702647549

1702647550 前面说过，得到这种结果的分类变量的编码方法见表7-6。一如以往，我们用k-1个变量来代表k个类别。参照类别在所有的指示变量（即用来表示某分类变量的一组变量）上都被编码为-1。为了在参照类别和每个其他类别之间进行比较，这些类别在指示变量上被相继编码为1和0，同时使这些类别的影响最小。

1702647551

1702647552 查看表7-7中的系数一栏，我们看到四个职业类别均值的未加权平均值是2.48，且在控制了受教育年限后，低级体力工人的单词得分显著地低于平均值，高级体力工人的单词得分稍低于平均得分，低级非体力人员的单词得分稍高于平均得分，高级非体力人员的单词得分显著地高于平均得分。请注意，在两个参数化方法中职业类别之间的差别是一致的（不计四舍五入误差），且受教育年限的效应和R2都不受影响。当分类变量包含大量类别而没有哪一个是特别有价值的参照类别时，这种新的参数化方法就可能是最有用的。同时还要注意此参数化方法与前一节所讨论的方法之间的不同，那种方法将系数表示为与各类别均值的加权平均值的偏差，但这里的系数表示的是与未加权平均值的偏差。两种方法都对，并且每种方法在特定的情况下都很有用。

1702647553

1702647554 比较编码

1702647555

1702647556 我们有时候想比较变量类别之间的效应。例如，我们或许想比较非体力人员和体力工人，然后比较两个非体力类别和两个体力类别。我们可以通过构建各类别均值的一系列比较来实现这一想法，即我们构建下面形式的一系列比较：

1702647557

1702647558

1702647559

1702647560

1702647561 它服从这样几个约束条件：ai之和为0；用k-1个比较来表示k个类别；每对比较的编码线性独立，或者换种方式说，每对比较的编码必须正交——当每对比较的编码乘积之和等于0时，此条件得到满足。

1702647562

1702647563 一系列比较的编码显示在表7-6的第三栏。请注意，它们满足上一段提到的所有三个约束条件：三个比较变量被用来表示四个职业类别；每行加总为0；每对比较的编码乘积之和等于0（例如，C2与C3比较，我们有0.5×1+0.5×（-1）+（-0.5）×0+（-0.5）×0=0；类似地，C2与C4比较以及C3与C4比较的编码乘积之和也都等于0）。使用此编码方法，再稍微对回归结果进行一些计算（具体的计算方法见下文），就得到了表7-7中第三栏的系数。

1702647564

1702647565 请注意，与效应编码一样，截距项就是各类别均值的未加权平均值，但对指示变量系数的解释稍有不同，它要求再做点计算。每对比较j给出了该比较所涉及的两个群组在各类别均值的未加权平均值上的差异，计算公式为：

1702647566

1702647567

1702647568

1702647569

1702647570 这里，ng1是第一组的类别数，ng2是第二组的类别数，bj是虚拟变量比较编码的回归系数。注意，标准误也必须像回归系数那样乘上同样的因子。

1702647571

1702647572 审视表7-7中第三栏的比较系数，我们看到，体力人员组的平均单词得分比非体力人员组大约低0.5分，且非常显著；高级体力工人的单词得分比低级体力工人平均大约高0.25分，但此差别只在0.14的统计水平上显著，这使我们怀疑这两个职业类别在单词得分上是否真的存在差异；高级非体力人员的单词得分同样比低级非体力人员平均大约高0.25分，此差异在0.04的统计水平上显著，这意味着我们可以相信这两个职业类别之间确实存在差异。

1702647573

1702647574 序次系数

1702647575

1702647576 表示分类变量系数的另一种方法有时也会有用。当潜在维度是有序的，或者我们想把它当作是有序的来对待时，重新将系数表示为每个类别与前一类别的差异或许是有用的。这样做很简单，只需要先用传统的虚拟变量编码方法来估计方程，然后再将每一个系数与它前面的那个系数相减即可。如果我们有k个类别并省略第一个类别，则k2保持不变（k′2=k2-0），k′3=k3-k2，依此类推。每个系数的标准误就应当是此系数与它前面的系数之差值的标准误。k2的标准误仍然保持不变，其余变量的标准误要么是用第6章专栏（“如何检验两个系数之间差异的显著性”）中公式的分母对系数的方差—协方差矩阵经手工计算得到，要么就是通过依次改变省略类别来对回归方程进行多次估计得到。

1702647577

1702647578 这里我们看到（表7-7中的第四栏），每两个相邻职业类别在单词得分上的差异大约都是0.25分，且除了第一个差异之外，其余的差异在通常的统计水平上都显著。还应注意，第一个类别与第二个类别（低级体力工人和高级体力工人）的比较以及第三个类别与第四个类别（低级非体力人员和高级非体力人员）的比较与上一栏中的比较2（C2）和比较3（C3）得到的结果是相同的（不计四舍五入误差）——当然，这是必然的，因为两种编码方法都是在对同样的职业类别作比较。

1702647579

1702647580

1702647581

1702647582

[ 上一页 ] [ :1.702647533e+09 ] [ 下一页 ]