打字猴:1.70264757e+09
1702647570 这里,ng1是第一组的类别数,ng2是第二组的类别数,bj是虚拟变量比较编码的回归系数。注意,标准误也必须像回归系数那样乘上同样的因子。
1702647571
1702647572 审视表7-7中第三栏的比较系数,我们看到,体力人员组的平均单词得分比非体力人员组大约低0.5分,且非常显著;高级体力工人的单词得分比低级体力工人平均大约高0.25分,但此差别只在0.14的统计水平上显著,这使我们怀疑这两个职业类别在单词得分上是否真的存在差异;高级非体力人员的单词得分同样比低级非体力人员平均大约高0.25分,此差异在0.04的统计水平上显著,这意味着我们可以相信这两个职业类别之间确实存在差异。
1702647573
1702647574 序次系数
1702647575
1702647576 表示分类变量系数的另一种方法有时也会有用。当潜在维度是有序的,或者我们想把它当作是有序的来对待时,重新将系数表示为每个类别与前一类别的差异或许是有用的。这样做很简单,只需要先用传统的虚拟变量编码方法来估计方程,然后再将每一个系数与它前面的那个系数相减即可。如果我们有k个类别并省略第一个类别,则k2保持不变(k′2=k2-0),k′3=k3-k2,依此类推。每个系数的标准误就应当是此系数与它前面的系数之差值的标准误。k2的标准误仍然保持不变,其余变量的标准误要么是用第6章专栏(“如何检验两个系数之间差异的显著性”)中公式的分母对系数的方差—协方差矩阵经手工计算得到,要么就是通过依次改变省略类别来对回归方程进行多次估计得到。
1702647577
1702647578 这里我们看到(表7-7中的第四栏),每两个相邻职业类别在单词得分上的差异大约都是0.25分,且除了第一个差异之外,其余的差异在通常的统计水平上都显著。还应注意,第一个类别与第二个类别(低级体力工人和高级体力工人)的比较以及第三个类别与第四个类别(低级非体力人员和高级非体力人员)的比较与上一栏中的比较2(C2)和比较3(C3)得到的结果是相同的(不计四舍五入误差)——当然,这是必然的,因为两种编码方法都是在对同样的职业类别作比较。
1702647579
1702647580
1702647581
1702647582
1702647583 量化数据分析:通过社会研究检验想法 [:1702644773]
1702647584 量化数据分析:通过社会研究检验想法 分解两个均值之差
1702647585
1702647586 社会研究中的一个常见问题是解释为什么两个(或多个)群组在某一变量上的平均得分或数值有差异。例如,我们可能观察到黑人和非黑人的平均收入不一样,并且想知道此差异是如何产生的。特别地,我们或许想知道组间差异在多大程度上是由他们的“禀赋”(即能够增加收入的那些特质)差异导致的,又在多大程度上是因为各个组禀赋的“回报率”不一样——某些组在“禀赋”的任何水平上的“回报”都比其他组高。以教育为例,黑人和非黑人的收入差异在多大程度上是由黑人比非黑人的受教育程度低导致的,又在多大程度上是由黑人比非黑人的教育回报低导致的?要想考察我们感兴趣的任何结果变量的决定因素,一般是将结果变量对一组可能的决定因素做回归,然后留意每个自变量系数的相对大小。比较两个组方法的一个自然延伸,是先对感兴趣的两个组分别做回归,再将两个回归方程相减,最后看差值的大小。
1702647587
1702647588 请看下面的方程:
1702647589
1702647590
1702647591
1702647592
1702647593
1702647594
1702647595
1702647596
1702647597
1702647598 它们是用k个自变量分别对组1和组2进行估计的模型。因为回归方程的拟合线会经过每个变量的均值,所以有:
1702647599
1702647600
1702647601
1702647602
1702647603
1702647604
1702647605
1702647606
1702647607
1702647608 然后,取方程7.46和方程7.47之差,我们有:
1702647609
1702647610
1702647611
1702647612
1702647613 (你们可以自己对上述过程进行推导,反过来推导会比较简单。)
1702647614
1702647615 方程7.48也可以被写成:
1702647616
1702647617
1702647618
1702647619
[ 上一页 ]  [ :1.70264757e+09 ]  [ 下一页 ]