1702645610
量化数据分析:通过社会研究检验想法 当因变量为均值时的列联表
1702645611
1702645612
当因变量是间距或比率变量时,在由自变量各类别构成的列联表的单元格中呈现因变量的均值常常非常实用。例如,假设你们怀疑女性比男性的教育回报低,所以你们对性别、受教育程度和收入之间的关系感兴趣。表3-3呈现了根据1980年NORC综合社会调查数据(General Social Survey)计算的美国全职成年人按受教育程度和性别划分的1979年的平均年收入。
1702645613
1702645614
表3-3 1980年美国全职成年人按受教育程度和性别划分的1979年的平均年收入(括号中是类别频数)
1702645615
1702645616
1702645617
1702645618
1702645619
表3-3的技术要点
1702645620
1702645621
(1)注意,这张表的形式与第1章中表1-6的形式是一样的,差别是表1-6用百分数表示,而表3-3用均值表示。可以用同样的方式理解这两张表。
1702645622
1702645623
(2)在此表中,受教育程度用降序表示。无论降序还是升序都是可以的,所选择的方式应尽量使讨论更方便。
1702645624
1702645625
(3)注意,此表仅包括1468个总样本中的626个。这反映出许多人的工作并不是全职工作,尤其是女性,同时也反映出一些人的受教育程度和收入信息缺失。有时将缺失样本作为一个类别是很有用的,特别是当存在许多缺失值或缺失值的分布很重要时。在这种情况下,可以对表加一个脚注或在表的下部加个说明。例如,
1702645626
1702645627
表中样本数 626
1702645628
1702645629
收入信息缺失 57
1702645630
1702645631
受教育程度信息缺失 1
1702645632
1702645633
受教育程度和收入信息都缺失 1
1702645634
1702645635
全职工作的人数 685
1702645636
1702645637
没有全职工作的男性 235
1702645638
1702645639
没有全职工作的女性 549
1702645640
1702645641
样本总数 1469
1702645642
1702645643
这张表显示的样本总数是1469,而实际的样本总数是1468,这种误差产生的原因是四舍五入。因为在1980年综合社会调查采用“分别抽样”(split ballot)方法产生了误差,所以需要对数据进行加权处理以代表总体(Davis,Smith,and Marsden,2007)。我们将在第9章介绍加权问题。
1702645644
1702645645
即使你们没有呈现此表中的信息,你们也可以自己做一个这样的表以便检查所做的计算。事实上,在前面有关缺失样本的计算过程中,我发现了一个计算上的错误,这导致表3-3中的数据出错(现在已经更正)。
1702645646
1702645647
(4)呈现这些数据的另一种方法是在表的最右边一列显示女性的均值占男性均值的比例,而不是总的均值,这能使读者更快地掌握表的重点。做表是一种艺术,其目的在于使信息尽可能清楚和易于理解。
1702645648
1702645649
从表3-3中你会发现,1980年,尽管男性和女性的收入都随着受教育程度的提高而增加,但是女性比接受同等教育的男性的收入低很多。收入的性别差异非常显著:平均来讲,女性的收入只比男性的一半多一点,受教育程度最高(即具有研究生学历)的女性的平均收入低于受教育程度最低的男性(即没有完成高中教育的那些人)。
1702645650
1702645651
为了更好地比较在每个受教育程度类别上平均收入的性别差异,我们可以计算女性和男性均值的比率。通常情况下,我们在表中多加一列来呈现这些数据或替换合计那一列。
1702645652
1702645653
受教育程度 女性的平均年收入占男性平均年收入的比例
1702645654
1702645655
研究生学历 44
1702645656
1702645657
大学毕业 43
1702645658
1702645659
大学未毕业 68
[
上一页 ]
[ :1.70264561e+09 ]
[
下一页 ]