1702645590
1702645591
1702645592
1702645593
1702645595
量化数据分析:通过社会研究检验想法 何时用“反向”百分数表
1702645596
1702645597
通常,我们处理表格的原则是,应该将表格做成百分比形式,使得因变量各类别在加总之后等于100%。但有一个例外,即当样本不能反映总体落入因变量各个类别中的“风险”的情形。有时样本是按因变量而不是按自变量或自变量组来分层的;也就是说,样本有时是基于因变量的值来选择的。这种抽样通常用于各种不易找到的总体,例如罪犯、大学生、政治活动家、癌症患者等。
1702645598
1702645599
例如,表3-2显示了美国各类精英的社会出身。此处,将表格做成百分比的形式以表示每个精英群体父亲的职业分布。表格也列出了某些年份美国男性劳动力作为一个整体的职业分布。这里,这些年份大概对应于他们的父亲处于劳动力市场的年份。当然,此表的要点是说明精英出自精英家庭:相对于总体劳动力中父亲是专业人员和管理人员的比例,这些精英的父亲为专业人员或管理人员的比例要高很多。在此表中计算百分比的方法与以往不同。通常情况下,百分比表示在给定某一原因或先决条件的情况下某个因变量的条件概率。而此表是根据精英样本(加上一些一般劳动者的数据)的信息构建的,因此它并不代表总体的社会出身。用一个能反映总体的样本数据来研究专业人员的孩子成为最高法院法官、诺贝尔奖得主及其他杰出人士的可能性是不切实际的,因为实际上样本中可能根本就没有一个像最高法院法官、诺贝尔奖得主这样的精英样本。因为精英的数量非常稀少,除非我们能获得整个总体的数据。因此,在这种情况下,我们使用基于应答的样本(response-based samples),使百分数表能反映每个因变量类别的自变量的分布——如在此例中,精英群体的社会出身与普通人的社会出身相比较。
1702645600
1702645601
表3-2 诺贝尔奖得主(1901~1972年)和其他美国社会精英的社会出身(为了便于比较,同时列出了1900~1920年男性从业人员的职业分布)
1702645602
1702645603
1702645604
1702645605
1702645606
1702645607
1702645608
1702645610
量化数据分析:通过社会研究检验想法 当因变量为均值时的列联表
1702645611
1702645612
当因变量是间距或比率变量时,在由自变量各类别构成的列联表的单元格中呈现因变量的均值常常非常实用。例如,假设你们怀疑女性比男性的教育回报低,所以你们对性别、受教育程度和收入之间的关系感兴趣。表3-3呈现了根据1980年NORC综合社会调查数据(General Social Survey)计算的美国全职成年人按受教育程度和性别划分的1979年的平均年收入。
1702645613
1702645614
表3-3 1980年美国全职成年人按受教育程度和性别划分的1979年的平均年收入(括号中是类别频数)
1702645615
1702645616
1702645617
1702645618
1702645619
表3-3的技术要点
1702645620
1702645621
(1)注意,这张表的形式与第1章中表1-6的形式是一样的,差别是表1-6用百分数表示,而表3-3用均值表示。可以用同样的方式理解这两张表。
1702645622
1702645623
(2)在此表中,受教育程度用降序表示。无论降序还是升序都是可以的,所选择的方式应尽量使讨论更方便。
1702645624
1702645625
(3)注意,此表仅包括1468个总样本中的626个。这反映出许多人的工作并不是全职工作,尤其是女性,同时也反映出一些人的受教育程度和收入信息缺失。有时将缺失样本作为一个类别是很有用的,特别是当存在许多缺失值或缺失值的分布很重要时。在这种情况下,可以对表加一个脚注或在表的下部加个说明。例如,
1702645626
1702645627
表中样本数 626
1702645628
1702645629
收入信息缺失 57
1702645630
1702645631
受教育程度信息缺失 1
1702645632
1702645633
受教育程度和收入信息都缺失 1
1702645634
1702645635
全职工作的人数 685
1702645636
1702645637
没有全职工作的男性 235
1702645638
1702645639
没有全职工作的女性 549
[
上一页 ]
[ :1.70264559e+09 ]
[
下一页 ]