1702640206
统计学的世界(第8版) 第24章 双向表与卡方检验
1702640207
1702640208
案例分析
1702640209
1702640210
普渡大学属于美国“十大联盟”(Big Ten)的高校之一,该校的特色专业是工程学、科学与技术。在2010~2011学年,普渡大学共有1755位教授,其中479位为女性。女性教授所占比例只有27%多一点儿,也就是每4位教授中约有一位是女性。光看这些数字,无法看出女性在教授中的地位。我们必须检视数个变量之间的关系,而不能只看性别。举例来说,在人文学科中,女性教授的比例就比农业学科高。
1702640211
1702640212
我们来看看性别和职称之间的关系,后者对于教授而言是一个极为重要的变量。教授通常从助理教授做起,之后升到副教授并取得终身教职,最后才成为正教授。大学运行的主要决策者差不多都是正教授。以下是把普渡大学的1755位教授依性别和职称分类的双向表(two-way table):
1702640213
1702640214
1702640215
1702640216
1702640217
这张表告诉我们女性教员在大学的职称分布情况是怎样的?在这一章,我们将学习如何解读这类表格。
1702640218
1702640219
双向表
1702640220
1702640221
例1 招生性别歧视
1702640222
1702640223
一所大学计划只招收两个专业的学生,一个是工程学,一个是英语。申请这两个专业是竞争性的,女权组织怀疑在录取过程中存在歧视女性的问题。他们从该所大学获得了以下数据,这是一个关于所有申请人的性别和录取状态的双向表:
1702640224
1702640225
1702640226
1702640227
1702640228
我们应该如何评估表中的信息?
1702640229
1702640230
录取状态和性别都属于类别变量,也就是说,这些变量可以分类,但是没有数值可供我们绘制散点图、计算相关系数、绘制回归直线来描述相关关系。要展示两个类别变量之间的相关关系,可以用像录取状态和性别双向表之类的表格。录取状态是“行变量”(row variable),因为表中每一行代表一种可能的决定。性别是“列变量”(column variable),因为每一列代表一种性别。表中的数字对应每一种录取状态与性别组合所包含的人数。
1702640231
1702640232
怎样最有效地从双向表中读取信息呢?首先,分别检视每个变量的分布。类别变量的分布告诉我们每个结果发生的频繁程度。表最右边的“总数”栏下方的数字是每一行的总数。这些行总数(row totals)提供了所有录取状态的分布。表底端的那一列“总数”,提供的是申请学生的性别分布。通常用百分比表示这些分布会更清楚,比如,我们可以把性别分布表示为:
1702640233
1702640234
1702640235
1702640236
1702640237
双向表所提供的信息,不只是单独的录取状态分布和性别分布。录取状态和性别之间有何关系,没有办法从个别分布当中找出来,必须用整个双向表。要描述类别变量之间的相关关系,可根据表中所给的计数,计算出百分比。
1702640238
1702640239
例2 招生性别歧视
1702640240
1702640241
由于只有两种录取状态,我们通过比较男女性申请者被录取的百分比,来看性别和录取状态之间的关系:
1702640242
1702640243
1702640244
1702640245
1702640246
男性申请者中几乎有1/2被录取,而女性申请者中只有1/3的人被录取。
1702640247
1702640248
用双向表的时候必须计算多个百分比,有个办法可以帮你决定用哪些分数才可以算出你想要的百分比。你要问自己:“我要的百分比是哪一个整体的百分比?”该整体的计数,就是你计算百分比时所用分数的分母。在例2中我们要计算的是每一种性别的录取比例,所以每一种性别的计数就是分母。
1702640249
1702640250
双向表的推断
1702640251
1702640252
我们常常搜集数据,并列出双向表来探讨两个类别变量之间是否有相关关系。检视样本数据很容易:算出百分比,再看行变量和列变量之间有没有相关关系。样本显示出相关关系,是不是就意味着总体中的这两个变量有相关关系?还是样本中的相关关系只是因为巧合而发生?这是显著性检验要回答的问题。
1702640253
1702640254
例3 可卡因成瘾
[
上一页 ]
[ :1.702640205e+09 ]
[
下一页 ]