1702634229
图11–2与图11–1的样子大不相同,在收费最低的组一边,有很突出的尖峰。大部分院校的学费低于8000美元,但是该图的右边有一条长尾巴,一直延伸到近40000美元。我们把一端有一条长尾巴的分布称为偏斜的(skewed)。这个分布的中心大概是8000美元(有一半院校的学费低于此值)。该分布的幅度很大,从1974美元到超过38000美元。该分布没有异常值,学费最高的几所院校只是长尾巴的延伸,仍是整体形态的一部分。
1702634230
1702634231
1702634232
1702634233
1702634234
图11–2 2009~2010学年伊利诺伊州116所大专院校学费的直方图
1702634235
1702634236
在描述一个分布的时候,要把注意力放在重点上。要寻找主要的尖峰,而不是直方图中的小起伏,比如图11–2里面的那些。要辨识出明显的异常值,而不是直接把最小和最大的观察值当作异常值。要看是否有对称性,或明显的偏斜。
1702634237
1702634238
对称分布与偏斜分布
1702634239
1702634240
若直方图的左半边和右半边大致可看成互为镜中影像,则称该分布是对称的。若直方图的右边(包含较大观察值的那一半)延伸得比左边远,则称该分布是右偏的(skewed to the right)。若直方图的左边延伸得比右边远,则称该分布是左偏的(skewed to thd left)。
1702634241
1702634242
在数学领域,对称的定义是:一幅图(比如直方图)的左右两半确实互为镜中影像。数据几乎不会是完全对称的,因此我们把像图11–1那样的直方图视为大致对称的整体形态,而图11–2则是明显右偏的。
1702634243
1702634244
例4 样本统计量的分布
1702634245
1702634246
1702634247
1702634248
从同一总体中抽取多个随机样本所得到的统计量的值,会形成有规律的分布形态。图11–3的直方图展示了我们在第3章见过的分布。抽取2527名成年人组成的简单随机样本,问其中每个人是否支持关于婚姻的宪法修正案。支持者的比例就是样本统计量。抽样1000次,我们就可以从这1000个随机样本中得到1000个样本统计量。图11–3呈现的是1000个样本统计量的分布,其总体的真实值是50%。
1702634249
1702634250
这个分布相对于中间的单个尖峰是对称的。中心是0.50,表示样本统计量是无偏的。1000个值从小到大的幅度是从0.463到0.533。
1702634251
1702634252
1702634253
1702634254
1702634255
1702634256
图11–3 从同一总体中抽取1000个简单随机样本所得样本统计量的直方图
1702634257
1702634258
例5 莎士比亚戏剧
1702634259
1702634260
图11–4显示了莎士比亚戏剧所用单词的长度的分布。这个分布有一个尖峰,而且大致是右偏的。剧中用了很多简短的单词(3~4个字母)和少数很长的单词(10~12个字母),所以右边延伸得要比左边远。该分布的中心是4,也就是说,莎士比亚戏剧中大约一半是有4个或者更少字母的单词。该分布的幅度是从1个字母到12个字母。
1702634261
1702634262
请注意,图11–4的纵轴并不是单词的计数,而是莎士比亚戏剧中各种长度的单词所占百分比。当计数很大或我们想比较几个分布时,用百分比直方图更方便。不同的戏剧会有不同的词长分布,之所以右偏,是因为短单词比较多,长单词比较少。
1702634263
1702634264
1702634265
1702634266
1702634267
图11–4 莎士比亚戏剧中各种长度的单词所占百分比的直方图
1702634268
1702634269
资料来源:《风格和词汇:数值研究》,C·B·威廉姆斯,1970年
1702634270
1702634271
分布的整体形态,提供了关于变量的重要信息。有些类型的数据,总会呈现对称分布,有些又总是呈现偏斜分布。例如,同一种生物的大小(比如蟋蟀的长度),就常常呈现出对称分布。而收入数据(不管是个人的、公司的还是国家的),其分布的整体形态通常是右偏的。普通收入的很多,高收入的有一些,超高收入的是极少数。不过要记得,也有很多分布的形状既不对称又不偏斜。有些数据会呈现出其他形态,比如考试分数,有可能很多学生都考得很好,使图形在靠近满分的地方有尖峰;也可能有很难的题目,使得会做和不会做的学生被区分出来,从而图形有两个尖峰。用眼睛观察图形之后,再描述你看到了什么。
1702634272
1702634273
练习
1702634274
1702634275
11.285岁及以上居民。图11–5是2008年7月,美国50个州中85岁及以上居民所占百分比的直方图。说明该分布的形状、中心和幅度,以及其中有异常值吗?
1702634276
1702634277
1702634278
[
上一页 ]
[ :1.702634229e+09 ]
[
下一页 ]