1702634220
1702634221
例2 描述分布的整体形态
1702634222
1702634223
看一下图11–1的形状,它只有一个尖峰(peak)。这个分布大致是对称的(symmetric),也就是说图的形态在尖峰两边很相似。该分布的中心(中间点)十分接近尖峰的位置,即13%左右。如果不计入那两个异常值,该分布的幅度差不多是从9%到16%。
1702634224
1702634225
例3 伊利诺伊州的学费
1702634226
1702634227
伊利诺伊州有116所大专院校。2009~2010学年的学费范围是从墨兰谷社区大学的1974美元到芝加哥大学的38550美元。图11–2是这116所学校学费的直方图,我们看到很多社区大学的学费低于4000美元。在这个分布的最右端,有两所学校的学费范围在36000~40000美元。
1702634228
1702634229
图11–2与图11–1的样子大不相同,在收费最低的组一边,有很突出的尖峰。大部分院校的学费低于8000美元,但是该图的右边有一条长尾巴,一直延伸到近40000美元。我们把一端有一条长尾巴的分布称为偏斜的(skewed)。这个分布的中心大概是8000美元(有一半院校的学费低于此值)。该分布的幅度很大,从1974美元到超过38000美元。该分布没有异常值,学费最高的几所院校只是长尾巴的延伸,仍是整体形态的一部分。
1702634230
1702634231
1702634232
1702634233
1702634234
图11–2 2009~2010学年伊利诺伊州116所大专院校学费的直方图
1702634235
1702634236
在描述一个分布的时候,要把注意力放在重点上。要寻找主要的尖峰,而不是直方图中的小起伏,比如图11–2里面的那些。要辨识出明显的异常值,而不是直接把最小和最大的观察值当作异常值。要看是否有对称性,或明显的偏斜。
1702634237
1702634238
对称分布与偏斜分布
1702634239
1702634240
若直方图的左半边和右半边大致可看成互为镜中影像,则称该分布是对称的。若直方图的右边(包含较大观察值的那一半)延伸得比左边远,则称该分布是右偏的(skewed to the right)。若直方图的左边延伸得比右边远,则称该分布是左偏的(skewed to thd left)。
1702634241
1702634242
在数学领域,对称的定义是:一幅图(比如直方图)的左右两半确实互为镜中影像。数据几乎不会是完全对称的,因此我们把像图11–1那样的直方图视为大致对称的整体形态,而图11–2则是明显右偏的。
1702634243
1702634244
例4 样本统计量的分布
1702634245
1702634246
1702634247
1702634248
从同一总体中抽取多个随机样本所得到的统计量的值,会形成有规律的分布形态。图11–3的直方图展示了我们在第3章见过的分布。抽取2527名成年人组成的简单随机样本,问其中每个人是否支持关于婚姻的宪法修正案。支持者的比例就是样本统计量。抽样1000次,我们就可以从这1000个随机样本中得到1000个样本统计量。图11–3呈现的是1000个样本统计量的分布,其总体的真实值是50%。
1702634249
1702634250
这个分布相对于中间的单个尖峰是对称的。中心是0.50,表示样本统计量是无偏的。1000个值从小到大的幅度是从0.463到0.533。
1702634251
1702634252
1702634253
1702634254
1702634255
1702634256
图11–3 从同一总体中抽取1000个简单随机样本所得样本统计量的直方图
1702634257
1702634258
例5 莎士比亚戏剧
1702634259
1702634260
图11–4显示了莎士比亚戏剧所用单词的长度的分布。这个分布有一个尖峰,而且大致是右偏的。剧中用了很多简短的单词(3~4个字母)和少数很长的单词(10~12个字母),所以右边延伸得要比左边远。该分布的中心是4,也就是说,莎士比亚戏剧中大约一半是有4个或者更少字母的单词。该分布的幅度是从1个字母到12个字母。
1702634261
1702634262
请注意,图11–4的纵轴并不是单词的计数,而是莎士比亚戏剧中各种长度的单词所占百分比。当计数很大或我们想比较几个分布时,用百分比直方图更方便。不同的戏剧会有不同的词长分布,之所以右偏,是因为短单词比较多,长单词比较少。
1702634263
1702634264
1702634265
1702634266
1702634267
图11–4 莎士比亚戏剧中各种长度的单词所占百分比的直方图
1702634268
1702634269
资料来源:《风格和词汇:数值研究》,C·B·威廉姆斯,1970年
[
上一页 ]
[ :1.70263422e+09 ]
[
下一页 ]