1702635085
统计学的世界(第8版) 第13章 正态分布
1702635086
1702635087
案例分析
1702635088
1702635089
柱状图和直方图自然是很古老的图形了。用柱状图来展示数据的历史,可以一直追溯到英国经济学家威廉·普莱费尔这位数据制图学(datagraphics)的先驱。画直方图必须先选择分组方式,不同的分组方式会产生不同的图形。现代的计算机软件如此发达,必定可以提供更好的分组方法来画分布图吧?
1702635090
1702635091
利用计算机软件,可以把直方图里的各个长方形以一条平滑的曲线取代,这条曲线代表分布的整体形状。看一看图13–1,该图展示的数据是2000~2002年美国152所大学中少数族裔学生获得工程博士学位的人数。我们在第11章见过这些数据,图13–1的直方图用曲线替代了长方形。不过,计算机软件并不是根据直方图来画出这条曲线的,这是一种新技术,你输入原始数据,它就会很聪明地生成这条曲线来描述分布。
1702635092
1702635093
1702635094
在图13–1里,计算机软件描绘了分布的整体形状,而且比直方图更有效地呈现出右边尾巴处的波动状况。然而,最高峰的表达却稍微有点儿困难,比如,软件把曲线左端延伸至零的左边,以便使很突兀的高峰稍微平缓些。在图13–2里,我们用同样的软件去处理较大的一组数据,这组数据的分布形状比较有规则。这些数据是1000个大小为2527的简单随机样本的样本统计量的值,样本来自参数值p=0.5的总体。我们在第11章中也见过这些数据,图13–2的直方图也是从图11–3复制过来的。计算机软件绘制的曲线呈现的是一个十分对称且有单一峰值的钟形图案。
1702635095
1702635096
1702635097
1702635098
1702635099
图13–1 直方图和计算机软件绘制的曲线。图和曲线描述的都是152所大学中少数族裔学生获工程博士学位人数的分布,这个分布是右偏的
1702635100
1702635101
1702635102
1702635103
1702635104
图13–2 直方图和计算机软件绘制的曲线。二者描述的都是从同一总体中抽出的1000个简单随机样本统计量,是一个对称分布
1702635105
1702635106
对于图13–1的不规则分布,我们没办法画出更好的曲线。然而,对于图13–2这种十分对称的分布,我们还有另一个方法可以得到一条平滑曲线。根据数学知识,这种分布可以用一种名为“正态曲线”(normal curve)的特殊平滑曲线来描述。图13–3中的曲线就是根据这组数据所绘制的正态曲线,这条曲线看上去很像图13–2中的那一条,然而仔细看的话,会发现这条曲线更平滑。正态曲线画起来很方便,不需要用计算机软件。我们会看到,正态曲线有一些特殊性质,让我们在使用它和观察它的时候更方便。
1702635107
1702635108
1702635109
1702635110
1702635111
图13–3 完全对称的正态曲线
1702635112
1702635113
在这一章,我们将学习正态分布的特殊性质,帮助我们观察和使用它们。学完本章,你将能够用这些特性回答难以用直方图解释的那些问题。
1702635114
1702635115
我们现在有一整箱的工具可以用来描述分布,其中有图形,也有数字。当然,还不止这些,对于探索单一数值变量的分布,我们有一套明明白白的策略。
1702635116
1702635117
• 一定要把数据用画展示出来,通常是直方图或茎叶图。
1702635118
1702635119
• 寻找整体形态(形状、中心与幅度),以及像异常值这样的显著偏差。
1702635120
1702635121
• 选择用五数概括还是平均数和标准差来简要描述中心与幅度。
1702635122
1702635123
• 如果观察值的数量足够多,整体形态就会显示出某种规律,可以用平滑曲线来描述。
1702635124
1702635125
密度曲线
1702635126
1702635127
图13–1和图13–2展示了曲线如何代替直方图,描绘分布的整体形状。你可以想象有一条曲线,穿过直方图中各个长方形的顶部,使长方形很不规则的高高低低变得平滑。直方图和这些曲线之间有两个重要的差别。第一,大部分直方图都是用长方形的高度来表示落在每组的观察值个数,或者用长方形的面积表示这些计数;而曲线是用其下方的面积来表示落在该区间的观察值比例。为了做到这一点,我们会选择适当的比例尺,使得曲线下方的总面积恰好是1。这样,我们就可以得到一条“密度曲线”(density curve)了。第二,直方图根据从样本中得到的数据画出。我们用直方图来理解抽取样本的总体的实际分布情况。密度曲线用来反映总体分布的理想形态。
1702635128
1702635129
例1 使用密度曲线
1702635130
1702635131
图13–4是从图13–3复制过来的,是描述1000个样本统计量的直方图和正态曲线。其中比0.51大的观察值占多大比例?在这1000个观察值中,有171个大于0.51的数值,所以这个比例就是171/1000,即0.171。由于0.51正好是直方图上相邻两组的分界点,所以图13–4(a)的阴影柱形的面积占柱形总面积的0.171。
1702635132
1702635133
现在注意观察穿过直方图的密度曲线。这个曲线下方的面积是1,而图13–4(b)中阴影部分的面积代表超过0.51的观察值所占比例,这个面积是0.1667。由此可以看出,密度曲线是一个相当不错的近似方法——0.1667非常接近0.171。
[
上一页 ]
[ :1.702635084e+09 ]
[
下一页 ]