打字猴:1.70263417e+09
1702634170
1702634171
1702634172 第三步:画直方图。把要呈现的变量在横轴上标出刻度,在这个例子中,变量是“65岁及以上居民所占百分比”。刻度从5到20,这样就包含了所有组的范围。然后,把计数的刻度标识在纵轴上。每一个柱形代表一组,柱体底部标识了该组的区间范围,柱形的高度代表该组的计数。柱形之间不要留有空隙,除非有一组的计数为零,此时其对应的柱形高度为零。图11–1就是我们要画的直方图。
1702634173
1702634174 跟柱状图一样,我们的眼睛会对直方图的柱形面积产生反应,因此要确保直方图每个组的宽度都一样。如何分组并没有绝对的标准,不过如果组数太少,会形成“摩天楼”直方图,所有的值只落在少数几个组里面,导致这几个组的柱形很高;若分了太多的组,又会形成饼图,大部分的组只有一个值,甚至没有值,柱形都是扁平的。这两种分组方法都不能有效地呈现出数值变量的分布。因此,你得自己判断怎样选择合适的组数,也有统计软件会帮你分组。电脑的选择通常不错,不过你也可以自行修改。
1702634175
1702634176
1702634177
1702634178
1702634179 图11–1 50个州65岁及以上居民所占百分比的直方图
1702634180
1702634181 练习
1702634182
1702634183 11.1 18岁以下人口。下表是2008年7月美国50个州18岁以下人口所占的百分比。
1702634184
1702634185
1702634186
1702634187
1702634188
1702634189
1702634190
1702634191 按照例1给出的三个步骤画出这个分布的直方图。
1702634192
1702634193 读懂直方图
1702634194
1702634195 画统计图本身并不是我们的最终目的,而是为了帮助我们理解数据。在你(或你的电脑)画完图之后,一定要问“我看到了什么”。下面是看图的一般策略。
1702634196
1702634197 形态与偏差
1702634198
1702634199 在呈现任何一组数据的图形里,我们要观察的是整体形态,以及有异于整体形态的显著偏差。
1702634200
1702634201 这个策略我们已经在线图中用过了,趋势和季节变动都是线图中常见的整体形态。图10–6中2008年年底和2009年年初因金融危机和之后的经济衰退导致的油价下跌,就是有异于2002年和2008年年中的整体形态的偏差。对图11–1的直方图而言,从异于整体形态的偏差说起会更容易些。有两个州与众不同,一旦我们在直方图中注意到这两个州,就可以到列表里面去查出是哪两个州。佛罗里达州有17.4%的居民年龄在65岁以上,而阿拉斯加则只有7.3%,这两个州是很明显的异常值。
1702634202
1702634203 异常值
1702634204
1702634205 异常值(outlier)是指落在整体形态之外的观察值。
1702634206
1702634207 犹他州的65岁以上的居民占9.0%,这算不算异常值呢?某个观察值到底算不算异常值,在某种程度上是主观判断的问题。犹他州的值虽然也很小,但并没有像佛罗里达和阿拉斯加那样脱离整体形态,所以我们不会叫它异常值。一旦你找到异常值,就应该寻求原因。许多异常值其实是人为错误造成的,比如把4.0错写成40。有些异常值则显示出某些观察值的特性。要解释异常值,通常需要些背景知识。佛罗里达有许多退休人口,所以65岁以上人口的比率高,这一点儿也不奇怪;而阿拉斯加在美国北部边陲地带,年纪大的人少也很正常。
1702634208
1702634209 要找出直方图的整体形态,得先把异常值放在一边。我们可以使用一个简单的方法:
1702634210
1702634211 分布的整体形态
1702634212
1702634213 要找出分布的整体形态:
1702634214
1702634215 • 找出中心(center)与幅度(spread)。
1702634216
1702634217 • 看看该分布是否有简单的形状(shape),可以很容易地做出描述。
1702634218
1702634219 在第12章里我们将介绍怎样用数值来描述中心和幅度。目前,我们不妨用分布的“中间点”(midpoint)来表示分布的中心。中间点就是差不多有一半观察值比它小,有一半观察值比它大的那个点。或者不考虑异常值,只用最小和最大的值来描述分布的幅度。
[ 上一页 ]  [ :1.70263417e+09 ]  [ 下一页 ]