打字猴:1.702634154e+09
1702634154
1702634155 第一步:将数据的区间拆分成同等宽度的多个组。表11–1中的数据范围为7.3%~17.4%,所以可以被拆分为以下各组:
1702634156
1702634157 7.0%≤65岁及以上居民所占百分比<8.0%
1702634158
1702634159 8.0%≤65岁及以上居民所占百分比<9.0%
1702634160
1702634161 ……
1702634162
1702634163 17.0%≤65岁及以上居民所占百分比<18.0%
1702634164
1702634165 一定要清晰地定义组界,以便每个个体都能落在某个组中。换言之,确保各组是唯一的(每个个体只属于一个组)和完全的(所有个体都包含其中)。某个州的65岁及以上居民的占比为7.9%,就应该落在第一组,但如果是8.0%,则应该落在第二组。
1702634166
1702634167 第二步:点数每组的个体数量。
1702634168
1702634169
1702634170
1702634171
1702634172 第三步:画直方图。把要呈现的变量在横轴上标出刻度,在这个例子中,变量是“65岁及以上居民所占百分比”。刻度从5到20,这样就包含了所有组的范围。然后,把计数的刻度标识在纵轴上。每一个柱形代表一组,柱体底部标识了该组的区间范围,柱形的高度代表该组的计数。柱形之间不要留有空隙,除非有一组的计数为零,此时其对应的柱形高度为零。图11–1就是我们要画的直方图。
1702634173
1702634174 跟柱状图一样,我们的眼睛会对直方图的柱形面积产生反应,因此要确保直方图每个组的宽度都一样。如何分组并没有绝对的标准,不过如果组数太少,会形成“摩天楼”直方图,所有的值只落在少数几个组里面,导致这几个组的柱形很高;若分了太多的组,又会形成饼图,大部分的组只有一个值,甚至没有值,柱形都是扁平的。这两种分组方法都不能有效地呈现出数值变量的分布。因此,你得自己判断怎样选择合适的组数,也有统计软件会帮你分组。电脑的选择通常不错,不过你也可以自行修改。
1702634175
1702634176
1702634177
1702634178
1702634179 图11–1 50个州65岁及以上居民所占百分比的直方图
1702634180
1702634181 练习
1702634182
1702634183 11.1 18岁以下人口。下表是2008年7月美国50个州18岁以下人口所占的百分比。
1702634184
1702634185
1702634186
1702634187
1702634188
1702634189
1702634190
1702634191 按照例1给出的三个步骤画出这个分布的直方图。
1702634192
1702634193 读懂直方图
1702634194
1702634195 画统计图本身并不是我们的最终目的,而是为了帮助我们理解数据。在你(或你的电脑)画完图之后,一定要问“我看到了什么”。下面是看图的一般策略。
1702634196
1702634197 形态与偏差
1702634198
1702634199 在呈现任何一组数据的图形里,我们要观察的是整体形态,以及有异于整体形态的显著偏差。
1702634200
1702634201 这个策略我们已经在线图中用过了,趋势和季节变动都是线图中常见的整体形态。图10–6中2008年年底和2009年年初因金融危机和之后的经济衰退导致的油价下跌,就是有异于2002年和2008年年中的整体形态的偏差。对图11–1的直方图而言,从异于整体形态的偏差说起会更容易些。有两个州与众不同,一旦我们在直方图中注意到这两个州,就可以到列表里面去查出是哪两个州。佛罗里达州有17.4%的居民年龄在65岁以上,而阿拉斯加则只有7.3%,这两个州是很明显的异常值。
1702634202
1702634203 异常值
[ 上一页 ]  [ :1.702634154e+09 ]  [ 下一页 ]