打字猴:1.702633704e+09
1702633704
1702633705
1702633706
1702633707
1702633708 资料来源:人口普查局,《2009年美国教育实况》
1702633709
1702633710 表10–1先列出了25岁及以上受教育程度不同的人的数量。比率(或者百分比)通常要比计数清楚,比如,有13.3%的这个年龄段的人没有读完高中,比有26415000个人没有读完高中,传递的信息要清楚得多。表10–1中也列出了百分比,表里面的这两列数字,用两种不同方式呈现了受教育程度这个变量的“分布”(distribution)情况。每一行提供的信息,包括变量的值,以及这个变量所占的比率。
1702633711
1702633712 变量的分布
1702633713
1702633714 一个变量的分布,可以告诉我们变量有些什么可能的值,以及每一个值所占的比率。
1702633715
1702633716 例2 舍入误差
1702633717
1702633718 你有没有检查一下表10–1中的数字是否相符?总人数应该是:
1702633719
1702633720 26415+61626+33832+17838+37635+20938=198284千人
1702633721
1702633722 可是,表里面的总人数是198285人。这是怎么一回事?表里面的每一个数字,在换成以千人为单位时经过了四舍五入处理。因为是每一个数字分别做四舍五入,加起来和总数不符是正常的。从此以后,这种“舍入误差”(round-off error)在我们做计算的时候会一直跟着我们。
1702633723
1702633724 我们在表中常会见到舍入误差。例如,当表中输入的数字是百分比或者比例时,其总数可能会与100%或1略有出入。表10–1的百分比之和为100.1%,而不是100%。
1702633725
1702633726 饼图和柱状图
1702633727
1702633728 表10–1中变量的分布很简单,因为受教育程度只有6种可能的值。要把这个分布用图来表示的话,可以用“饼图”(pie chart),图10–2就是表示25岁及以上成年人的受教育程度饼图。饼图可以显示出一个整体怎样被分成了几个部分。要画饼图,先得画个圆,圆代表总体,在这个例子中,就是所有25岁及以上的成年人。圆里面的扇形代表各个部分,各个扇形的圆心角和各部分的大小成比例。比如,有19.0%的人有学士学位但没有更高的学位。一个圆为360度,所以代表“学士学位”的扇形的圆心角就是:0.19×360=68.4度。
1702633729
1702633730
1702633731
1702633732
1702633733 图10–2 25岁及以上成年人(2009年)的受教育程度分布情况饼图
1702633734
1702633735 饼图的好处是让我们看到,所有的部分合起来的确是总体。但是,角度比长度难比较,所以饼图并不是比较各部分大小的好方法。
1702633736
1702633737 图10–3是根据同样的数据制作的“柱状图”(bar graph)。每个柱形的高度显示出,25岁及以上的成年人中符合该柱形底部标示的受教育程度的人,占多少百分比。从柱状图可以清楚地看出,高中毕业的人比大学肄业的人多,因为代表“高中毕业”的柱形比较高。而这种差异在饼图的扇形中不容易看出来,所以我们得在每个扇形上都标示出百分比。除非用电脑绘图,否则柱状图一般来说比饼图好画。
1702633738
1702633739
1702633740
1702633741
1702633742 图10–3 25岁及以上成年人(2009年)的受教育程度分布情况柱状图
1702633743
1702633744 当我们在考虑用哪种图的时候,对变量稍加分类会有所帮助。有的变量有有意义的“数值范围”(numerical scale),比如身高多少厘米、美国学术能力评估测试分数等,而有的变量,例如性别、职业或者受教育程度,只是把个体分到不同的类别中。饼图和柱状图对于后一种变量最有用。
1702633745
1702633746 类别变量和数值变量
1702633747
1702633748 类别变量(categorical variable)用于把个体归类到数个组(group)或数个类别(category)中。
1702633749
1702633750 数值变量(quantitative variable)的值是定量的,可以拿来做计算,比如求和或求平均值。
1702633751
1702633752 要表示类别变量的分布情况,可以用饼图或柱状图。
1702633753
[ 上一页 ]  [ :1.702633704e+09 ]  [ 下一页 ]