1700506155
8.6.1 抽样误差
1700506156
1700506157
抽样误差(Sampling Error)是指由抽样的随机性引起的样本结果与总体真值之间的误差。由于抽样本身是一种用少量样本“代表”总体的行为,所以无法避免“以偏概全”的情况发生。也就是说,基于抽样的分析对基于总体的分析来说是一种样本缩减的次优解,牺牲的是抽样误差,得到的是统计计算效率。我们只要从这种角度来看待这两种方案的取舍与代偿性就好。
1700506158
1700506159
不仅是在同一次的抽样与总体之间会产生统计差异,不同的抽样批次之间也会有差异。
1700506160
1700506161
假设在10000个零件中有1000个残次品,我们随机抽取100个进行合格率检验。第1轮抽取的100个零件中有10个残次品,残次率为10%;第2轮抽取的100个零件中有11个残次品,残次率为11%。然后,进行第3轮、第4轮……大部分的样本结果会落在一个区间内。
1700506162
1700506163
在这里,我用Python编写了一个脚本,对实验过程进行模拟。
1700506164
1700506165
import randompopulation=[0 for i in range(10000)]for i in range(1000)
: population[i]=1for iterator in range(10000)
: sample=[0 for i in range(100)] for i in range(100)
: sample[i]=population[random.randrange(10000)] count=0 for i in range(100)
: count+=sample[i] print ‘%.2f’ %(float(count)/100)
1700506166
1700506167
以上代码模拟了10000次从有1000个残次品的10000个零件中每轮抽取100个零件的过程,最后输出的值可以拿来做分析。下面示意性地给出输出内容的前10行。
1700506168
1700506169
0.100.110.170.080.090.150.070.100.080.09
1700506170
1700506171
将每次抽样的结果进行归纳(如表8-1所示)。其中,“0.01”是指抽取到残次品的比率,代表“100个产品中有1个残次品”,这样的抽取结果出现了5次;有17次抽取到2个残次品;有49次抽取到3个残次品……以此类推。
1700506172
1700506173
表8-1 数量与分布
1700506174
1700506175
1700506176
1700506177
1700506178
我们把这个结果画成一幅图(如图8-5所示),横坐标是比率(0~0.22),纵坐标是轮数,很明显能看出这是一个正态分布的情况。有95%的轮数都取在中心0.1、左右各0.06的范围内。在0.1-0.06到0.1+0.06的范围内,和全部残次品真实值0.1(10000个零件中有1000个残次品)来比,0.06就是抽样误差。
1700506179
1700506180
1700506181
1700506182
1700506183
图8-5 数量分布
1700506184
1700506185
这个实验很简单,但仍然说明了一个问题:这种随机误差在一轮抽样中其实是很难发现的。例如,在某轮抽样中抽到了100个产品,发现其中有22个残次品,那么这22%的残次率究竟和真值相差多少?要想找到真值的位置,需要进行多次抽样。
1700506186
1700506187
在抽样会产生抽样误差的情况下,通过多次抽样才能找到真值,这确实让人很头疼,因为多次抽样增加了计算的成本。所以,在现在计算机硬件价格越来越低的情况下,很多公司喜欢用全部样本直接进行统计也是情有可原的。如果仍旧希望通过多次小样本评估来推测全体的分布情况,可以使用8.8.3节介绍的卡方分布方法。
1700506188
1700506190
8.6.2 非抽样误差
1700506191
1700506192
造成非抽样误差的原因就比较复杂了,有很多种情况。
1700506193
1700506194
1.抽样框误差
1700506195
1700506196
在对动态事物进行观察研究的情况下都会出现抽样框误差。例如,在规定时间内进行全国人口普查,最理想的情况是在某一时刻对全国人口进行“快照”,将这一瞬时值的状态“冷冻”起来进行普查。但是,这种“冷冻”其实根本不可能实现,也就不可能在规定的时间和地点范围内实现真正的“快照”,而在动态中产生重记和漏记的可能性就会存在。这就是抽样框误差。
1700506197
1700506198
这种“快照”方式只能对那些相对容易做快照的系统数据进行统计。很多用批处理操作生成报表的工具都是这样,在第二天的凌晨处理前一天记录的数据信息,并形成关于前一天的快照统计信息。这种方法是有效的,不过其代价是对时效性的牺牲。
1700506199
1700506200
2.回答误差
1700506201
1700506202
回答误差在对人的访谈中最容易出现。
1700506203
[
上一页 ]
[ :1.700506154e+09 ]
[
下一页 ]