1700506167
以上代码模拟了10000次从有1000个残次品的10000个零件中每轮抽取100个零件的过程,最后输出的值可以拿来做分析。下面示意性地给出输出内容的前10行。
1700506168
1700506169
0.100.110.170.080.090.150.070.100.080.09
1700506170
1700506171
将每次抽样的结果进行归纳(如表8-1所示)。其中,“0.01”是指抽取到残次品的比率,代表“100个产品中有1个残次品”,这样的抽取结果出现了5次;有17次抽取到2个残次品;有49次抽取到3个残次品……以此类推。
1700506172
1700506173
表8-1 数量与分布
1700506174
1700506175
1700506176
1700506177
1700506178
我们把这个结果画成一幅图(如图8-5所示),横坐标是比率(0~0.22),纵坐标是轮数,很明显能看出这是一个正态分布的情况。有95%的轮数都取在中心0.1、左右各0.06的范围内。在0.1-0.06到0.1+0.06的范围内,和全部残次品真实值0.1(10000个零件中有1000个残次品)来比,0.06就是抽样误差。
1700506179
1700506180
1700506181
1700506182
1700506183
图8-5 数量分布
1700506184
1700506185
这个实验很简单,但仍然说明了一个问题:这种随机误差在一轮抽样中其实是很难发现的。例如,在某轮抽样中抽到了100个产品,发现其中有22个残次品,那么这22%的残次率究竟和真值相差多少?要想找到真值的位置,需要进行多次抽样。
1700506186
1700506187
在抽样会产生抽样误差的情况下,通过多次抽样才能找到真值,这确实让人很头疼,因为多次抽样增加了计算的成本。所以,在现在计算机硬件价格越来越低的情况下,很多公司喜欢用全部样本直接进行统计也是情有可原的。如果仍旧希望通过多次小样本评估来推测全体的分布情况,可以使用8.8.3节介绍的卡方分布方法。
1700506188
1700506190
8.6.2 非抽样误差
1700506191
1700506192
造成非抽样误差的原因就比较复杂了,有很多种情况。
1700506193
1700506194
1.抽样框误差
1700506195
1700506196
在对动态事物进行观察研究的情况下都会出现抽样框误差。例如,在规定时间内进行全国人口普查,最理想的情况是在某一时刻对全国人口进行“快照”,将这一瞬时值的状态“冷冻”起来进行普查。但是,这种“冷冻”其实根本不可能实现,也就不可能在规定的时间和地点范围内实现真正的“快照”,而在动态中产生重记和漏记的可能性就会存在。这就是抽样框误差。
1700506197
1700506198
这种“快照”方式只能对那些相对容易做快照的系统数据进行统计。很多用批处理操作生成报表的工具都是这样,在第二天的凌晨处理前一天记录的数据信息,并形成关于前一天的快照统计信息。这种方法是有效的,不过其代价是对时效性的牺牲。
1700506199
1700506200
2.回答误差
1700506201
1700506202
回答误差在对人的访谈中最容易出现。
1700506203
1700506204
回答者对问题的理解是否与提问的初衷相符?回答者是不是理解了问题?这都不容易确定。在回答问题的时候,回答者需要进行回忆,而这种回忆是否准确也不容易确定。还有一些问题,例如回答者由于羞愧、虚荣、道德压力等原因给出了违背其自身真实想法的答案,这也属于误差。这种误差在一些统计手段中有相应的修正技巧,在16.6.2节会进行介绍。
1700506205
1700506206
3.无回答误差
1700506207
1700506208
无回答误差可以直接理解为“访谈对象交白卷”。在机器收集数据的过程中,会由于各类故障而生成空白的数据记录,这同样属于无回答误差。此外,还有由于调查人员操作不当而产生的漏记、错记,由于误导回答者而产生的误差,以及由量具和测量方式产生的测量误差等。
1700506209
1700506210
对无回答误差,在学术层面有很多方法可以进行代偿。例如,对人来说,可以要求回答者重新作答;对机器报送中发生的失误,可以在机器修复之后用时序上前后连续的部分进行数据平滑等。不过,目前还没有能够完美地避免无回答误差的方法。
1700506211
1700506212
一般来说,我们认为在一次调查中,持续时间越久,因素越复杂,人为干扰成分越多,非抽样误差存在的可能性就越大。如果希望减小误差,还是要采用多次测量、去噪声点、取平均值等手段。
1700506213
1700506214
1700506215
1700506216
[
上一页 ]
[ :1.700506167e+09 ]
[
下一页 ]