1700506140
这个边界的划定在我看来是一个“性价比”的问题。学术上虽然没有确切的定义,不过在实际操作中,我们显然会优先考虑放入那些可能对统计结果产生影响的因素及确定成本较为廉价的因素,这个原则应该是没有问题的。
1700506141
1700506142
当然,这种事情同样可以通过其他方式避免。在以统计学为理论基础的机器学习的知识体系中,有一个环节叫作“Validation”(验证),也就是把实验结论中的限制条件附加在另外一些观察对象上,看看是否能得到与实验相同的结论,从而检查其应验性。如果能够得到同样的结论,就说明这种实验结论的可靠性是值得信任的。这个环节非常重要,也是确保这种归纳认知过程科学性的一种关键手段。对照实验是一种非常广谱的实验方式,对那些维度过于复杂的认知对象来说,对照实验是通过压缩差异维度的数量来提升认知能力的有效手段。
1700506143
1700506144
1700506145
1700506146
1700506148
数据科学家养成手册 8.6 误差
1700506149
1700506150
误差作为一个客观存在的现象,从我们意识到这个世界的存在时就已经开始了。在我们用某种量具进行数值测量的时候,误差已然存在,哪怕是再精确的量具都无法消灭误差,只能尽可能让误差接近零。这就是理想和现实的差异。
1700506151
1700506152
误差有两种,分别是抽样误差和非抽样误差。
1700506153
1700506155
8.6.1 抽样误差
1700506156
1700506157
抽样误差(Sampling Error)是指由抽样的随机性引起的样本结果与总体真值之间的误差。由于抽样本身是一种用少量样本“代表”总体的行为,所以无法避免“以偏概全”的情况发生。也就是说,基于抽样的分析对基于总体的分析来说是一种样本缩减的次优解,牺牲的是抽样误差,得到的是统计计算效率。我们只要从这种角度来看待这两种方案的取舍与代偿性就好。
1700506158
1700506159
不仅是在同一次的抽样与总体之间会产生统计差异,不同的抽样批次之间也会有差异。
1700506160
1700506161
假设在10000个零件中有1000个残次品,我们随机抽取100个进行合格率检验。第1轮抽取的100个零件中有10个残次品,残次率为10%;第2轮抽取的100个零件中有11个残次品,残次率为11%。然后,进行第3轮、第4轮……大部分的样本结果会落在一个区间内。
1700506162
1700506163
在这里,我用Python编写了一个脚本,对实验过程进行模拟。
1700506164
1700506165
import randompopulation=[0 for i in range(10000)]for i in range(1000)
: population[i]=1for iterator in range(10000)
: sample=[0 for i in range(100)] for i in range(100)
: sample[i]=population[random.randrange(10000)] count=0 for i in range(100)
: count+=sample[i] print ‘%.2f’ %(float(count)/100)
1700506166
1700506167
以上代码模拟了10000次从有1000个残次品的10000个零件中每轮抽取100个零件的过程,最后输出的值可以拿来做分析。下面示意性地给出输出内容的前10行。
1700506168
1700506169
0.100.110.170.080.090.150.070.100.080.09
1700506170
1700506171
将每次抽样的结果进行归纳(如表8-1所示)。其中,“0.01”是指抽取到残次品的比率,代表“100个产品中有1个残次品”,这样的抽取结果出现了5次;有17次抽取到2个残次品;有49次抽取到3个残次品……以此类推。
1700506172
1700506173
表8-1 数量与分布
1700506174
1700506175
1700506176
1700506177
1700506178
我们把这个结果画成一幅图(如图8-5所示),横坐标是比率(0~0.22),纵坐标是轮数,很明显能看出这是一个正态分布的情况。有95%的轮数都取在中心0.1、左右各0.06的范围内。在0.1-0.06到0.1+0.06的范围内,和全部残次品真实值0.1(10000个零件中有1000个残次品)来比,0.06就是抽样误差。
1700506179
1700506180
1700506181
1700506182
1700506183
图8-5 数量分布
1700506184
1700506185
这个实验很简单,但仍然说明了一个问题:这种随机误差在一轮抽样中其实是很难发现的。例如,在某轮抽样中抽到了100个产品,发现其中有22个残次品,那么这22%的残次率究竟和真值相差多少?要想找到真值的位置,需要进行多次抽样。
1700506186
1700506187
在抽样会产生抽样误差的情况下,通过多次抽样才能找到真值,这确实让人很头疼,因为多次抽样增加了计算的成本。所以,在现在计算机硬件价格越来越低的情况下,很多公司喜欢用全部样本直接进行统计也是情有可原的。如果仍旧希望通过多次小样本评估来推测全体的分布情况,可以使用8.8.3节介绍的卡方分布方法。
1700506188
[
上一页 ]
[ :1.70050614e+09 ]
[
下一页 ]