打字猴:1.70050618e+09
1700506180
1700506181
1700506182
1700506183 图8-5 数量分布
1700506184
1700506185 这个实验很简单,但仍然说明了一个问题:这种随机误差在一轮抽样中其实是很难发现的。例如,在某轮抽样中抽到了100个产品,发现其中有22个残次品,那么这22%的残次率究竟和真值相差多少?要想找到真值的位置,需要进行多次抽样。
1700506186
1700506187 在抽样会产生抽样误差的情况下,通过多次抽样才能找到真值,这确实让人很头疼,因为多次抽样增加了计算的成本。所以,在现在计算机硬件价格越来越低的情况下,很多公司喜欢用全部样本直接进行统计也是情有可原的。如果仍旧希望通过多次小样本评估来推测全体的分布情况,可以使用8.8.3节介绍的卡方分布方法。
1700506188
1700506189 数据科学家养成手册 [:1700503550]
1700506190 8.6.2 非抽样误差
1700506191
1700506192 造成非抽样误差的原因就比较复杂了,有很多种情况。
1700506193
1700506194 1.抽样框误差
1700506195
1700506196 在对动态事物进行观察研究的情况下都会出现抽样框误差。例如,在规定时间内进行全国人口普查,最理想的情况是在某一时刻对全国人口进行“快照”,将这一瞬时值的状态“冷冻”起来进行普查。但是,这种“冷冻”其实根本不可能实现,也就不可能在规定的时间和地点范围内实现真正的“快照”,而在动态中产生重记和漏记的可能性就会存在。这就是抽样框误差。
1700506197
1700506198 这种“快照”方式只能对那些相对容易做快照的系统数据进行统计。很多用批处理操作生成报表的工具都是这样,在第二天的凌晨处理前一天记录的数据信息,并形成关于前一天的快照统计信息。这种方法是有效的,不过其代价是对时效性的牺牲。
1700506199
1700506200 2.回答误差
1700506201
1700506202 回答误差在对人的访谈中最容易出现。
1700506203
1700506204 回答者对问题的理解是否与提问的初衷相符?回答者是不是理解了问题?这都不容易确定。在回答问题的时候,回答者需要进行回忆,而这种回忆是否准确也不容易确定。还有一些问题,例如回答者由于羞愧、虚荣、道德压力等原因给出了违背其自身真实想法的答案,这也属于误差。这种误差在一些统计手段中有相应的修正技巧,在16.6.2节会进行介绍。
1700506205
1700506206 3.无回答误差
1700506207
1700506208 无回答误差可以直接理解为“访谈对象交白卷”。在机器收集数据的过程中,会由于各类故障而生成空白的数据记录,这同样属于无回答误差。此外,还有由于调查人员操作不当而产生的漏记、错记,由于误导回答者而产生的误差,以及由量具和测量方式产生的测量误差等。
1700506209
1700506210 对无回答误差,在学术层面有很多方法可以进行代偿。例如,对人来说,可以要求回答者重新作答;对机器报送中发生的失误,可以在机器修复之后用时序上前后连续的部分进行数据平滑等。不过,目前还没有能够完美地避免无回答误差的方法。
1700506211
1700506212 一般来说,我们认为在一次调查中,持续时间越久,因素越复杂,人为干扰成分越多,非抽样误差存在的可能性就越大。如果希望减小误差,还是要采用多次测量、去噪声点、取平均值等手段。
1700506213
1700506214
1700506215
1700506216
1700506217 数据科学家养成手册 [:1700503551]
1700506218 数据科学家养成手册 8.7 概括性度量
1700506219
1700506220 费歇尔(11)在1952年的一篇文章中举了一个例子,说明如何由基本的描述统计量知识引出一个重要的发现。
1700506221
1700506222 20世纪早期,哥本哈根卡尔堡实验室的施密特(J. Schmidt)发现,在不同地区捕获的同种鱼类的脊椎骨和腮腺的数量有很大的不同,甚至在同一海湾的不同地点捕获的同种鱼类也发现了同样的倾向,但是鳗鱼的脊椎骨数量变化不大。在从欧洲各地、冰岛、亚速尔群岛和尼罗河等几乎分离的地点捕获的鳗鱼样本中,施密特通过计算发现了几乎一样的均值和标准差。
1700506223
1700506224 在派出一艘名为“Dana”的科考船进行多轮捕捞和数据比对以后,施密特判断:各个海域的鳗鱼是在某个公共场所繁殖的,这个地方基本可以圈定在西大西洋东北部和西印度群岛的北部(如图8-6所示)。
1700506225
1700506226
1700506227
1700506228
1700506229 图8-6 鳗鱼繁殖场的位置
[ 上一页 ]  [ :1.70050618e+09 ]  [ 下一页 ]