打字猴:1.700506189e+09
1700506189 数据科学家养成手册 [:1700503550]
1700506190 8.6.2 非抽样误差
1700506191
1700506192 造成非抽样误差的原因就比较复杂了,有很多种情况。
1700506193
1700506194 1.抽样框误差
1700506195
1700506196 在对动态事物进行观察研究的情况下都会出现抽样框误差。例如,在规定时间内进行全国人口普查,最理想的情况是在某一时刻对全国人口进行“快照”,将这一瞬时值的状态“冷冻”起来进行普查。但是,这种“冷冻”其实根本不可能实现,也就不可能在规定的时间和地点范围内实现真正的“快照”,而在动态中产生重记和漏记的可能性就会存在。这就是抽样框误差。
1700506197
1700506198 这种“快照”方式只能对那些相对容易做快照的系统数据进行统计。很多用批处理操作生成报表的工具都是这样,在第二天的凌晨处理前一天记录的数据信息,并形成关于前一天的快照统计信息。这种方法是有效的,不过其代价是对时效性的牺牲。
1700506199
1700506200 2.回答误差
1700506201
1700506202 回答误差在对人的访谈中最容易出现。
1700506203
1700506204 回答者对问题的理解是否与提问的初衷相符?回答者是不是理解了问题?这都不容易确定。在回答问题的时候,回答者需要进行回忆,而这种回忆是否准确也不容易确定。还有一些问题,例如回答者由于羞愧、虚荣、道德压力等原因给出了违背其自身真实想法的答案,这也属于误差。这种误差在一些统计手段中有相应的修正技巧,在16.6.2节会进行介绍。
1700506205
1700506206 3.无回答误差
1700506207
1700506208 无回答误差可以直接理解为“访谈对象交白卷”。在机器收集数据的过程中,会由于各类故障而生成空白的数据记录,这同样属于无回答误差。此外,还有由于调查人员操作不当而产生的漏记、错记,由于误导回答者而产生的误差,以及由量具和测量方式产生的测量误差等。
1700506209
1700506210 对无回答误差,在学术层面有很多方法可以进行代偿。例如,对人来说,可以要求回答者重新作答;对机器报送中发生的失误,可以在机器修复之后用时序上前后连续的部分进行数据平滑等。不过,目前还没有能够完美地避免无回答误差的方法。
1700506211
1700506212 一般来说,我们认为在一次调查中,持续时间越久,因素越复杂,人为干扰成分越多,非抽样误差存在的可能性就越大。如果希望减小误差,还是要采用多次测量、去噪声点、取平均值等手段。
1700506213
1700506214
1700506215
1700506216
1700506217 数据科学家养成手册 [:1700503551]
1700506218 数据科学家养成手册 8.7 概括性度量
1700506219
1700506220 费歇尔(11)在1952年的一篇文章中举了一个例子,说明如何由基本的描述统计量知识引出一个重要的发现。
1700506221
1700506222 20世纪早期,哥本哈根卡尔堡实验室的施密特(J. Schmidt)发现,在不同地区捕获的同种鱼类的脊椎骨和腮腺的数量有很大的不同,甚至在同一海湾的不同地点捕获的同种鱼类也发现了同样的倾向,但是鳗鱼的脊椎骨数量变化不大。在从欧洲各地、冰岛、亚速尔群岛和尼罗河等几乎分离的地点捕获的鳗鱼样本中,施密特通过计算发现了几乎一样的均值和标准差。
1700506223
1700506224 在派出一艘名为“Dana”的科考船进行多轮捕捞和数据比对以后,施密特判断:各个海域的鳗鱼是在某个公共场所繁殖的,这个地方基本可以圈定在西大西洋东北部和西印度群岛的北部(如图8-6所示)。
1700506225
1700506226
1700506227
1700506228
1700506229 图8-6 鳗鱼繁殖场的位置
1700506230
1700506231 这种从多批次大量数据中找出共性的方式,并不是人类所擅长的,因为人类的认知能力对少量的对象比较敏感,也比较容易集中精力,而对大量的对象则通常难以进行有效的认知。所以,归纳与概括大量数据的指标就出现了。
1700506232
1700506233 数据科学家养成手册 [:1700503552]
1700506234 8.7.1 集中趋势度量
1700506235
1700506236 描述数据集中程度的数据指标有很多,例如众数、中位数和四分位数。
1700506237
1700506238 众数(Mode)是一组数据中出现次数最多的变量值,我们习惯用M0来表示。众数主要用于测度分类数据的集中趋势,也适合作为顺序数据及数值型数据集中趋势的测度值(如图8-7所示)。一般来说,数据量较大的时候众数才有意义。
[ 上一页 ]  [ :1.700506189e+09 ]  [ 下一页 ]