打字猴:1.700506217e+09
1700506217 数据科学家养成手册 [:1700503551]
1700506218 数据科学家养成手册 8.7 概括性度量
1700506219
1700506220 费歇尔(11)在1952年的一篇文章中举了一个例子,说明如何由基本的描述统计量知识引出一个重要的发现。
1700506221
1700506222 20世纪早期,哥本哈根卡尔堡实验室的施密特(J. Schmidt)发现,在不同地区捕获的同种鱼类的脊椎骨和腮腺的数量有很大的不同,甚至在同一海湾的不同地点捕获的同种鱼类也发现了同样的倾向,但是鳗鱼的脊椎骨数量变化不大。在从欧洲各地、冰岛、亚速尔群岛和尼罗河等几乎分离的地点捕获的鳗鱼样本中,施密特通过计算发现了几乎一样的均值和标准差。
1700506223
1700506224 在派出一艘名为“Dana”的科考船进行多轮捕捞和数据比对以后,施密特判断:各个海域的鳗鱼是在某个公共场所繁殖的,这个地方基本可以圈定在西大西洋东北部和西印度群岛的北部(如图8-6所示)。
1700506225
1700506226
1700506227
1700506228
1700506229 图8-6 鳗鱼繁殖场的位置
1700506230
1700506231 这种从多批次大量数据中找出共性的方式,并不是人类所擅长的,因为人类的认知能力对少量的对象比较敏感,也比较容易集中精力,而对大量的对象则通常难以进行有效的认知。所以,归纳与概括大量数据的指标就出现了。
1700506232
1700506233 数据科学家养成手册 [:1700503552]
1700506234 8.7.1 集中趋势度量
1700506235
1700506236 描述数据集中程度的数据指标有很多,例如众数、中位数和四分位数。
1700506237
1700506238 众数(Mode)是一组数据中出现次数最多的变量值,我们习惯用M0来表示。众数主要用于测度分类数据的集中趋势,也适合作为顺序数据及数值型数据集中趋势的测度值(如图8-7所示)。一般来说,数据量较大的时候众数才有意义。
1700506239
1700506240
1700506241
1700506242
1700506243 图8-7 众数分布示意图
1700506244
1700506245 看这样一个例子。一个小区的理发师,在对当天所有前来理发的8位顾客做了年龄登记后,得到一个年龄列表“15、20、22、22、23、35、50、72”,其中22就是众数。众数反映的是一个多数的概念,即一个数字比其他数字出现的次数更多或者更普遍。在“15、20、22、22、23、35、50、72、72”中有2个众数——22和72。
1700506246
1700506247 但是,众数的问题也显而易见:如果在众多不同的数字中出现2个相同的,这个相同的数字作为众数来表示“普遍”的含义,就与表达的初衷有很大的不同。因此,生产统计中,众数的应用并不普遍,或者需要搭配其他统计指标才能让受众获得比较完备的数据概括描述。
1700506248
1700506249 中位数表示一组数据排序后处于中间位置上的变量值。
1700506250
1700506251
1700506252
1700506253
1700506254
1700506255
1700506256 也就是说,如果有一组数据按照从小到大的顺序排列,新序列是,则有
1700506257
1700506258
1700506259
1700506260
1700506261 四分位数的定义和中位数差不多,相当于用中位数对排序后的数列进行一次“分割”,再在中位数两侧的2个子数列里各进行一次中位数的“分割”。从理论上讲,有中位数和四分位数的定义,就可以有八分位数、十六分位数,以及所有自然数的N分位数。然而,对于描述一组数字的集中样态来说,这些“分割点”有些多余,虽然描述得更为细致,但是显然不够直接。所以,在大多数的日常生产场景中,极少使用这些分位数。
1700506262
1700506263 此外,描述数据集中程度的数据指标还有平均数和加权平均数,它们也是统计学中通常用来描述集中趋势的度量值。
1700506264
1700506265 平均数也叫均值(Mean),就是一组数据相加后除以个数得到的结果,是目前日常统计中应用最广泛的一种统计指标值。
1700506266
[ 上一页 ]  [ :1.700506217e+09 ]  [ 下一页 ]