1700506239
1700506240
1700506241
1700506242
1700506243
图8-7 众数分布示意图
1700506244
1700506245
看这样一个例子。一个小区的理发师,在对当天所有前来理发的8位顾客做了年龄登记后,得到一个年龄列表“15、20、22、22、23、35、50、72”,其中22就是众数。众数反映的是一个多数的概念,即一个数字比其他数字出现的次数更多或者更普遍。在“15、20、22、22、23、35、50、72、72”中有2个众数——22和72。
1700506246
1700506247
但是,众数的问题也显而易见:如果在众多不同的数字中出现2个相同的,这个相同的数字作为众数来表示“普遍”的含义,就与表达的初衷有很大的不同。因此,生产统计中,众数的应用并不普遍,或者需要搭配其他统计指标才能让受众获得比较完备的数据概括描述。
1700506248
1700506249
中位数表示一组数据排序后处于中间位置上的变量值。
1700506250
1700506251
1700506252
1700506253
1700506254
1700506255
1700506256
也就是说,如果有一组数据按照从小到大的顺序排列,新序列是,则有
1700506257
1700506258
1700506259
1700506260
1700506261
四分位数的定义和中位数差不多,相当于用中位数对排序后的数列进行一次“分割”,再在中位数两侧的2个子数列里各进行一次中位数的“分割”。从理论上讲,有中位数和四分位数的定义,就可以有八分位数、十六分位数,以及所有自然数的N分位数。然而,对于描述一组数字的集中样态来说,这些“分割点”有些多余,虽然描述得更为细致,但是显然不够直接。所以,在大多数的日常生产场景中,极少使用这些分位数。
1700506262
1700506263
此外,描述数据集中程度的数据指标还有平均数和加权平均数,它们也是统计学中通常用来描述集中趋势的度量值。
1700506264
1700506265
平均数也叫均值(Mean),就是一组数据相加后除以个数得到的结果,是目前日常统计中应用最广泛的一种统计指标值。
1700506266
1700506267
加权平均数(Weighted Mean)是根据分组数据计算的平均数。例如,原始数据被分成k组,各组的平均值分别是M1, M2,…, Mk,各组变量值的数量分别是f1, f2,…, fk,则样本加权平均数的计算公式为
1700506268
1700506269
1700506270
1700506271
1700506272
或者写作
1700506273
1700506274
1700506275
1700506276
1700506277
从形式上来看,后者更简洁一些。
1700506278
1700506279
掌握众数、中位数和平均数的含义和特点,有助于在实际应用中选择合理的测度值来描述数据的集中趋势(如图8-8所示)。
1700506280
1700506281
1700506282
1700506283
1700506284
图8-8 对称分布、左偏分布和右偏分布
1700506285
1700506286
众数是一组数据分布的峰值,不受极端值的影响,但是可能不唯一,而且数据量较少的情况下不适合使用。
1700506287
1700506288
中位数是一组数据中间位置上的代表值,也不受数据极端值的影响,适合作为顺序数据集中趋势的测度值。
[
上一页 ]
[ :1.700506239e+09 ]
[
下一页 ]