1700506254
1700506255
1700506256
也就是说,如果有一组数据按照从小到大的顺序排列,新序列是,则有
1700506257
1700506258
1700506259
1700506260
1700506261
四分位数的定义和中位数差不多,相当于用中位数对排序后的数列进行一次“分割”,再在中位数两侧的2个子数列里各进行一次中位数的“分割”。从理论上讲,有中位数和四分位数的定义,就可以有八分位数、十六分位数,以及所有自然数的N分位数。然而,对于描述一组数字的集中样态来说,这些“分割点”有些多余,虽然描述得更为细致,但是显然不够直接。所以,在大多数的日常生产场景中,极少使用这些分位数。
1700506262
1700506263
此外,描述数据集中程度的数据指标还有平均数和加权平均数,它们也是统计学中通常用来描述集中趋势的度量值。
1700506264
1700506265
平均数也叫均值(Mean),就是一组数据相加后除以个数得到的结果,是目前日常统计中应用最广泛的一种统计指标值。
1700506266
1700506267
加权平均数(Weighted Mean)是根据分组数据计算的平均数。例如,原始数据被分成k组,各组的平均值分别是M1, M2,…, Mk,各组变量值的数量分别是f1, f2,…, fk,则样本加权平均数的计算公式为
1700506268
1700506269
1700506270
1700506271
1700506272
或者写作
1700506273
1700506274
1700506275
1700506276
1700506277
从形式上来看,后者更简洁一些。
1700506278
1700506279
掌握众数、中位数和平均数的含义和特点,有助于在实际应用中选择合理的测度值来描述数据的集中趋势(如图8-8所示)。
1700506280
1700506281
1700506282
1700506283
1700506284
图8-8 对称分布、左偏分布和右偏分布
1700506285
1700506286
众数是一组数据分布的峰值,不受极端值的影响,但是可能不唯一,而且数据量较少的情况下不适合使用。
1700506287
1700506288
中位数是一组数据中间位置上的代表值,也不受数据极端值的影响,适合作为顺序数据集中趋势的测度值。
1700506289
1700506290
平均数针对数值型数据进行计算,而且利用了全部数据信息。当数据呈对称分布或接近对称分布时,3个代表值相等或接近相等。平均数的主要缺点是容易受到极端值的影响,对偏态分布平均数的代表性较差。所以,在偏斜程度较大的情况下,使用中位数和众数比使用平均值的描述效果要好。
1700506291
1700506292
如果不确定分布状况,或者希望将数据集中趋势描述得完备一些,可以在统计中同时使用这3个值,这样就可以通过这3个值的大小很快对分布是否对称及如果不对称将呈现哪种偏态有完整的印象。简单地说,众数、中位数、平均数三者结合使用,可以简洁而形象地描述一组数据的集中趋势,建议在日常生产中组合使用。
1700506293
1700506295
8.7.2 离散程度度量
1700506296
1700506297
对于一组数据离散程度的度量也有很多常用的指标,例如方差、标准差、极差。
1700506298
1700506299
方差公式为
1700506300
1700506301
1700506302
1700506303
[
上一页 ]
[ :1.700506254e+09 ]
[
下一页 ]