打字猴:1.700506279e+09
1700506279 掌握众数、中位数和平均数的含义和特点,有助于在实际应用中选择合理的测度值来描述数据的集中趋势(如图8-8所示)。
1700506280
1700506281
1700506282
1700506283
1700506284 图8-8 对称分布、左偏分布和右偏分布
1700506285
1700506286 众数是一组数据分布的峰值,不受极端值的影响,但是可能不唯一,而且数据量较少的情况下不适合使用。
1700506287
1700506288 中位数是一组数据中间位置上的代表值,也不受数据极端值的影响,适合作为顺序数据集中趋势的测度值。
1700506289
1700506290 平均数针对数值型数据进行计算,而且利用了全部数据信息。当数据呈对称分布或接近对称分布时,3个代表值相等或接近相等。平均数的主要缺点是容易受到极端值的影响,对偏态分布平均数的代表性较差。所以,在偏斜程度较大的情况下,使用中位数和众数比使用平均值的描述效果要好。
1700506291
1700506292 如果不确定分布状况,或者希望将数据集中趋势描述得完备一些,可以在统计中同时使用这3个值,这样就可以通过这3个值的大小很快对分布是否对称及如果不对称将呈现哪种偏态有完整的印象。简单地说,众数、中位数、平均数三者结合使用,可以简洁而形象地描述一组数据的集中趋势,建议在日常生产中组合使用。
1700506293
1700506294 数据科学家养成手册 [:1700503553]
1700506295 8.7.2 离散程度度量
1700506296
1700506297 对于一组数据离散程度的度量也有很多常用的指标,例如方差、标准差、极差。
1700506298
1700506299 方差公式为
1700506300
1700506301
1700506302
1700506303
1700506304 方差的平方根s称为标准差。
1700506305
1700506306
1700506307
1700506308 从方差的定义就可以看出,样本值离平均数越远,s2就越大,样本就越分散。相反,最极端的情况就是所有样本的值都是平均值,那么方差为零,这种情况下样本集中分布。
1700506309
1700506310 标准差是平方差的平方根,同样具有描述离散程度的性质。
1700506311
1700506312 在实际应用中,平方差和标准差的效果差不多。只是要注意,在一次实验中最好只使用平方差或标准差中的一种来描述离散程度,以免由于量纲混乱而无法比较,进而给人造成困惑。
1700506313
1700506314 极差(Range)是指一组数据中最大值与最小值之间的差,用R来表示。
1700506315
1700506316
1700506317
1700506318
1700506319 极差只能描述一组数据中2个极值的距离,对于中间值的分布状况没有办法描述。所以,这个指标所包含的信息量不大,在日常统计中的使用机会也不多。
1700506320
1700506321 数据科学家养成手册 [:1700503554]
1700506322 8.7.3 小结
1700506323
1700506324 概括性度量是统计中最为基本的度量方式,包括集中趋势度量指标和离散程度度量指标两大类。在日常生产生活中描述大量数据样态的时候,尤其是在数据量极大的情况下,进行全数的罗列毫无效率可言,而且让人抓不住重点。应该使用众数、中位数、平均数这种集中趋势度量指标与方差这样的离散程度度量指标相结合来进行描述,这样做通常可以达到简洁和使数据描述信息丰满的双重目的。比较多组不同数据之间的差别时也可以使用这些指标,不仅结果准确,而且能提高数据的处理效率。这就是使用概括度量的意义所在。
1700506325
1700506326
1700506327
1700506328
[ 上一页 ]  [ :1.700506279e+09 ]  [ 下一页 ]