1700506295
8.7.2 离散程度度量
1700506296
1700506297
对于一组数据离散程度的度量也有很多常用的指标,例如方差、标准差、极差。
1700506298
1700506299
方差公式为
1700506300
1700506301
1700506302
1700506303
1700506304
方差的平方根s称为标准差。
1700506305
1700506306
1700506307
1700506308
从方差的定义就可以看出,样本值离平均数越远,s2就越大,样本就越分散。相反,最极端的情况就是所有样本的值都是平均值,那么方差为零,这种情况下样本集中分布。
1700506309
1700506310
标准差是平方差的平方根,同样具有描述离散程度的性质。
1700506311
1700506312
在实际应用中,平方差和标准差的效果差不多。只是要注意,在一次实验中最好只使用平方差或标准差中的一种来描述离散程度,以免由于量纲混乱而无法比较,进而给人造成困惑。
1700506313
1700506314
极差(Range)是指一组数据中最大值与最小值之间的差,用R来表示。
1700506315
1700506316
1700506317
1700506318
1700506319
极差只能描述一组数据中2个极值的距离,对于中间值的分布状况没有办法描述。所以,这个指标所包含的信息量不大,在日常统计中的使用机会也不多。
1700506320
1700506322
8.7.3 小结
1700506323
1700506324
概括性度量是统计中最为基本的度量方式,包括集中趋势度量指标和离散程度度量指标两大类。在日常生产生活中描述大量数据样态的时候,尤其是在数据量极大的情况下,进行全数的罗列毫无效率可言,而且让人抓不住重点。应该使用众数、中位数、平均数这种集中趋势度量指标与方差这样的离散程度度量指标相结合来进行描述,这样做通常可以达到简洁和使数据描述信息丰满的双重目的。比较多组不同数据之间的差别时也可以使用这些指标,不仅结果准确,而且能提高数据的处理效率。这就是使用概括度量的意义所在。
1700506325
1700506326
1700506327
1700506328
1700506330
数据科学家养成手册 8.8 概率与分布
1700506331
1700506332
随着数据科学的普及,“概率”这个词从原来仅出现在教科书和科技文献中,慢慢成为人们挂在嘴边的一个常用词汇。例如,在天气预报中就经常提到“降水概率”这个词。
1700506333
1700506334
概率的定义其实是一个比例问题,我们用最简单的例子来说明。有一枚匀质的硬币,硬币有两面,一面为字,一面为图案。将硬币掷出去落地以后,可能是字的一面朝上,也可能是图案的一面朝上。字的一面朝上,就称为一个事件,我们称其为事件“正”;图案的一面朝上,也称为一个事件,我们称其为事件“反”。
1700506335
1700506336
事件“正”和事件“反”属于随机事件,即在同一条件下,每次试验中可能出现,也可能不出现的事件。
1700506337
1700506338
一种事件出现的可能性的大小称为概率。例如,事件“正”的概率记作P(正)。
1700506339
1700506340
概率有几种不同的定义,分别是古典定义、统计定义和主观概率定义。
1700506341
1700506342
古典定义的概率是指在随机试验结果有限的情况下,某种事件与所有事件的个数比。需要注意的是,古典定义所说的概率有两个共同点:第一,结果有限,即基本空间中只含有限个元素,例如刚刚说的事件“正”和事件“反”(只有2个);第二,各个结果出现的可能性被认为是相同的,也就是在掷硬币的情况下事件“正”和事件“反”出现的机会被认为是相等的。
1700506343
[
上一页 ]
[ :1.700506294e+09 ]
[
下一页 ]