1700506322
8.7.3 小结
1700506323
1700506324
概括性度量是统计中最为基本的度量方式,包括集中趋势度量指标和离散程度度量指标两大类。在日常生产生活中描述大量数据样态的时候,尤其是在数据量极大的情况下,进行全数的罗列毫无效率可言,而且让人抓不住重点。应该使用众数、中位数、平均数这种集中趋势度量指标与方差这样的离散程度度量指标相结合来进行描述,这样做通常可以达到简洁和使数据描述信息丰满的双重目的。比较多组不同数据之间的差别时也可以使用这些指标,不仅结果准确,而且能提高数据的处理效率。这就是使用概括度量的意义所在。
1700506325
1700506326
1700506327
1700506328
1700506330
数据科学家养成手册 8.8 概率与分布
1700506331
1700506332
随着数据科学的普及,“概率”这个词从原来仅出现在教科书和科技文献中,慢慢成为人们挂在嘴边的一个常用词汇。例如,在天气预报中就经常提到“降水概率”这个词。
1700506333
1700506334
概率的定义其实是一个比例问题,我们用最简单的例子来说明。有一枚匀质的硬币,硬币有两面,一面为字,一面为图案。将硬币掷出去落地以后,可能是字的一面朝上,也可能是图案的一面朝上。字的一面朝上,就称为一个事件,我们称其为事件“正”;图案的一面朝上,也称为一个事件,我们称其为事件“反”。
1700506335
1700506336
事件“正”和事件“反”属于随机事件,即在同一条件下,每次试验中可能出现,也可能不出现的事件。
1700506337
1700506338
一种事件出现的可能性的大小称为概率。例如,事件“正”的概率记作P(正)。
1700506339
1700506340
概率有几种不同的定义,分别是古典定义、统计定义和主观概率定义。
1700506341
1700506342
古典定义的概率是指在随机试验结果有限的情况下,某种事件与所有事件的个数比。需要注意的是,古典定义所说的概率有两个共同点:第一,结果有限,即基本空间中只含有限个元素,例如刚刚说的事件“正”和事件“反”(只有2个);第二,各个结果出现的可能性被认为是相同的,也就是在掷硬币的情况下事件“正”和事件“反”出现的机会被认为是相等的。
1700506343
1700506344
在古典定义下,可以使用排列组合进行概率估算。但我们知道,这种情况的局限性是非常大的。例如,只要硬币不是匀质的,那么使用排列组合去计算就极有可能与观测到的实验情况不符——这是不科学的,也是不能被我们接受的。
1700506345
1700506346
概率的统计定义通常被认为是更为科学的。
1700506347
1700506348
1700506349
在相同的条件下,随机试验n次,某事件A出现m次(m≤n),则比值称为事件A发生的概率。随着n的增大,该频率围绕某一常数p上下波动,且波动的幅度逐渐减小,趋于稳定,这个频率的稳定值即为该事件的概率,记为:
1700506350
1700506351
1700506352
1700506353
1700506354
例如,有一枚匀质的硬币,一共扔出1000次,其中事件“正”为498次,事件“反”为502次。这个时候,下结论说“出现‘正’的概率为49.8%”是可以的,说“出现‘正’的概率大约为50%”也是可以的。这个过程我们同样可以用一段Python程序来模拟。
1700506355
1700506356
import random coins=[0 for i in range(1000)]proportion=[0 for i in range(1000)] for i in range(1000)
: coins[i]=random.randrange(2) sum=0 for j in range(i+1)
: sum+=coins[j] proportion[i]=(float(sum)/(i+1)) print ‘%.3f’ % proportion[i]
1700506357
1700506358
最后输出的proportion中的每个元素i,就是投掷到第i轮时出现硬币正面的比例值(如图8-9所示)。这个比例的图形最开始会抖动得很厉害,如果你做一次相同的模拟实验,也会和我一样看到剧烈的抖动过程,只不过具体的数值会不一样。而到最后,这个数值都会趋向于一个固定值——0.500,也就是50.0%。
1700506359
1700506360
1700506361
1700506362
1700506363
图8-9 硬币投掷次数和统计概率
1700506364
1700506365
这种方式被认为更科学的原因是:它不是单纯地依赖一种“一厢情愿”的排列组合数量的推导,而是通过真实的实验得到数据,从获取方式上更接近科学的定义。要不怎么说“统计是最自然的认知方式”呢?
1700506366
1700506367
对于非匀质的硬币就不能使用这种方式进行模拟了,正确的方法是通过实际的观测来记录真实的实验结果。
1700506368
1700506369
主观概率往往是凭经验进行判断。这种方式的准确性,由于不是经过具体的实验得出的结论,所以不太容易作出科学的评价。虽然经验看上去也是一种“实验”,但是由于其准确性值得怀疑,所以在说服力方面也打了很大的折扣,在这里就不讨论了。
1700506370
[
上一页 ]
[ :1.700506321e+09 ]
[
下一页 ]