打字猴:1.700506321e+09

1700506321 数据科学家养成手册 [:1700503554]

1700506322 8.7.3　小结

1700506323

1700506324 概括性度量是统计中最为基本的度量方式，包括集中趋势度量指标和离散程度度量指标两大类。在日常生产生活中描述大量数据样态的时候，尤其是在数据量极大的情况下，进行全数的罗列毫无效率可言，而且让人抓不住重点。应该使用众数、中位数、平均数这种集中趋势度量指标与方差这样的离散程度度量指标相结合来进行描述，这样做通常可以达到简洁和使数据描述信息丰满的双重目的。比较多组不同数据之间的差别时也可以使用这些指标，不仅结果准确，而且能提高数据的处理效率。这就是使用概括度量的意义所在。

1700506325

1700506326

1700506327

1700506328

1700506329 数据科学家养成手册 [:1700503555]

1700506330 数据科学家养成手册 8.8　概率与分布

1700506331

1700506332 随着数据科学的普及，“概率”这个词从原来仅出现在教科书和科技文献中，慢慢成为人们挂在嘴边的一个常用词汇。例如，在天气预报中就经常提到“降水概率”这个词。

1700506333

1700506334 概率的定义其实是一个比例问题，我们用最简单的例子来说明。有一枚匀质的硬币，硬币有两面，一面为字，一面为图案。将硬币掷出去落地以后，可能是字的一面朝上，也可能是图案的一面朝上。字的一面朝上，就称为一个事件，我们称其为事件“正”；图案的一面朝上，也称为一个事件，我们称其为事件“反”。

1700506335

1700506336 事件“正”和事件“反”属于随机事件，即在同一条件下，每次试验中可能出现，也可能不出现的事件。

1700506337

1700506338 一种事件出现的可能性的大小称为概率。例如，事件“正”的概率记作P(正)。

1700506339

1700506340 概率有几种不同的定义，分别是古典定义、统计定义和主观概率定义。

1700506341

1700506342 古典定义的概率是指在随机试验结果有限的情况下，某种事件与所有事件的个数比。需要注意的是，古典定义所说的概率有两个共同点：第一，结果有限，即基本空间中只含有限个元素，例如刚刚说的事件“正”和事件“反”（只有2个）；第二，各个结果出现的可能性被认为是相同的，也就是在掷硬币的情况下事件“正”和事件“反”出现的机会被认为是相等的。

1700506343

1700506344 在古典定义下，可以使用排列组合进行概率估算。但我们知道，这种情况的局限性是非常大的。例如，只要硬币不是匀质的，那么使用排列组合去计算就极有可能与观测到的实验情况不符——这是不科学的，也是不能被我们接受的。

1700506345

1700506346 概率的统计定义通常被认为是更为科学的。

1700506347

1700506348

1700506349 在相同的条件下，随机试验n次，某事件A出现m次（m≤n），则比值称为事件A发生的概率。随着n的增大，该频率围绕某一常数p上下波动，且波动的幅度逐渐减小，趋于稳定，这个频率的稳定值即为该事件的概率，记为：

1700506350

1700506351

1700506352

1700506353

1700506354 例如，有一枚匀质的硬币，一共扔出1000次，其中事件“正”为498次，事件“反”为502次。这个时候，下结论说“出现‘正’的概率为49.8％”是可以的，说“出现‘正’的概率大约为50％”也是可以的。这个过程我们同样可以用一段Python程序来模拟。

1700506355

1700506356 import random coins=[0 for i in range(1000)]proportion=[0 for i in range(1000)] for i in range(1000): coins[i]=random.randrange(2) sum=0 for j in range(i+1): sum+=coins[j] proportion[i]=(float(sum)/(i+1)) print ‘%.3f’ % proportion[i]

1700506357

1700506358 最后输出的proportion中的每个元素i，就是投掷到第i轮时出现硬币正面的比例值（如图8-9所示）。这个比例的图形最开始会抖动得很厉害，如果你做一次相同的模拟实验，也会和我一样看到剧烈的抖动过程，只不过具体的数值会不一样。而到最后，这个数值都会趋向于一个固定值——0.500，也就是50.0％。

1700506359

1700506360

1700506361

1700506362

1700506363 图8-9　硬币投掷次数和统计概率

1700506364

1700506365 这种方式被认为更科学的原因是：它不是单纯地依赖一种“一厢情愿”的排列组合数量的推导，而是通过真实的实验得到数据，从获取方式上更接近科学的定义。要不怎么说“统计是最自然的认知方式”呢？

1700506366

1700506367 对于非匀质的硬币就不能使用这种方式进行模拟了，正确的方法是通过实际的观测来记录真实的实验结果。

1700506368

1700506369 主观概率往往是凭经验进行判断。这种方式的准确性，由于不是经过具体的实验得出的结论，所以不太容易作出科学的评价。虽然经验看上去也是一种“实验”，但是由于其准确性值得怀疑，所以在说服力方面也打了很大的折扣，在这里就不讨论了。

1700506370

[ 上一页 ] [ :1.700506321e+09 ] [ 下一页 ]