打字猴:1.70050634e+09
1700506340 概率有几种不同的定义,分别是古典定义、统计定义和主观概率定义。
1700506341
1700506342 古典定义的概率是指在随机试验结果有限的情况下,某种事件与所有事件的个数比。需要注意的是,古典定义所说的概率有两个共同点:第一,结果有限,即基本空间中只含有限个元素,例如刚刚说的事件“正”和事件“反”(只有2个);第二,各个结果出现的可能性被认为是相同的,也就是在掷硬币的情况下事件“正”和事件“反”出现的机会被认为是相等的。
1700506343
1700506344 在古典定义下,可以使用排列组合进行概率估算。但我们知道,这种情况的局限性是非常大的。例如,只要硬币不是匀质的,那么使用排列组合去计算就极有可能与观测到的实验情况不符——这是不科学的,也是不能被我们接受的。
1700506345
1700506346 概率的统计定义通常被认为是更为科学的。
1700506347
1700506348
1700506349 在相同的条件下,随机试验n次,某事件A出现m次(m≤n),则比值称为事件A发生的概率。随着n的增大,该频率围绕某一常数p上下波动,且波动的幅度逐渐减小,趋于稳定,这个频率的稳定值即为该事件的概率,记为:
1700506350
1700506351
1700506352
1700506353
1700506354 例如,有一枚匀质的硬币,一共扔出1000次,其中事件“正”为498次,事件“反”为502次。这个时候,下结论说“出现‘正’的概率为49.8%”是可以的,说“出现‘正’的概率大约为50%”也是可以的。这个过程我们同样可以用一段Python程序来模拟。
1700506355
1700506356 import random    coins=[0 for i in range(1000)]proportion=[0 for i in range(1000)]    for i in range(1000) coins[i]=random.randrange(2)  sum=0  for j in range(i+1):    sum+=coins[j]  proportion[i]=(float(sum)/(i+1))  print ‘%.3f’ % proportion[i]
1700506357
1700506358 最后输出的proportion中的每个元素i,就是投掷到第i轮时出现硬币正面的比例值(如图8-9所示)。这个比例的图形最开始会抖动得很厉害,如果你做一次相同的模拟实验,也会和我一样看到剧烈的抖动过程,只不过具体的数值会不一样。而到最后,这个数值都会趋向于一个固定值——0.500,也就是50.0%。
1700506359
1700506360
1700506361
1700506362
1700506363 图8-9 硬币投掷次数和统计概率
1700506364
1700506365 这种方式被认为更科学的原因是:它不是单纯地依赖一种“一厢情愿”的排列组合数量的推导,而是通过真实的实验得到数据,从获取方式上更接近科学的定义。要不怎么说“统计是最自然的认知方式”呢?
1700506366
1700506367 对于非匀质的硬币就不能使用这种方式进行模拟了,正确的方法是通过实际的观测来记录真实的实验结果。
1700506368
1700506369 主观概率往往是凭经验进行判断。这种方式的准确性,由于不是经过具体的实验得出的结论,所以不太容易作出科学的评价。虽然经验看上去也是一种“实验”,但是由于其准确性值得怀疑,所以在说服力方面也打了很大的折扣,在这里就不讨论了。
1700506370
1700506371 除此之外,概率还定义了加法法则,这样就使互斥事件的概率加和可以通过分别计算互斥事件发生的概率再做加和运算来得到。别看统计学是一种“高冷”的计算科学,但是它的应用性非常强,几乎在人类活动的各个领域都能起到认知和指导的作用。让我们往下看。
1700506372
1700506373 数据科学家养成手册 [:1700503556]
1700506374 8.8.1 数学期望
1700506375
1700506376 在统计学中有一个非常重要的基础概念,叫作数学期望(Mean)。数学期望是指在试验中每次可能结果的概率乘以其结果的总和的平均值。
1700506377
1700506378 设在一次试验中,每一次的观测结果数量是一个随机变量xi,某一个xi对应出现的概率为p(xi),则其数学期望值为:
1700506379
1700506380
1700506381
1700506382
1700506383 不难看出,这是一种加权平均的概念,也就是每次观测到的随机变量值加和再除以观测次数所得到的熵值。这是随机变量为离散值的情况。如果随机变量是连续值,可以写成积分的形式。设连续随机变量X概率密度为f(x),则数学期望值为:
1700506384
1700506385
1700506386
1700506387
1700506388 这两种方式只是形式不同,其本质内容是一样的,都是加权平均的概念,即一次试验中观测到的随机变量平均值的概念,也是在描述一个随机过程观测值的时候最容易被人接受的描述方式。数学期望对描述一个大量或长期反复过程中的单次平均效果是有帮助的,也是很多基于统计的改进方案中一个重要的比对指标。
1700506389
[ 上一页 ]  [ :1.70050634e+09 ]  [ 下一页 ]