1700506454
1700506455
1700506456
3.卡方分布
1700506457
1700506458
卡方分布(χ2分布)研究的是n个服从标准正态分布的随机变量x1, x2,…, xn的平方和
1700506459
1700506460
1700506461
1700506462
1700506463
构成的随机变量所遵循的分布规律。假设有k个独立标配正态分布,即n=k(自由度)的概率密度公式为
1700506464
1700506465
1700506466
1700506467
1700506468
1700506469
68 伽马函数。
1700506470
1700506471
当自由度趋向无穷的时候,χ2分布的概率密度函数仍然是一个标准的正态分布(如图8-13所示)。和其他分布概率密度的含义一样,当给定一个x值的时候,x左侧的面积表示取值为x以下的值所占全部样本空间的比例。为了便于计算,在计算χ2分布的概率值时都是采用查表的方式,即查阅χ2分布表(或称“卡方分布临界值表”,如图8-14所示)。
1700506472
1700506473
1700506474
1700506475
1700506476
图8-13 χ2分布概率密度
1700506477
1700506478
1700506479
1700506480
1700506481
图8-14 χ2分布表
1700506482
1700506483
χ2分布通常用来度量一个分布的期望分布状态与多次抽样产生的分布的差异,并计算观测到的分布与期望分布有差异的概率是多少,这时只需要关注自由度和概率。例如,在观测中多次抽样,发现某种待求的概率多次浮动,记为P1, P2,…, Pn,那么得到
1700506484
1700506485
1700506486
1700506487
1700506488
1700506489
Pe是期望概率。例如,自由度k=10,选择显著水平p=0.005。这个显著水平就是指置信区间,即置信区间为99.95%,通过查表可以知道卡方值为25.1881。它的含义是:如果大于25.1881,则随机变量x1, x2,…, xn是正态分布的假设不成立。
1700506490
1700506491
1700506492
1700506493
1700506495
数据科学家养成手册 8.9 统计学与大数据
1700506496
1700506497
从数理统计创立到现在,统计学已经有了200多年的历史。随着计算机处理能力的增强,通过抽样来推断整个样本空间数量的行为看似价值在降低。但是,放眼环顾,人类的认知水平永远无法企及自然界的事物总量——差距太悬殊!所以,这种通过抽样做推断的管中窥豹的认知理念丝毫没有过时,也从未过时。
1700506498
1700506499
一切测量,包括测量方法、误差分析等,都来源于最基本的对数据的观测和对认知的归纳。一切大量物质的叠加都遵从中心极限定理,在宏观上最终都会产生正态分布的积累效果。在正态分布的前提下,又有了一系列特殊性质的分布研究,例如卡方分布、F分布、t分布等,它们都是非常好的用来度量和推测模型的工具。
1700506500
1700506501
在大数据产业蓬勃发展的今天,当我们意识到大数据会对社会产生的深远影响时,一定不要忘记:统计学在其中发挥着重要的认知引导作用。在后面有关数据分析的章节中,我们还能看到统计学的身影。
1700506502
1700506503
统计学能够帮助我们以简洁、高效、低成本的方式获取极高的认知准确度。还有什么比这更迷人?统计学是大数据存在的基础。
[
上一页 ]
[ :1.700506454e+09 ]
[
下一页 ]