1700506482
1700506483
χ2分布通常用来度量一个分布的期望分布状态与多次抽样产生的分布的差异,并计算观测到的分布与期望分布有差异的概率是多少,这时只需要关注自由度和概率。例如,在观测中多次抽样,发现某种待求的概率多次浮动,记为P1, P2,…, Pn,那么得到
1700506484
1700506485
1700506486
1700506487
1700506488
1700506489
Pe是期望概率。例如,自由度k=10,选择显著水平p=0.005。这个显著水平就是指置信区间,即置信区间为99.95%,通过查表可以知道卡方值为25.1881。它的含义是:如果大于25.1881,则随机变量x1, x2,…, xn是正态分布的假设不成立。
1700506490
1700506491
1700506492
1700506493
1700506495
数据科学家养成手册 8.9 统计学与大数据
1700506496
1700506497
从数理统计创立到现在,统计学已经有了200多年的历史。随着计算机处理能力的增强,通过抽样来推断整个样本空间数量的行为看似价值在降低。但是,放眼环顾,人类的认知水平永远无法企及自然界的事物总量——差距太悬殊!所以,这种通过抽样做推断的管中窥豹的认知理念丝毫没有过时,也从未过时。
1700506498
1700506499
一切测量,包括测量方法、误差分析等,都来源于最基本的对数据的观测和对认知的归纳。一切大量物质的叠加都遵从中心极限定理,在宏观上最终都会产生正态分布的积累效果。在正态分布的前提下,又有了一系列特殊性质的分布研究,例如卡方分布、F分布、t分布等,它们都是非常好的用来度量和推测模型的工具。
1700506500
1700506501
在大数据产业蓬勃发展的今天,当我们意识到大数据会对社会产生的深远影响时,一定不要忘记:统计学在其中发挥着重要的认知引导作用。在后面有关数据分析的章节中,我们还能看到统计学的身影。
1700506502
1700506503
统计学能够帮助我们以简洁、高效、低成本的方式获取极高的认知准确度。还有什么比这更迷人?统计学是大数据存在的基础。
1700506504
1700506505
(1) 出自《论语·季氏》第十六篇。
1700506506
1700506507
(2) 摘自互动百科,有删节。
1700506508
1700506509
(3) Political Arithmetick,1676年出版。
1700506510
1700506511
(4) 弗朗西斯·高尔顿(Francis Galton),1822年2月~1911年1月。
1700506512
1700506513
(5) 卡尔·皮尔逊(Karl Pearson),1857年3月~1936年4月,英国数学家、生物统计学家,数理统计学的创立者,自由思想者。
1700506514
1700506515
(6) William Sealey Gosset,1876年6月~1937年10月,英国统计学家。
1700506516
1700506517
(7) 罗纳德·费歇尔(Ronald Aylmer Fisher,1890年~1962年),英国统计学家。
1700506518
1700506519
(8) 出自《淮南子·说山训》。
1700506520
1700506521
(9) 安慰剂(Placebo)具有一定的作用,对有心理因素参与控制的自主神经系统功能(例如如血压、心率、胃分泌、呕吐、性功能等)的影响较大。它所产生的心理效应对病症的缓解,在临床上已经得到了相当程度的认可。
1700506522
1700506523
(10) 詹姆斯·林德(James Lind,1716年10月~1794年7月),英格兰卫生学的创始人,皇家海军外科医生(1739年~1748年),皇家海军哈斯拉医院医师(1758年~1783年)。
1700506524
1700506525
(11) 费歇尔(Ronald Fisher,1890年~1962年),英国统计与遗传学家。
1700506526
1700506527
1700506528
1700506529
1700506531
数据科学家养成手册 第9章 信息论
[
上一页 ]
[ :1.700506482e+09 ]
[
下一页 ]