1700506495
数据科学家养成手册 8.9 统计学与大数据
1700506496
1700506497
从数理统计创立到现在,统计学已经有了200多年的历史。随着计算机处理能力的增强,通过抽样来推断整个样本空间数量的行为看似价值在降低。但是,放眼环顾,人类的认知水平永远无法企及自然界的事物总量——差距太悬殊!所以,这种通过抽样做推断的管中窥豹的认知理念丝毫没有过时,也从未过时。
1700506498
1700506499
一切测量,包括测量方法、误差分析等,都来源于最基本的对数据的观测和对认知的归纳。一切大量物质的叠加都遵从中心极限定理,在宏观上最终都会产生正态分布的积累效果。在正态分布的前提下,又有了一系列特殊性质的分布研究,例如卡方分布、F分布、t分布等,它们都是非常好的用来度量和推测模型的工具。
1700506500
1700506501
在大数据产业蓬勃发展的今天,当我们意识到大数据会对社会产生的深远影响时,一定不要忘记:统计学在其中发挥着重要的认知引导作用。在后面有关数据分析的章节中,我们还能看到统计学的身影。
1700506502
1700506503
统计学能够帮助我们以简洁、高效、低成本的方式获取极高的认知准确度。还有什么比这更迷人?统计学是大数据存在的基础。
1700506504
1700506505
(1) 出自《论语·季氏》第十六篇。
1700506506
1700506507
(2) 摘自互动百科,有删节。
1700506508
1700506509
(3) Political Arithmetick,1676年出版。
1700506510
1700506511
(4) 弗朗西斯·高尔顿(Francis Galton),1822年2月~1911年1月。
1700506512
1700506513
(5) 卡尔·皮尔逊(Karl Pearson),1857年3月~1936年4月,英国数学家、生物统计学家,数理统计学的创立者,自由思想者。
1700506514
1700506515
(6) William Sealey Gosset,1876年6月~1937年10月,英国统计学家。
1700506516
1700506517
(7) 罗纳德·费歇尔(Ronald Aylmer Fisher,1890年~1962年),英国统计学家。
1700506518
1700506519
(8) 出自《淮南子·说山训》。
1700506520
1700506521
(9) 安慰剂(Placebo)具有一定的作用,对有心理因素参与控制的自主神经系统功能(例如如血压、心率、胃分泌、呕吐、性功能等)的影响较大。它所产生的心理效应对病症的缓解,在临床上已经得到了相当程度的认可。
1700506522
1700506523
(10) 詹姆斯·林德(James Lind,1716年10月~1794年7月),英格兰卫生学的创始人,皇家海军外科医生(1739年~1748年),皇家海军哈斯拉医院医师(1758年~1783年)。
1700506524
1700506525
(11) 费歇尔(Ronald Fisher,1890年~1962年),英国统计与遗传学家。
1700506526
1700506527
1700506528
1700506529
1700506531
数据科学家养成手册 第9章 信息论
1700506532
1700506533
说到学习数据科学,信息论无论如何是绕不过去的。信息论是围绕数据存储与传输量化等一系列问题所展开的一门专门研究信息的学科,可以说是20世纪最伟大的理论发现之一,对之后的所有计算机数据压缩与传输科学的推动和发展都起着不可磨灭的作用。信息论的鼻祖就是大名鼎鼎的图克劳德·艾尔伍德·香农(Claude Elwood Shannon,1916年4月~2001年2月)。
1700506534
1700506535
信息论基础及其引论的内容非常多,不过归纳起来全部都是关于信息量的量化问题。如果非要用一句话来概括信息论研究的核心内容,那就是“在某种设定的情况下,最简洁可以用多少数据来表达或传输一个信息,同时量化它的失真程度”。这个问题被研究清楚以后,在计算机存储、压缩、通信传输甚至市场博弈中都有着很好的应用前景。
1700506536
1700506537
1700506538
1700506539
1700506541
数据科学家养成手册 9.1 模拟信号
1700506542
1700506543
“信息是被消除的不确定性。”这是1928年由美国著名电子工程专家哈特莱(1)(如图9-1所示)提出的概念。
[
上一页 ]
[ :1.700506494e+09 ]
[
下一页 ]