打字猴:1.70050638e+09
1700506380
1700506381
1700506382
1700506383 不难看出,这是一种加权平均的概念,也就是每次观测到的随机变量值加和再除以观测次数所得到的熵值。这是随机变量为离散值的情况。如果随机变量是连续值,可以写成积分的形式。设连续随机变量X概率密度为f(x),则数学期望值为:
1700506384
1700506385
1700506386
1700506387
1700506388 这两种方式只是形式不同,其本质内容是一样的,都是加权平均的概念,即一次试验中观测到的随机变量平均值的概念,也是在描述一个随机过程观测值的时候最容易被人接受的描述方式。数学期望对描述一个大量或长期反复过程中的单次平均效果是有帮助的,也是很多基于统计的改进方案中一个重要的比对指标。
1700506389
1700506390 数据科学家养成手册 [:1700503557]
1700506391 8.8.2 正态分布
1700506392
1700506393 正态分布应该是自然界中存在最为普遍的分布形态。我们在天文学、地理学、生物学、经济学、社会学等各个自然基础学科及社会学科的研究中经常能够观察到,很多统计样本的分布都呈现正态分布的特点。
1700506394
1700506395 正态分布的公式相信学过高等数学的读者都不会陌生:
1700506396
1700506397
1700506398
1700506399
1700506400 正态分布也叫作高斯分布,是以德国著名数学家高斯的名字命名的,借此表彰他对这一数学理论的贡献(如图8-10所示)。
1700506401
1700506402
1700506403
1700506404
1700506405 图8-10 正态分布概率密度函数图
1700506406
1700506407 在统计学中,正态分布的相关应用是非常广的,我们观察到的很多事物都呈现正态分布。例如,在一定范围内随机抽取一定数量的人量取他们的身高,他们的身高就会呈现出正态分布的特点,画出的概率密度函数曲线是一个以身高平均值μ为中心,以σ为方差的钟形曲线。再如,在工厂制作的大量同等规格的零件中,抽取一定数量的零件精确量取其大小(例如长度或者直径等尺寸指标),通常也是一个以μ为平均值,以σ为方差的正态分布。在自然界中这样的例子还有很多,根本不用人为去做任何干涉,在统计上大量统计序列就会呈现出正态分布的样态。正是因为有了这样一种特性,在进行统计测量的过程中,为了减小误差,我们也会采用多次测量取平均值的方法来尽可能减小单次观测中引入的噪声。例如,评价当前社会个人财富水平,无论这个社会体现出多么不平均的状态,也仍旧希望通过随机抽取一些人作为样本,然后取收入(财富)的平均值来进行衡量。在物理学上,如果希望相对精确地量取一个物体的长度,也要通过精确的量具进行多次测量再求平均值,并认为这个平均值是距离“真实值”最近的值。这一系列的理论依据仍旧是正态分布的理论依据,人们希望通过这种方式得到尽可能精确的μ值。可是,为什么它们会不约而同地呈现正态分布的特点呢?我们还是从刚刚这种统计和观察的过程说起。
1700506408
1700506409 因为万事万物都在不停地变化,所我们在观察任何一个对象的时候,都没有办法观察到一个“静态的”或“不变的”值。我们千万不能理解为:看到这个东西是“静止”的,它就一定是“静止”的。我们不能让这种错误的观念在拥有科学思维的头脑中蔓延。大到恒星、行星等天体,小到原子、电子等粒子,它们每时每刻都在运动。它们每时每刻都有自己运动的方向和速度,每时每刻都有自己具体的空间位置。问题是,人类的观测能力对它们来说永远都是有限的,在我们进行观测的一瞬间,多么希望有一个极其完美的“快照”状态把它们都记录下来——其实根本做不到。
1700506410
1700506411 人们在观察原子周围的电子时发现,电子也是一种人类无法用有效的方法描述其运动状态的微粒物质。所以,人们使用“电子云”模型的概念来描述它。以氢原子为例,简单地说,就是在任一时刻对原子进行一次“拍照”,把它的位置用一个点记录下来,然后在另一时刻同样进行一次“拍照”并做记录。持续进行这样的操作,当收集到足够多的“照片”后进行图像的叠加,就会发现大量的点集中在距离原子核比较近的位置,而在距离原子核相对较远的位置点比较少。这种由点的稀疏和稠密而产生的类似云状的概率描述模型叫作“电子云”(如图8-11所示)。不仅是氢原子,其他原子同样会产生类似的电子云效果。这种电子云本身给原子半径的测量带来了麻烦吗?这个麻烦究竟有多大?是应该计算电子云最外侧的圆形的半径,还是应该按照这些点的半径做加权平均?这些点的位置本身不就是在不停地变化吗?由这些不断变化的小粒子组成的物质岂不是在一刻不停地受到来自底层变化的影响?我们还有可能准确测得这些物质的尺寸吗?还是有科学的办法。我们要感谢棣莫弗和拉普拉斯,以及由他们发现的棣莫弗-拉普拉斯中心极限定理(如图8-12所示)。
1700506412
1700506413
1700506414
1700506415   图8-11 氢原子的电子云模型示意图     图8-12 中心极限定理   设随机变量Xn(n=1, 2,……)服从参数为p的二项分布,则对任意的x恒有
1700506416
1700506417
1700506418
1700506419
1700506420
1700506421 这种形态看上去已经有点像正态分布了。在一个二项分布中,只要样本足够多,有一个概率的概率密度遵循N(0, 1)——μ为0,σ为1的正态分布——这个概率就是的概率。也就是说,只要n足够大,这个遵循二项分布(伯努利分布)的nX的每一项与它的数学期望的差值,都是在0附近分布的情况多,向两侧延伸出去的情况少,服从正态分布。
1700506422
1700506423
1700506424 其实不光是伯努利分布,其他任何分布的Xn都满足这一条件——当样本足够多的时候,任何随机变量Xn与它的数学期望的差值都服从正态分布。当然,不同的Xn与它的数学期望的差值所产生的正态分布的σ是不同的,而μ都为0。不仅如此,如果Xn和Yn独立且满足,那么令Zn=aXn+bYn,且a、b都为实数,Zn仍旧服从正态分布。
1700506425
1700506426 这种结论得出后,刚才我们谈到的物体长度测量问题就有理论依据了。即使每个原子的大小都是一个随机值,而在大量原子直径叠加的过程中,本应依靠测量大量原子的平均长度再加和,但由于这个测量的误差值是一个正态分布,所以就可以等价于测量大量原子加和后的总长度,这个总长度仍然会有一个误差值,而且这个误差值也仍然是一个正态分布,且永远无法消灭。除了原子自身大小的变化,其他任何本身误差都属于正态分布,而且可以由线性叠加施加给被测对象的值因素都会最终在被测量的值上以正态分布的误差表现出来,例如引力、磁场等。这些从组成世界的微小因子上体现出来的正态分布特性逐渐、逐层叠加,最终形成了现在体现在不同领域的各种各样的呈现正态分布的观测结果。
1700506427
1700506428 还有一个有趣的特性。假设Xn和Yn是独立随机变量,Zn=aXn+ bYn,如果Zn是正态分布的,那么Xn和Yn也是正态分布的,这也称为“Cramer分解定理”。这种方式为我们将大的研究对象分解为小的研究对象并对其采用同一种观测和分析方法提供了理论依据。这种正态分布可以叠加也可以分解的过程是一种非常“优美”的过程,它让我们可以使用同态的观测方式对形形色色的物质进行观测,并以此为依据进行误差减小的估算。
1700506429
[ 上一页 ]  [ :1.70050638e+09 ]  [ 下一页 ]