打字猴:1.700506371e+09

1700506371 除此之外，概率还定义了加法法则，这样就使互斥事件的概率加和可以通过分别计算互斥事件发生的概率再做加和运算来得到。别看统计学是一种“高冷”的计算科学，但是它的应用性非常强，几乎在人类活动的各个领域都能起到认知和指导的作用。让我们往下看。

1700506372

1700506373 数据科学家养成手册 [:1700503556]

1700506374 8.8.1　数学期望

1700506375

1700506376 在统计学中有一个非常重要的基础概念，叫作数学期望（Mean）。数学期望是指在试验中每次可能结果的概率乘以其结果的总和的平均值。

1700506377

1700506378 设在一次试验中，每一次的观测结果数量是一个随机变量xi，某一个xi对应出现的概率为p(xi)，则其数学期望值为：

1700506379

1700506380

1700506381

1700506382

1700506383 不难看出，这是一种加权平均的概念，也就是每次观测到的随机变量值加和再除以观测次数所得到的熵值。这是随机变量为离散值的情况。如果随机变量是连续值，可以写成积分的形式。设连续随机变量X概率密度为f(x)，则数学期望值为：

1700506384

1700506385

1700506386

1700506387

1700506388 这两种方式只是形式不同，其本质内容是一样的，都是加权平均的概念，即一次试验中观测到的随机变量平均值的概念，也是在描述一个随机过程观测值的时候最容易被人接受的描述方式。数学期望对描述一个大量或长期反复过程中的单次平均效果是有帮助的，也是很多基于统计的改进方案中一个重要的比对指标。

1700506389

1700506390 数据科学家养成手册 [:1700503557]

1700506391 8.8.2　正态分布

1700506392

1700506393 正态分布应该是自然界中存在最为普遍的分布形态。我们在天文学、地理学、生物学、经济学、社会学等各个自然基础学科及社会学科的研究中经常能够观察到，很多统计样本的分布都呈现正态分布的特点。

1700506394

1700506395 正态分布的公式相信学过高等数学的读者都不会陌生：

1700506396

1700506397

1700506398

1700506399

1700506400 正态分布也叫作高斯分布，是以德国著名数学家高斯的名字命名的，借此表彰他对这一数学理论的贡献（如图8-10所示）。

1700506401

1700506402

1700506403

1700506404

1700506405 图8-10　正态分布概率密度函数图

1700506406

1700506407 在统计学中，正态分布的相关应用是非常广的，我们观察到的很多事物都呈现正态分布。例如，在一定范围内随机抽取一定数量的人量取他们的身高，他们的身高就会呈现出正态分布的特点，画出的概率密度函数曲线是一个以身高平均值μ为中心，以σ为方差的钟形曲线。再如，在工厂制作的大量同等规格的零件中，抽取一定数量的零件精确量取其大小（例如长度或者直径等尺寸指标），通常也是一个以μ为平均值，以σ为方差的正态分布。在自然界中这样的例子还有很多，根本不用人为去做任何干涉，在统计上大量统计序列就会呈现出正态分布的样态。正是因为有了这样一种特性，在进行统计测量的过程中，为了减小误差，我们也会采用多次测量取平均值的方法来尽可能减小单次观测中引入的噪声。例如，评价当前社会个人财富水平，无论这个社会体现出多么不平均的状态，也仍旧希望通过随机抽取一些人作为样本，然后取收入（财富）的平均值来进行衡量。在物理学上，如果希望相对精确地量取一个物体的长度，也要通过精确的量具进行多次测量再求平均值，并认为这个平均值是距离“真实值”最近的值。这一系列的理论依据仍旧是正态分布的理论依据，人们希望通过这种方式得到尽可能精确的μ值。可是，为什么它们会不约而同地呈现正态分布的特点呢？我们还是从刚刚这种统计和观察的过程说起。

1700506408

1700506409 因为万事万物都在不停地变化，所我们在观察任何一个对象的时候，都没有办法观察到一个“静态的”或“不变的”值。我们千万不能理解为：看到这个东西是“静止”的，它就一定是“静止”的。我们不能让这种错误的观念在拥有科学思维的头脑中蔓延。大到恒星、行星等天体，小到原子、电子等粒子，它们每时每刻都在运动。它们每时每刻都有自己运动的方向和速度，每时每刻都有自己具体的空间位置。问题是，人类的观测能力对它们来说永远都是有限的，在我们进行观测的一瞬间，多么希望有一个极其完美的“快照”状态把它们都记录下来——其实根本做不到。

1700506410

1700506411 人们在观察原子周围的电子时发现，电子也是一种人类无法用有效的方法描述其运动状态的微粒物质。所以，人们使用“电子云”模型的概念来描述它。以氢原子为例，简单地说，就是在任一时刻对原子进行一次“拍照”，把它的位置用一个点记录下来，然后在另一时刻同样进行一次“拍照”并做记录。持续进行这样的操作，当收集到足够多的“照片”后进行图像的叠加，就会发现大量的点集中在距离原子核比较近的位置，而在距离原子核相对较远的位置点比较少。这种由点的稀疏和稠密而产生的类似云状的概率描述模型叫作“电子云”（如图8-11所示）。不仅是氢原子，其他原子同样会产生类似的电子云效果。这种电子云本身给原子半径的测量带来了麻烦吗？这个麻烦究竟有多大？是应该计算电子云最外侧的圆形的半径，还是应该按照这些点的半径做加权平均？这些点的位置本身不就是在不停地变化吗？由这些不断变化的小粒子组成的物质岂不是在一刻不停地受到来自底层变化的影响？我们还有可能准确测得这些物质的尺寸吗？还是有科学的办法。我们要感谢棣莫弗和拉普拉斯，以及由他们发现的棣莫弗-拉普拉斯中心极限定理（如图8-12所示）。

1700506412

1700506413

1700506414

1700506415 图8-11　氢原子的电子云模型示意图图8-12　中心极限定理设随机变量Xn(n=1, 2,……)服从参数为p的二项分布，则对任意的x恒有

1700506416

1700506417

1700506418

1700506419

1700506420

[ 上一页 ] [ :1.700506371e+09 ] [ 下一页 ]