1700537425
实际应用时,M需要尽可能小,这样每次的接受概率大,采样效率更高。因此,可以取
1700537426
1700537427
1700537428
,
1700537429
1700537430
(8.17)
1700537431
1700537432
计算后得到接受概率
1700537433
1700537434
1700537435
.
1700537436
1700537437
(8.18)
1700537438
1700537439
因此,具体的采样过程如下:
1700537440
1700537441
1700537442
(1)产生[0,1]上的均匀分布随机数u0,计算得到指数分布的样本x。
1700537443
1700537444
1700537445
(2)再产生[0,1]上的均匀分布随机数u1,若,则接受x,进入下一步;否则拒绝,跳回到步骤1重新采样。
1700537446
1700537447
(3)最后再产生[0,1]上的均匀分布随机数u2,若u2<0.5,则将x转化为 −x,否则保持不变;由此最终得到标准正态分布的一个样本。
1700537448
1700537449
拒绝采样法的效率取决于接受概率的大小:参考分布与目标分布越接近,则采样效率越高。有没有更高效的拒绝采样算法呢?这就是Ziggurat算法,该算法本质也是拒绝采样,但采用多个阶梯矩形来逼近目标分布(见图8.5)。Ziggurat算法虽然看起来稍微烦琐,但实现起来并不复杂,操作也非常高效,感兴趣的读者可以自行查阅相关文献。
1700537450
1700537451
1700537452
1700537453
1700537454
图8.5 Ziggurat算法示意图
1700537455
1700537456
·总结与扩展·
1700537457
1700537458
高斯分布的采样方法还有很多,我们只列举了几种最常见的。具体面试时,面试者不需要回答所有的方法,知道其中一两种即可,面试官可能会针对这一两种方法深入提问,如理论证明、优缺点、性能等。面试时如果没有思路,可以回忆那些通用的采样方法,如何将那些策略用到高斯分布这个具体案例上。另外,本题还可以适当扩展,例如,多维高斯分布随机向量如何采样?截尾高斯分布(Truncated Gaussian Distribution)如何采样?
1700537459
1700537460
逸闻趣事
1700537461
1700537462
1700537463
1700537464
正态分布为何又称高斯分布
1700537465
1700537466
正态分布最早出现在1738年棣莫弗(Abraham de Moivre)著作的书籍 《The Doctrine of Chances》中:当二项分布的参数n很大且参数p为1/2时,对应的近似分布函数就是正态分布(当时还没有被命名为正态分布)。后来,拉普拉斯(Pierre-Simon marquis de Laplace)将二项分布的正态近似这个结论扩展到任意参数0
1700537467
1700537468
后来,拉普拉斯在误差分析试验中使用了正态分布。勒让德(Adrien-Marie Legendre)于1805年引入最小二乘法这一重要方法,而高斯(Johann Carl Friedrich Gauss)则宣称他早在1794年就使用了该方法,并通过假设误差服从正态分布给出了严格的证明。高斯的介入首先要从天文学界的一个事件说起。1801年1月,天文学家朱塞普·皮亚齐(Giuseppe Piazzi)发现了一颗从未见过的光度8等的星在移动,这颗现在被称作谷神星(Ceres)的小行星在夜空中出现6个星期,扫过八度角后就在太阳的光芒下没了踪影,无法观测。留下的观测数据有限,天文学家难以计算出它的轨道,因此也无法确定这颗新星是彗星还是行星,这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了,这个问题也引起了他的兴趣。他以卓越的数学才能创立了一套全新的行星轨道计算方法,很快就计算出了谷神星的轨道,并预言了它在夜空中出现的时间和位置。1801年12月31日夜,德国天文爱好者奥伯斯(Heinrich Olbers)在高斯预言的时间里,用望远镜对准了这片天空。果然不出所料,谷神星出现了!高斯为此名声大震,但是他当时拒绝透露计算轨道的方法。原因可能是,高斯认为自己的方法的理论基础还不够成熟,而他一向治学严谨、精益求精,不轻易发表没有思考成熟的理论。直到1809年,高斯系统地完善了相关的数学理论后,才将他的方法公布于众,而其中使用的数据分析方法,就是以正态误差分布为基础的最小二乘法。勒让德和高斯关于最小二乘法的发明权之争,成了数学史上仅次于牛顿、莱布尼茨微积分发明权的争端。
1700537469
1700537470
在整个正态分布被发现与应用的历史中,棣莫弗、拉普拉斯、高斯各有贡献:拉普拉斯从中心极限定理的角度解释它,高斯把它应用在误差分析中,殊途同归。正态分布被发现有这么好的性质,各国人民都争抢它的冠名权。因为拉普拉斯是法国人,所以当时在法国被称为拉普拉斯分布;而高斯是德国人,所以在德国叫作高斯分布;第三中立国的人民称它为拉普拉斯-高斯分布。后来法国大数学家庞加莱(Jules Henri Poincaré)建议改用正态分布这一中立名称,随后统计学家卡尔·皮尔森(Karl Pearson)使得这个名称被广泛接受(但是正态分布这个名字似乎会给人一种谬误,即其他很多概率分布都是不正态的)。不过因为高斯在数学界的名气实在是太大,正态分布的桂冠还是更多地被戴在了高斯头上,目前数学界是正态分布和高斯分布两者并用。有趣的是,“高斯分布”也正好是“Stigler名字由来法则”的一个例证,这个法则说的是“没有科学发现是以它最初的发现者命名的”。
1700537471
1700537472
1700537473
1700537474
[
上一页 ]
[ :1.700537425e+09 ]
[
下一页 ]