打字猴:1.700537275e+09

1700537275 很多时候，采样的最终目的并不是为了得到样本，而是为了进行一些后续任务，如预测变量取值，这通常表现为一个求函数期望的形式。重要性采样就是用于计算函数f(x)在目标分布p(x)上的积分（函数期望），即

1700537276

1700537277

1700537278 ．

1700537279

1700537280 （8.4）

1700537281

1700537282

1700537283 首先，找一个比较容易抽样的参考分布q(x)，并令，则有

1700537284

1700537285

1700537286 ，

1700537287

1700537288 （8.5）

1700537289

1700537290 这里w(x)可以看成是样本x的重要性权重。由此，可以先从参考分布q(x)中抽取N个样本{xi}，然后利用如下公式来估计E[f]：

1700537291

1700537292

1700537293

1700537294

1700537295 （8.6）

1700537296

1700537297 图8.4是重要性采样的示意图。如果不需要计算函数积分，只想从目标分布p(x) 中采样出若干样本，则可以用重要性重采样（Sampling-Importance Re-sampling，SIR），先在从参考分布q(x)中抽取N个样本 {xi }，然后按照它们对应的重要性权重{w(xi)}对这些样本进行重新采样（这是一个简单的针对有限离散分布的采样），最终得到的样本服从目标分布p(x)。

1700537298

1700537299

1700537300

1700537301

1700537302 图8.4　重要性采样示意图

1700537303

1700537304 在实际应用中，如果是高维空间的随机向量，拒绝采样和重要性重采样经常难以寻找合适的参考分布，采样效率低下（样本的接受概率小或重要性权重低），此时可以考虑马尔可夫蒙特卡洛采样法，常见的有Metropolis-Hastings采样法和吉布斯采样法。后续会专门介绍马尔可夫蒙特卡洛采样法，这里不再赘述。

1700537305

1700537306 ·总结与扩展·

1700537307

1700537308 上述解答中我们只是列举了几个最常用的采样算法，简单介绍了它们的具体操作。在实际面试时，面试官可能会让面试者选择其最熟悉的某个采样算法来回答，然后较深入地问一下该算法的理论证明、优缺点、相关扩展和应用等。例如，为何拒绝采样或重要性采样在高维空间中会效率低下而无法使用？如何从一个不规则多边形中随机取一个点？

1700537309

1700537310

1700537311

1700537312

1700537313 百面机器学习：算法工程师带你去面试 [:1700532215]

1700537314 百面机器学习：算法工程师带你去面试 04　高斯分布的采样

1700537315

1700537316

1700537317

1700537318 场景描述

1700537319

1700537320 高斯分布，又称正态分布，是一个在数学、物理及工程领域都非常重要的概率分布。在实际应用中，经常需要对高斯分布进行采样。虽然在很多编程语言中，直接调用某个函数就可以生成高斯分布随机数，但了解其中的具体算法能够加深我们对相关概率统计知识的理解。此外，高斯分布的采样方法有多种，通过展示不同的采样方法在高斯分布上的具体操作以及性能对比，我们会对这些采样方法有更直观的印象。

1700537321

1700537322 知识点

1700537323

1700537324 高斯分布，Box-Muller算法，拒绝采样

[ 上一页 ] [ :1.700537275e+09 ] [ 下一页 ]