1700537089
1700537090
1700537091
1700537092
1700537093
图7.8 高斯分布曲线图
1700537094
1700537095
相反,图7.9是拉普拉斯分布曲线图。由图可见,拉普拉斯分布在极值点(0点)处是一个尖峰,所以拉普拉斯先验分布中参数w取值为0的可能性要更高。在此我们不再给出L1和L2正则化分别对应拉普拉斯先验分布和高斯先验分布的详细证明。
1700537096
1700537097
1700537098
1700537099
1700537100
图7.9 拉普拉斯分布曲线图
1700537101
1700537102
1700537103
1700537104
1700537106
百面机器学习:算法工程师带你去面试 第8章 采样
1700537107
1700537108
古人云:“知秋一叶,尝鼎一脔”,其中就蕴含着采样的思想。采样,顾名思义,就是从特定的概率分布中抽取相应样本点的过程。采样在机器学习中有着非常重要的应用:它可以将复杂的分布简化为离散的样本点;可以用重采样对样本集进行调整以更好地适应后期的模型学习;可以用于随机模拟以进行复杂模型的近似求解或推理。另外,采样在数据可视化方面也有很多应用,可以帮助人们快速、直观地了解数据的结构和特性。
1700537109
1700537110
对于一些简单的分布,如均匀分布、高斯分布等,很多编程语言里面都有直接的采样函数。然而,即使是这些简单分布,其采样过程也并不是显而易见的,仍需要精心设计。对于比较复杂的分布,往往并没有直接的采样函数可供调用,这时就需要其他更加复杂的采样方法。因此,对采样方法的深入理解是很有必要的。
1700537111
1700537112
本章会通过一系列的问题与解答来展现采样的相关知识,包括采样的作用、常见的采样方法、采样在一些分布或模型上的具体实现,以及采样的应用。
1700537113
1700537114
1700537115
1700537116
1700537118
百面机器学习:算法工程师带你去面试 01 采样的作用
1700537119
1700537120
1700537121
1700537122
场景描述
1700537123
1700537124
采样是从特定的概率分布中抽取对应的样本点。那么,这些抽取出来的样本有什么用呢?或者说,为什么需要采样?采样可以用来解决什么问题?
1700537125
1700537126
知识点
1700537127
1700537128
采样,机器学习,概率统计
1700537129
1700537130
问题 举例说明采样在机器学习中的应用。
1700537131
1700537132
难度:★★☆☆☆
1700537133
1700537134
分析与解答
1700537135
1700537136
采样本质上是对随机现象的模拟,根据给定的概率分布,来模拟产生一个对应的随机事件。采样可以让人们对随机事件及其产生过程有更直观的认识。例如,通过对二项分布的采样,可以模拟“抛硬币出现正面还是反面”这个随机事件,进而模拟产生一个多次抛硬币出现的结果序列,或者计算多次抛硬币后出现正面的频率。
1700537137
1700537138
另一方面,采样得到的样本集也可以看作是一种非参数模型,即用较少量的样本点(经验分布)来近似总体分布,并刻画总体分布中的不确定性。从这个角度来说,采样其实也是一种信息降维,可以起到简化问题的作用。例如,在训练机器学习模型时,一般想要优化的是模型在总体分布上的期望损失(期望风险),但总体分布可能包含无穷多个样本点,要在训练时全部用上几乎是不可能的,采集和存储样本的代价也非常大。因此,一般采用总体分布的一个样本集来作为总体分布的近似,称之为训练集,训练模型的时候是最小化模型在训练集上损失函数(经验风险)。同理,在评估模型时,也是看模型在另外一个样本集(测试集)上的效果。这种信息降维的特性,使得采样在数据可视化方面也有很多应用,它可以帮助人们快速、直观地了解总体分布中数据的结构和特性。
[
上一页 ]
[ :1.700537089e+09 ]
[
下一页 ]