1700507910
1700507911
图11-25 朴素贝叶斯(2)
1700507912
1700507913
也就是说,这可以推广到事件x和事件集合Dj。
1700507914
1700507915
Di表示不同的事件划分,而且用Di可以把整个空间划分完毕。在每个Di事件发生的同时都进行事件x发生与否的记录,并记录在Di发生的情况下x的发生概率。
1700507916
1700507917
1700507918
可以化简成P(x),因为它代表整个事件空间内在所有的事件Di发生的前提下发生事件x的概率的一个加和。
1700507919
1700507920
所以,最后等式两边就化简成
1700507921
1700507922
1700507923
1700507924
1700507925
也就是说,在全样本空间内,发生x的概率乘以在发生x的情况下发生Dj的概率,等于发生Dj的概率乘以在发生Dj的情况下发生x的概率。
1700507926
1700507927
1700507928
1700507929
如图11-25所示,左侧的圆面积代表发生x的概率,右侧的圆面积代表发生Dj的概率,中间的交集就是等号两边各自表示的内容,也就是或的值。
1700507930
1700507931
朴素贝叶斯分类器是在机器学习中应用最为广泛的一种分类器。与其说它是一个公式,不如说它是一种思想或者思维方式。对贝叶斯概率解决的问题我们可以这样看待:对任何事情的认知,首先可以通过统计的方法得出事情发生的概率。这个概率叫作“先验概率”,是指在一种非特定(或不明确)条件下的概率判断。然而,一旦引入了其他维度(也就是事件认知维度增加),如果通过统计发现其中一件事情的增加或减少会影响另一件事情发生的概率,那么这两件事情的关联性可以通过统计量化表示。这个量化表示非常重要,它不仅能够说明一件事情的发生对另一件事情的发生概率有影响,还能告诉我们这个影响具体有多大,也就是说,贝叶斯概率模型是量化因果关系的科学认知方法。
1700507932
1700507933
2.回归
1700507934
1700507935
回归(Regression)也是一种通过归纳样本特征向量和分类向量的关系得到模型表达式的过程。常见的回归有线性回归(Linear Regression)、非线性回归(Non-Linear Regression)和逻辑回归(Logistic Regression)等。
1700507936
1700507937
线性回归的表达式是
1700507938
1700507939
1700507940
1700507941
1700507942
其中,x是一个n维向量,或者可以看成一个n×1的矩阵,wT是一个1×n的矩阵,两者作内积再加b,就是一个一维向量(一个实数值)。
1700507943
1700507944
f(x)=wTx+b最常见、最普及的形式是f(x)=ax+b。这种形式我们每个人在上中学的时候都见过,也是一维向量x的特例形式。在这种情况下做拟合,就是把每个向量x和它的分类向量y带入分类器中进行训练,最终推导出最为合适的wT和b。
1700507945
1700507946
“最为合适”是什么概念呢?在回归模型的认知体系中,通常把能够保证全局误差小的wT和b作为要求的解,误差越小,说明这种wT和b对描述模型来说越准确。以f(x)=ax+b为例,可以把这个求解最优化a和b的问题变成一个最小化损失函数Loss(误差函数)的问题。
1700507947
1700507948
对机器学习中的训练来说,损失函数Loss的设计也有一些讲究。
1700507949
1700507950
第一,它应该具有相对明确的统计学或物理解释,能够比较直观地说明这个值的大小和误差之间的量化关系,并且恒为非负数。
1700507951
1700507952
第二,损失函数Loss是否能够通过相对容易的方式进行优化。如果能够以我们熟悉的方式进行优化,就比较好。此外,损失函数Loss的优化过程收敛速度要快。
1700507953
1700507954
常见的损失函数有绝对值损失函数(Absolute Loss Function)、平方损失函数(Squadratic Loss Function)、0-1损失函数(0-1 Loss Function)、对数损失函数(Logarithmic Loss Function)和Hinge损失函数(Hinge Loss Function)。除此之外,还有一些损失函数的构造方法。在不同的场景中,损失函数通常不建议通用,原则上还是参考刚刚提出的两点。涉及哪个损失函数,就解析哪个损失函数。
1700507955
1700507956
绝对值损失函数的表达式为
1700507957
1700507958
1700507959
[
上一页 ]
[ :1.70050791e+09 ]
[
下一页 ]