打字猴:1.700507856e+09
1700507856 数据科学家养成手册 [:1700503590]
1700507857 11.8.2 监督学习
1700507858
1700507859 监督学习和非监督学习的方式有所不同。在监督学习的范畴,样本对象除了有自己的特征向量以外,还有标签向量(或称“分类向量”)。以特征向量表示输入,以标签向量表示输出或预测值,为确立这样的映射关系让计算机进行的自动化归纳运算就是监督学习。
1700507860
1700507861 监督学习有两个工作环节,一个是“学习”,另一个是“分类”。
1700507862
1700507863 通过大量训练样本的特征向量及它们各自的分类向量,让计算机根据算法逻辑对这个映射模型进行归纳,这个过程就是“学习”过程。用这个学习过程得到的结果模型去对任意一个输入的特征向量进行分类判断,就是“分类”过程。
1700507864
1700507865 这种“学习”和“分类”的过程是绝大多数监督学习的工作模式。在实际应用中,“学习”和“分类”迭代进行,用“分类”的结果验证“学习”的正确性,调整“学习”后,再用不断的“分类”实践来进行验证和反馈调整——这就是监督学习的完整过程。
1700507866
1700507867 监督学习的体系非常丰富,看上去让人有点眼花缭乱,但是仔细品味一下,做的都是同一件事情。
1700507868
1700507869 1.贝叶斯概率
1700507870
1700507871 有一个著名的公式
1700507872
1700507873
1700507874
1700507875
1700507876 或写作
1700507877
1700507878
1700507879
1700507880
1700507881 这就是朴素贝叶斯模型公式(Naive Bayesian,如图11-24所示)。其中,P(A)叫作事件A的先验概率,是指一般情况下我们认为事件A发生的概率;(|)P B A叫作似然度,是指事件A假设条件成立的情况下发生事件B的概率;(|)P A B叫作后验概率,是指在事件B发生的情况下发生事件A的概率,也就是我们要计算的概率;P(B)叫作标准化常量,和事件A的先验概率定义类似,就是一般情况下事件B发生的概率。
1700507882
1700507883
1700507884
1700507885
1700507886 图11-24 朴素贝叶斯(1)
1700507887
1700507888 贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想如下。
1700507889
1700507890 (1)已知类条件概率密度参数表达式和先验概率。
1700507891
1700507892 (2)利用贝叶斯公式将其转换成后验概率。
1700507893
1700507894 (3)根据后验概率的大小进行决策分类。
1700507895
1700507896 朴素贝叶斯分类的方式则不太一样。贝叶斯概率研究的是条件概率,也就是说,研究的场景就是带有某些前提条件或者在某些背景条件的约束下发生的概率问题。
1700507897
1700507898 上面基于对于样本空间中两个事件(事件A和事件B)的条件概率描述,完整的贝叶斯公式如下。
1700507899
1700507900
1700507901
1700507902
1700507903 如图11-25所示,设D1, D2, …, Dn为样本空间S的一个划分,如果以表示Di发生的概率,且。对于任一事件x,,有
1700507904
1700507905
[ 上一页 ]  [ :1.700507856e+09 ]  [ 下一页 ]