打字猴:1.700535896e+09

1700535896 P(yi|x)可以写成

1700535897

1700535898

1700535899 ，

1700535900

1700535901 （6.11）

1700535902

1700535903 其中x=(x1,x2,…,xn)为样本对应的特征向量，P(x)为样本的先验概率。对于特定的样本x和任意类别yi，P(x)的取值均相同，并不会影响P(yi|x)取值的相对大小，因此在计算中可以被忽略。假设特征x1,x2,…,xn相互独立，可以得到：

1700535904

1700535906

1700535907 （6.12）

1700535908

1700535909 其中P(x1|yi)，P(x2|yi),…,P(xn|yi)，以及P(yi)可以通过训练样本统计得到。可以看到后验概率P(xj|yi)的取值决定了分类的结果，并且任意特征xj都由yi的取值所影响。因此概率图模型可以用图6.2表示。

1700535910

1700535911

1700535912

1700535913

1700535914 图6.2　朴素贝叶斯模型的概率图模型

1700535915

1700535916 注意，图6.2的表示为盘式记法。盘式记法是一种简洁的概率图模型表示方法，如果变量y同时对x1,x2,…,xN这N个变量产生影响，则可以简记成图6.2的形式。

1700535917

1700535918 问题2　解释最大熵模型的原理，并给出概率图模型表示。

1700535919

1700535920 难度：★★☆☆☆

1700535921

1700535922 分析与解答

1700535923

1700535924 信息是指人们对事物理解的不确定性的降低或消除，而熵就是不确定性的度量，熵越大，不确定性也就越大。最大熵原理是概率模型学习的一个准则，指导思想是在满足约束条件的模型集合中选取熵最大的模型，即不确定性最大的模型。在平时生活中，我们也会有意无意地使用最大熵的准则，例如人们常说的鸡蛋不能放在一个篮子里，就是指在事情具有不确定性的时候，我们倾向于尝试它的多种可能性，从而降低结果的风险。同时，在摸清了事情背后的某种规律之后，可以加入一个约束，将不符合规律约束的情况排除，在剩下的可能性中去寻找使得熵最大的决策。

1700535925

1700535926 假设离散随机变量x的分布是P(x)，则关于分布P的熵定义为

1700535927

1700535928

1700535929

1700535930

1700535931 （6.13）

1700535932

1700535933 可以看出当x服从均匀分布时对应的熵最大，也就是不确定性最高。

1700535934

1700535935 给定离散随机变量x和y上的条件概率分布P(y|x)，定义在条件概率分布上的条件熵为

1700535936

1700535937

1700535938 ，

1700535939

1700535940 （6.14）

1700535941

1700535942

1700535943 其中(x)为样本在训练数据集上的经验分布，即x的各个取值在样本中出现的频率统计。

1700535944

1700535945

[ 上一页 ] [ :1.700535896e+09 ] [ 下一页 ]