打字猴:1.700535908e+09
1700535908
1700535909 其中P(x1|yi),P(x2|yi),…,P(xn|yi),以及P(yi)可以通过训练样本统计得到。可以看到后验概率P(xj|yi)的取值决定了分类的结果,并且任意特征xj都由yi的取值所影响。因此概率图模型可以用图6.2表示。
1700535910
1700535911
1700535912
1700535913
1700535914 图6.2 朴素贝叶斯模型的概率图模型
1700535915
1700535916 注意,图6.2的表示为盘式记法。盘式记法是一种简洁的概率图模型表示方法,如果变量y同时对x1,x2,…,xN这N个变量产生影响,则可以简记成图6.2的形式 。
1700535917
1700535918 问题2 解释最大熵模型的原理,并给出概率图模型表示。
1700535919
1700535920 难度:★★☆☆☆
1700535921
1700535922 分析与解答
1700535923
1700535924 信息是指人们对事物理解的不确定性的降低或消除,而熵就是不确定性的度量,熵越大,不确定性也就越大。最大熵原理是概率模型学习的一个准则,指导思想是在满足约束条件的模型集合中选取熵最大的模型,即不确定性最大的模型。在平时生活中,我们也会有意无意地使用最大熵的准则,例如人们常说的鸡蛋不能放在一个篮子里,就是指在事情具有不确定性的时候,我们倾向于尝试它的多种可能性,从而降低结果的风险。同时,在摸清了事情背后的某种规律之后,可以加入一个约束,将不符合规律约束的情况排除,在剩下的可能性中去寻找使得熵最大的决策。
1700535925
1700535926 假设离散随机变量x的分布是P(x),则关于分布P的熵定义为
1700535927
1700535928
1700535929
1700535930
1700535931 (6.13)
1700535932
1700535933 可以看出当x服从均匀分布时对应的熵最大,也就是不确定性最高。
1700535934
1700535935 给定离散随机变量x和y上的条件概率分布P(y|x),定义在条件概率分布上的条件熵为
1700535936
1700535937
1700535938
1700535939
1700535940 (6.14)
1700535941
1700535942
1700535943 其中(x)为样本在训练数据集上的经验分布,即x的各个取值在样本中出现的频率统计。
1700535944
1700535945
1700535946
1700535947 最大熵模型就是要学习到合适的分布P(y|x),使得条件熵H(P)的取值最大。在对训练数据集一无所知的情况下,最大熵模型认为P(y|x)是符合均匀分布的。那么当我们有了训练数据集之后呢?我们希望从中找到一些规律,从而消除一些不确定性,这时就需要用到特征函数f(x,y)。特征函数f描述了输入x和输出y之间的一个规律,例如当x=y时,f(x,y)等于一个比较大的正数。为了使学习到的模型P(y|x)能够正确捕捉训练数据集中的这一规律(特征),我们加入一个约束,使得特征函数f(x,y)关于经验分布(x,y)的期望值与关于模型P(y|x)和经验分布(x)的期望值相等,即
1700535948
1700535949
1700535950
1700535951
1700535952 (6.15)
1700535953
1700535954
1700535955 其中,特征函数f(x,y)关于经验分布(x,y)的期望值计算公式为
1700535956
1700535957
[ 上一页 ]  [ :1.700535908e+09 ]  [ 下一页 ]