打字猴:1.700535934e+09
1700535934
1700535935 给定离散随机变量x和y上的条件概率分布P(y|x),定义在条件概率分布上的条件熵为
1700535936
1700535937
1700535938
1700535939
1700535940 (6.14)
1700535941
1700535942
1700535943 其中(x)为样本在训练数据集上的经验分布,即x的各个取值在样本中出现的频率统计。
1700535944
1700535945
1700535946
1700535947 最大熵模型就是要学习到合适的分布P(y|x),使得条件熵H(P)的取值最大。在对训练数据集一无所知的情况下,最大熵模型认为P(y|x)是符合均匀分布的。那么当我们有了训练数据集之后呢?我们希望从中找到一些规律,从而消除一些不确定性,这时就需要用到特征函数f(x,y)。特征函数f描述了输入x和输出y之间的一个规律,例如当x=y时,f(x,y)等于一个比较大的正数。为了使学习到的模型P(y|x)能够正确捕捉训练数据集中的这一规律(特征),我们加入一个约束,使得特征函数f(x,y)关于经验分布(x,y)的期望值与关于模型P(y|x)和经验分布(x)的期望值相等,即
1700535948
1700535949
1700535950
1700535951
1700535952 (6.15)
1700535953
1700535954
1700535955 其中,特征函数f(x,y)关于经验分布(x,y)的期望值计算公式为
1700535956
1700535957
1700535958
1700535959
1700535960 (6.16)
1700535961
1700535962
1700535963 f(x,y)关于模型P(y|x)和经验分布(x)的期望值计算公式为
1700535964
1700535965
1700535966
1700535967
1700535968 (6.17)
1700535969
1700535970
1700535971
1700535972 综上,给定训练数据集,以及M个特征函数,最大熵模型的学习等价于约束最优化问题:
1700535973
1700535974
1700535975
1700535976
1700535977 (6.18)
1700535978
1700535979 求解之后可以得到最大熵模型的表达形式为
1700535980
1700535981
1700535982
1700535983
[ 上一页 ]  [ :1.700535934e+09 ]  [ 下一页 ]