打字猴:1.700535934e+09

1700535934

1700535935 给定离散随机变量x和y上的条件概率分布P(y|x)，定义在条件概率分布上的条件熵为

1700535936

1700535937

1700535938 ，

1700535939

1700535940 （6.14）

1700535941

1700535942

1700535943 其中(x)为样本在训练数据集上的经验分布，即x的各个取值在样本中出现的频率统计。

1700535944

1700535945

1700535946

1700535947 最大熵模型就是要学习到合适的分布P(y|x)，使得条件熵H(P)的取值最大。在对训练数据集一无所知的情况下，最大熵模型认为P(y|x)是符合均匀分布的。那么当我们有了训练数据集之后呢？我们希望从中找到一些规律，从而消除一些不确定性，这时就需要用到特征函数f(x,y)。特征函数f描述了输入x和输出y之间的一个规律，例如当x=y时，f(x,y)等于一个比较大的正数。为了使学习到的模型P(y|x)能够正确捕捉训练数据集中的这一规律（特征），我们加入一个约束，使得特征函数f(x,y)关于经验分布(x,y)的期望值与关于模型P(y|x)和经验分布(x)的期望值相等，即

1700535948

1700535949