打字猴:1.700535951e+09

1700535951

1700535952 （6.15）

1700535953

1700535954

1700535955 其中，特征函数f(x,y)关于经验分布(x,y)的期望值计算公式为

1700535956

1700535957

1700535958 ．

1700535959

1700535960 （6.16）

1700535961

1700535962

1700535963 f(x,y)关于模型P(y|x)和经验分布(x)的期望值计算公式为

1700535964

1700535965

1700535966 ．

1700535967

1700535968 （6.17）

1700535969

1700535970

1700535971

1700535972 综上，给定训练数据集，以及M个特征函数，最大熵模型的学习等价于约束最优化问题：

1700535973

1700535974

1700535975

1700535976

1700535977 （6.18）

1700535978

1700535979 求解之后可以得到最大熵模型的表达形式为

1700535980

1700535981

1700535982 ．

1700535983

1700535984 （6.19）

1700535985

1700535986 最终，最大熵模型归结为学习最佳的参数w，使得Pw(y|x)最大化。从概率图模型的角度理解，我们可以看到Pw(y|x)的表达形式非常类似于势函数为指数函数的马尔可夫网络，其中变量x和y构成了一个最大团，如图6.3所示。

1700535987

1700535988

1700535989

1700535990

1700535991 图6.3　最大熵模型的概率图模型

1700535992

1700535993

1700535994

1700535995

1700535996 百面机器学习：算法工程师带你去面试 [:1700532200]

1700535997 百面机器学习：算法工程师带你去面试 03　生成式模型与判别式模型

1700535998

1700535999

1700536000

[ 上一页 ] [ :1.700535951e+09 ] [ 下一页 ]