打字猴:1.700536077e+09

1700536077 在整个过程中，我们并不知道每次拿到的是哪一个葫芦。用隐马尔可夫模型来描述以上过程，隐状态就是当前是哪一个葫芦，隐状态的取值空间为{葫芦1，葫芦2，葫芦3}，观测状态的取值空间为{好药，坏药}，初始状态的概率分布就是第（1）步随机挑选葫芦的概率分布，隐状态间的转移概率就是从当前葫芦转移到下一个葫芦的概率，而隐状态到观测状态的输出概率就是每个葫芦里好药和坏药的概率。记录下来的药的顺序就是观测状态的序列，而每次拿到的葫芦的顺序就是隐状态的序列。

1700536078

1700536079 隐马尔可夫模型包括概率计算问题、预测问题、学习问题三个基本问题。

1700536080

1700536081 （1）概率计算问题：已知模型的所有参数，计算观测序列Y出现的概率，可使用前向和后向算法求解。

1700536082

1700536083 （2）预测问题：已知模型所有参数和观测序列Y，计算最可能的隐状态序列X，可使用经典的动态规划算法——维特比算法来求解最可能的状态序列。

1700536084

1700536085 （3）学习问题：已知观测序列Y，求解使得该观测序列概率最大的模型参数，包括隐状态序列、隐状态之间的转移概率分布以及从隐状态到观测状态的概率分布，可使用Baum-Welch算法进行参数的学习，Baum-Welch算法是最大期望算法的一个特例。

1700536086

1700536087 上面提到的问题和算法在此不多做介绍，感兴趣的读者可以查阅相关资料。下面回到开头的问题。隐马尔可夫模型通常用来解决序列标注问题，因此也可以将分词问题转化为一个序列标注问题来进行建模。例如可以对中文句子中的每个字做以下标注，B表示一个词开头的第一个字，E表示一个词结尾的最后一个字，M表示一个词中间的字，S表示一个单字词，则隐状态的取值空间为{B,E,M,S}。同时对隐状态的转移概率可以给出一些先验知识，B和M后面只能是M或者E，S和E后面只能是B或者S。而每个字就是模型中的观测状态，取值空间为语料中的所有中文字。完成建模之后，使用语料进行训练可以分有监督训练和无监督训练。有监督训练即对语料进行标注，相当于根据经验得到了语料的所有隐状态信息，然后就可以用简单的计数法来对模型中的概率分布进行极大似然估计。无监督训练可以用上文提到的Baum-Welch算法，同时优化隐状态序列和模型对应的概率分布。

1700536088

1700536089 问题2　最大熵马尔可夫模型为什么会产生标注偏置问题？如何解决？

1700536090

1700536091 难度：★★★★☆

1700536092

1700536093 分析与解答

1700536094

1700536095 隐马尔可夫模型等用于解决序列标注问题的模型中，常常对标注进行了独立性假设。以隐马尔可夫模型为例介绍标注偏置问题（Label Bias Problem）。

1700536096

1700536097 在隐马尔可夫模型中，假设隐状态（即序列标注问题中的标注）xi的状态满足马尔可夫过程，t时刻的状态xt的条件分布，仅仅与其前一个状态xt−1有关，即P(xt|x1,x2,…,xt−1)=P(xt|xt−1)；同时隐马尔可夫模型假设观测序列中各个状态仅仅取决于它对应的隐状态P(yt|x1,x2,…,xn,yi,y2,…,yt−1,yt+1,…)=P(yt|xt)。隐马尔可夫模型建模时考虑了隐状态间的转移概率和隐状态到观测状态的输出概率。

1700536098

1700536099 实际上，在序列标注问题中，隐状态（标注）不仅和单个观测状态相关，还和观察序列的长度、上下文等信息相关。例如词性标注问题中，一个词被标注为动词还是名词，不仅与它本身以及它前一个词的标注有关，还依赖于上下文中的其他词，于是引出了最大熵马尔可夫模型（Maximum Entropy Markov Model，MEMM），如图6.6所示。最大熵马尔可夫模型在建模时，去除了隐马尔可夫模型中观测状态相互独立的假设，考虑了整个观测序列，因此获得了更强的表达能力。同时，隐马尔可夫模型是一种对隐状态序列和观测状态序列的联合概率P(x,y)进行建模的生成式模型，而最大熵马尔可夫模型是直接对标注的后验概率P(y|x)进行建模的判别式模型。

1700536100

1700536101