打字猴:1.700536046e+09
1700536046 图6.4 马尔可夫链
1700536047
1700536048 隐马尔可夫模型是对含有未知参数(隐状态)的马尔可夫链进行建模的生成模型,概率图模型如图6.5所示。在简单的马尔可夫模型中,所有状态对于观测者都是可见的,因此在马尔可夫模型中仅仅包括状态间的转移概率。而在隐马尔可夫模型中,隐状态xi对于观测者而言是不可见的,观测者能观测到的只有每个隐状态xi对应的输出yi,而观测状态yi的概率分布仅仅取决于对应的隐状态xi。在隐马尔可夫模型中,参数包括了隐状态间的转移概率、隐状态到观测状态的输出概率、隐状态x的取值空间、观测状态y的取值空间以及初始状态的概率分布。
1700536049
1700536050
1700536051
1700536052
1700536053 图6.5 隐马尔可夫模型
1700536054
1700536055 知识点
1700536056
1700536057 马尔可夫模型,隐马尔可夫模型
1700536058
1700536059 问题1 如何对中文分词问题用隐马尔可夫模型进行建模和训练?
1700536060
1700536061 难度:★★★☆☆
1700536062
1700536063 分析与解答
1700536064
1700536065 下面用一个简单的例子来说明隐马尔可夫模型的建模过程。
1700536066
1700536067 假设有3个不同的葫芦,每个葫芦里有好药和坏药若干,现在从3个葫芦中按以下规则倒出药来。
1700536068
1700536069 (1)随机挑选一个葫芦。
1700536070
1700536071 (2)从葫芦里倒出一颗药,记录是好药还是坏药后将药放回。
1700536072
1700536073 (3)从当前葫芦依照一定的概率转移到下一个葫芦。
1700536074
1700536075 (4)重复步骤(2)和(3)。
1700536076
1700536077 在整个过程中,我们并不知道每次拿到的是哪一个葫芦。用隐马尔可夫模型来描述以上过程,隐状态就是当前是哪一个葫芦,隐状态的取值空间为{葫芦1,葫芦2,葫芦3},观测状态的取值空间为{好药,坏药},初始状态的概率分布就是第(1)步随机挑选葫芦的概率分布,隐状态间的转移概率就是从当前葫芦转移到下一个葫芦的概率,而隐状态到观测状态的输出概率就是每个葫芦里好药和坏药的概率。记录下来的药的顺序就是观测状态的序列,而每次拿到的葫芦的顺序就是隐状态的序列。
1700536078
1700536079 隐马尔可夫模型包括概率计算问题、预测问题、学习问题三个基本问题。
1700536080
1700536081 (1)概率计算问题:已知模型的所有参数,计算观测序列Y出现的概率,可使用前向和后向算法求解。
1700536082
1700536083 (2)预测问题:已知模型所有参数和观测序列Y,计算最可能的隐状态序列X,可使用经典的动态规划算法——维特比算法来求解最可能的状态序列。
1700536084
1700536085 (3)学习问题:已知观测序列Y,求解使得该观测序列概率最大的模型参数,包括隐状态序列、隐状态之间的转移概率分布以及从隐状态到观测状态的概率分布,可使用Baum-Welch算法进行参数的学习,Baum-Welch算法是最大期望算法的一个特例。
1700536086
1700536087 上面提到的问题和算法在此不多做介绍,感兴趣的读者可以查阅相关资料。下面回到开头的问题。隐马尔可夫模型通常用来解决序列标注问题,因此也可以将分词问题转化为一个序列标注问题来进行建模。例如可以对中文句子中的每个字做以下标注,B表示一个词开头的第一个字,E表示一个词结尾的最后一个字,M表示一个词中间的字,S表示一个单字词,则隐状态的取值空间为{B,E,M,S}。同时对隐状态的转移概率可以给出一些先验知识,B和M后面只能是M或者E,S和E后面只能是B或者S。而每个字就是模型中的观测状态,取值空间为语料中的所有中文字。完成建模之后,使用语料进行训练可以分有监督训练和无监督训练。有监督训练即对语料进行标注,相当于根据经验得到了语料的所有隐状态信息,然后就可以用简单的计数法来对模型中的概率分布进行极大似然估计 。无监督训练可以用上文提到的Baum-Welch算法,同时优化隐状态序列和模型对应的概率分布。
1700536088
1700536089 问题2 最大熵马尔可夫模型为什么会产生标注偏置问题?如何解决?
1700536090
1700536091 难度:★★★★☆
1700536092
1700536093 分析与解答
1700536094
1700536095 隐马尔可夫模型等用于解决序列标注问题的模型中,常常对标注进行了独立性假设。以隐马尔可夫模型为例介绍标注偏置问题(Label Bias Problem)。
[ 上一页 ]  [ :1.700536046e+09 ]  [ 下一页 ]