1700536084
1700536085
(3)学习问题:已知观测序列Y,求解使得该观测序列概率最大的模型参数,包括隐状态序列、隐状态之间的转移概率分布以及从隐状态到观测状态的概率分布,可使用Baum-Welch算法进行参数的学习,Baum-Welch算法是最大期望算法的一个特例。
1700536086
1700536087
上面提到的问题和算法在此不多做介绍,感兴趣的读者可以查阅相关资料。下面回到开头的问题。隐马尔可夫模型通常用来解决序列标注问题,因此也可以将分词问题转化为一个序列标注问题来进行建模。例如可以对中文句子中的每个字做以下标注,B表示一个词开头的第一个字,E表示一个词结尾的最后一个字,M表示一个词中间的字,S表示一个单字词,则隐状态的取值空间为{B,E,M,S}。同时对隐状态的转移概率可以给出一些先验知识,B和M后面只能是M或者E,S和E后面只能是B或者S。而每个字就是模型中的观测状态,取值空间为语料中的所有中文字。完成建模之后,使用语料进行训练可以分有监督训练和无监督训练。有监督训练即对语料进行标注,相当于根据经验得到了语料的所有隐状态信息,然后就可以用简单的计数法来对模型中的概率分布进行极大似然估计 。无监督训练可以用上文提到的Baum-Welch算法,同时优化隐状态序列和模型对应的概率分布。
1700536088
1700536089
问题2 最大熵马尔可夫模型为什么会产生标注偏置问题?如何解决?
1700536090
1700536091
难度:★★★★☆
1700536092
1700536093
分析与解答
1700536094
1700536095
隐马尔可夫模型等用于解决序列标注问题的模型中,常常对标注进行了独立性假设。以隐马尔可夫模型为例介绍标注偏置问题(Label Bias Problem)。
1700536096
1700536097
在隐马尔可夫模型中,假设隐状态(即序列标注问题中的标注)xi的状态满足马尔可夫过程,t时刻的状态xt的条件分布,仅仅与其前一个状态xt−1有关,即P(xt|x1,x2,…,xt−1)=P(xt|xt−1);同时隐马尔可夫模型假设观测序列中各个状态仅仅取决于它对应的隐状态P(yt|x1,x2,…,xn,yi,y2,…,yt−1,yt+1,…)=P(yt|xt)。隐马尔可夫模型建模时考虑了隐状态间的转移概率和隐状态到观测状态的输出概率。
1700536098
1700536099
实际上,在序列标注问题中,隐状态(标注)不仅和单个观测状态相关,还和观察序列的长度、上下文等信息相关。例如词性标注问题中,一个词被标注为动词还是名词,不仅与它本身以及它前一个词的标注有关,还依赖于上下文中的其他词,于是引出了最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM),如图6.6所示。最大熵马尔可夫模型在建模时,去除了隐马尔可夫模型中观测状态相互独立的假设,考虑了整个观测序列,因此获得了更强的表达能力。同时,隐马尔可夫模型是一种对隐状态序列和观测状态序列的联合概率P(x,y)进行建模的生成式模型,而最大熵马尔可夫模型是直接对标注的后验概率P(y|x)进行建模的判别式模型。
1700536100
1700536101
1700536102
1700536103
1700536104
图6.6 最大熵马尔可夫模型
1700536105
1700536106
最大熵马尔可夫模型建模如下
1700536107
1700536108
1700536109
,
1700536110
1700536111
(6.22)
1700536112
1700536113
1700536114
其中会在局部进行归一化,即枚举xi的全部取值进行求和之后计算概率,计算公式为
1700536115
1700536116
1700536117
,
1700536118
1700536119
(6.23)
1700536120
1700536121
其中Z为归一化因子
1700536122
1700536123
1700536124
,
1700536125
1700536126
(6.24)
1700536127
1700536128
1700536129
1700536130
其中为所有特征的线性叠加。
1700536131
1700536132
最大熵马尔可夫模型存在标注偏置问题,如图6.7所示。可以发现,状态1倾向于转移到状态2,状态2倾向于转移到状态2本身。但是实际计算得到的最大概率路径是1->1->1->1,状态1并没有转移到状态2,如图6.8所示。这是因为,从状态2转移出去可能的状态包括1、2、3、4、5,概率在可能的状态上分散了,而状态1转移出去的可能状态仅仅为状态1和2,概率更加集中。由于局部归一化的影响,隐状态会倾向于转移到那些后续状态可能更少的状态上,以提高整体的后验概率。这就是标注偏置问题。
1700536133
[
上一页 ]
[ :1.700536084e+09 ]
[
下一页 ]