1700536189
1700536190
问题1 常见的主题模型有哪些?试介绍其原理。
1700536191
1700536192
难度:★★☆☆☆
1700536193
1700536194
分析与解答
1700536195
1700536196
■ pLSA
1700536197
1700536198
pLSA是用一个生成模型来建模文章的生成过程。假设有K个主题,M篇文章;对语料库中的任意文章d,假设该文章有N个词,则对于其中的每一个词,我们首先选择一个主题z,然后在当前主题的基础上生成一个词w。图6.10是pLSA图模型。
1700536199
1700536200
1700536201
1700536202
1700536203
图6.10 pLSA图模型
1700536204
1700536205
1700536206
1700536207
生成主题z和词w的过程遵照一个确定的概率分布。设在文章d中生成主题z的概率为p(z|d),在选定主题的条件下生成词w的概率为p(w|z),则给定文章d,生成词w的概率可以写成:。在这里我们做一个简化,假设给定主题z的条件下,生成词w的概率是与特定的文章无关的,则公式可以简化为:。整个语料库中的文本生成概率可以用似然函数表示为
1700536208
1700536209
1700536210
,
1700536211
1700536212
(6.26)
1700536213
1700536214
其中p(dm,wn)是在第m篇文章dm中,出现单词wn的概率,与上文中的p(w|d)的含义是相同的,只是换了一种符号表达;c(dm,wn)是在第m篇文章dm中,单词wn出现的次数。
1700536215
1700536216
于是,Log似然函数可以写成:
1700536217
1700536218
1700536219
.
1700536220
1700536221
(6.27)
1700536222
1700536223
在上面的公式中,定义在文章上的主题分布p(zk|dm)和定义在主题上的词分布p(wn|zk)是待估计的参数。我们需要找到最优的参数,使得整个语料库的Log似然函数最大化。由于参数中包含的zk是隐含变量(即无法直接观测到的变量),因此无法用最大似然估计直接求解,可以利用最大期望算法来解决。
1700536224
1700536225
■ LDA
1700536226
1700536227
LDA可以看作是pLSA的贝叶斯版本,其文本生成过程与pLSA基本相同,不同的是为主题分布和词分布分别加了两个狄利克雷(Dirichlet)先验。为什么要加入狄利克雷先验呢?这就要从频率学派和贝叶斯学派的区别说起。pLSA采用的是频率派思想,将每篇文章对应的主题分布p(zk|dm)和每个主题对应的词分布p(wn|zk)看成确定的未知常数,并可以求解出来;而LDA采用的是贝叶斯学派的思想,认为待估计的参数(主题分布和词分布)不再是一个固定的常数,而是服从一定分布的随机变量。这个分布符合一定的先验概率分布(即狄利克雷分布),并且在观察到样本信息之后,可以对先验分布进行修正,从而得到后验分布。LDA之所以选择狄利克雷分布作为先验分布,是因为它为多项式分布的共轭先验概率分布,后验概率依然服从狄利克雷分布,这样做可以为计算带来便利。图6.11是LDA的图模型,其中α,β分别为两个狄利克雷分布的超参数,为人工设定。
1700536228
1700536229
1700536230
1700536231
1700536232
图6.11 LDA图模型
1700536233
1700536234
语料库的生成过程为:对文本库中的每一篇文档di,采用以下操作
1700536235
1700536236
(1)从超参数为α的狄利克雷分布中抽样生成文档di的主题分布θi。
1700536237
1700536238
(2)对文档di中的每一个词进行以下3个操作。
[
上一页 ]
[ :1.700536189e+09 ]
[
下一页 ]