打字猴:1.70053621e+09
1700536210
1700536211
1700536212 (6.26)
1700536213
1700536214 其中p(dm,wn)是在第m篇文章dm中,出现单词wn的概率,与上文中的p(w|d)的含义是相同的,只是换了一种符号表达;c(dm,wn)是在第m篇文章dm中,单词wn出现的次数。
1700536215
1700536216 于是,Log似然函数可以写成:
1700536217
1700536218
1700536219
1700536220
1700536221 (6.27)
1700536222
1700536223 在上面的公式中,定义在文章上的主题分布p(zk|dm)和定义在主题上的词分布p(wn|zk)是待估计的参数。我们需要找到最优的参数,使得整个语料库的Log似然函数最大化。由于参数中包含的zk是隐含变量(即无法直接观测到的变量),因此无法用最大似然估计直接求解,可以利用最大期望算法来解决。
1700536224
1700536225 ■ LDA
1700536226
1700536227 LDA可以看作是pLSA的贝叶斯版本,其文本生成过程与pLSA基本相同,不同的是为主题分布和词分布分别加了两个狄利克雷(Dirichlet)先验。为什么要加入狄利克雷先验呢?这就要从频率学派和贝叶斯学派的区别说起。pLSA采用的是频率派思想,将每篇文章对应的主题分布p(zk|dm)和每个主题对应的词分布p(wn|zk)看成确定的未知常数,并可以求解出来;而LDA采用的是贝叶斯学派的思想,认为待估计的参数(主题分布和词分布)不再是一个固定的常数,而是服从一定分布的随机变量。这个分布符合一定的先验概率分布(即狄利克雷分布),并且在观察到样本信息之后,可以对先验分布进行修正,从而得到后验分布。LDA之所以选择狄利克雷分布作为先验分布,是因为它为多项式分布的共轭先验概率分布,后验概率依然服从狄利克雷分布,这样做可以为计算带来便利。图6.11是LDA的图模型,其中α,β分别为两个狄利克雷分布的超参数,为人工设定。
1700536228
1700536229
1700536230
1700536231
1700536232 图6.11 LDA图模型
1700536233
1700536234 语料库的生成过程为:对文本库中的每一篇文档di,采用以下操作
1700536235
1700536236 (1)从超参数为α的狄利克雷分布中抽样生成文档di的主题分布θi。
1700536237
1700536238 (2)对文档di中的每一个词进行以下3个操作。
1700536239
1700536240  
1700536241
1700536242 从代表主题的多项式分布θi中抽样生成它所对应的主题zij。
1700536243
1700536244
1700536245 从超参数为β的狄利克雷分布中抽样生成主题zij对应的词分布zij。
1700536246
1700536247
1700536248 从代表词的多项式分布zij中抽样生成词wij。
1700536249
1700536250
1700536251 我们要求解出主题分布θi以及词分布zij的期望,可以用吉布斯采样(Gibbs Sampling)的方式实现。首先随机给定每个单词的主题,然后在其他变量固定的情况下,根据转移概率抽样生成每个单词的新主题。对于每个单词来说,转移概率可以理解为:给定文章中的所有单词以及除自身以外其他所有单词的主题,在此条件下该单词对应为各个新主题的概率。最后,经过反复迭代,我们可以根据收敛后的采样结果计算主题分布和词分布的期望。
1700536252
1700536253 问题2 如何确定LDA模型中的主题个数?
1700536254
1700536255 难度:★★☆☆☆
1700536256
1700536257 分析与解答
1700536258
1700536259 在LDA中,主题的个数K是一个预先指定的超参数。对于模型超参数的选择,实践中的做法一般是将全部数据集分成训练集、验证集、和测试集3部分,然后利用验证集对超参数进行选择。例如,在确定LDA的主题个数时,我们可以随机选取60%的文档组成训练集,另外20%的文档组成验证集,剩下20%的文档组成测试集。在训练时,尝试多组超参数的取值,并在验证集上检验哪一组超参数所对应的模型取得了最好的效果。最终,在验证集上效果最好的一组超参数和其对应的模型将被选定,并在测试集上进行测试。
[ 上一页 ]  [ :1.70053621e+09 ]  [ 下一页 ]