打字猴:1.70053621e+09

1700536210 ，

1700536211

1700536212 （6.26）

1700536213

1700536214 其中p(dm,wn)是在第m篇文章dm中，出现单词wn的概率，与上文中的p(w|d)的含义是相同的，只是换了一种符号表达；c(dm,wn)是在第m篇文章dm中，单词wn出现的次数。

1700536215

1700536216 于是，Log似然函数可以写成：

1700536217

1700536218

1700536219 ．

1700536220

1700536221 （6.27）

1700536222

1700536223 在上面的公式中，定义在文章上的主题分布p(zk|dm)和定义在主题上的词分布p(wn|zk)是待估计的参数。我们需要找到最优的参数，使得整个语料库的Log似然函数最大化。由于参数中包含的zk是隐含变量（即无法直接观测到的变量），因此无法用最大似然估计直接求解，可以利用最大期望算法来解决。

1700536224

1700536225 ■ LDA

1700536226

1700536227 LDA可以看作是pLSA的贝叶斯版本，其文本生成过程与pLSA基本相同，不同的是为主题分布和词分布分别加了两个狄利克雷（Dirichlet）先验。为什么要加入狄利克雷先验呢？这就要从频率学派和贝叶斯学派的区别说起。pLSA采用的是频率派思想，将每篇文章对应的主题分布p(zk|dm)和每个主题对应的词分布p(wn|zk)看成确定的未知常数，并可以求解出来；而LDA采用的是贝叶斯学派的思想，认为待估计的参数（主题分布和词分布）不再是一个固定的常数，而是服从一定分布的随机变量。这个分布符合一定的先验概率分布（即狄利克雷分布），并且在观察到样本信息之后，可以对先验分布进行修正，从而得到后验分布。LDA之所以选择狄利克雷分布作为先验分布，是因为它为多项式分布的共轭先验概率分布，后验概率依然服从狄利克雷分布，这样做可以为计算带来便利。图6.11是LDA的图模型，其中α，β分别为两个狄利克雷分布的超参数，为人工设定。

1700536228

1700536229

1700536230

1700536231

1700536232 图6.11　LDA图模型

1700536233

1700536234 语料库的生成过程为：对文本库中的每一篇文档di，采用以下操作

1700536235

1700536236 （1）从超参数为α的狄利克雷分布中抽样生成文档di的主题分布θi。

1700536237

1700536238 （2）对文档di中的每一个词进行以下3个操作。

1700536239

1700536240

1700536241

1700536242 从代表主题的多项式分布θi中抽样生成它所对应的主题zij。

1700536243

1700536244

1700536245 从超参数为β的狄利克雷分布中抽样生成主题zij对应的词分布zij。

1700536246

1700536247

1700536248 从代表词的多项式分布zij中抽样生成词wij。

1700536249

1700536250

1700536251 我们要求解出主题分布θi以及词分布zij的期望，可以用吉布斯采样（Gibbs Sampling）的方式实现。首先随机给定每个单词的主题，然后在其他变量固定的情况下，根据转移概率抽样生成每个单词的新主题。对于每个单词来说，转移概率可以理解为：给定文章中的所有单词以及除自身以外其他所有单词的主题，在此条件下该单词对应为各个新主题的概率。最后，经过反复迭代，我们可以根据收敛后的采样结果计算主题分布和词分布的期望。

1700536252

1700536253 问题2　如何确定LDA模型中的主题个数？

1700536254

1700536255 难度：★★☆☆☆

1700536256

1700536257 分析与解答

1700536258

1700536259 在LDA中，主题的个数K是一个预先指定的超参数。对于模型超参数的选择，实践中的做法一般是将全部数据集分成训练集、验证集、和测试集3部分，然后利用验证集对超参数进行选择。例如，在确定LDA的主题个数时，我们可以随机选取60%的文档组成训练集，另外20%的文档组成验证集，剩下20%的文档组成测试集。在训练时，尝试多组超参数的取值，并在验证集上检验哪一组超参数所对应的模型取得了最好的效果。最终，在验证集上效果最好的一组超参数和其对应的模型将被选定，并在测试集上进行测试。

[ 上一页 ] [ :1.70053621e+09 ] [ 下一页 ]