打字猴:1.700536227e+09

1700536227 LDA可以看作是pLSA的贝叶斯版本，其文本生成过程与pLSA基本相同，不同的是为主题分布和词分布分别加了两个狄利克雷（Dirichlet）先验。为什么要加入狄利克雷先验呢？这就要从频率学派和贝叶斯学派的区别说起。pLSA采用的是频率派思想，将每篇文章对应的主题分布p(zk|dm)和每个主题对应的词分布p(wn|zk)看成确定的未知常数，并可以求解出来；而LDA采用的是贝叶斯学派的思想，认为待估计的参数（主题分布和词分布）不再是一个固定的常数，而是服从一定分布的随机变量。这个分布符合一定的先验概率分布（即狄利克雷分布），并且在观察到样本信息之后，可以对先验分布进行修正，从而得到后验分布。LDA之所以选择狄利克雷分布作为先验分布，是因为它为多项式分布的共轭先验概率分布，后验概率依然服从狄利克雷分布，这样做可以为计算带来便利。图6.11是LDA的图模型，其中α，β分别为两个狄利克雷分布的超参数，为人工设定。

1700536228

1700536229

1700536230

1700536231

1700536232 图6.11　LDA图模型

1700536233

1700536234 语料库的生成过程为：对文本库中的每一篇文档di，采用以下操作

1700536235

1700536236 （1）从超参数为α的狄利克雷分布中抽样生成文档di的主题分布θi。

1700536237

1700536238 （2）对文档di中的每一个词进行以下3个操作。

1700536239

1700536240

1700536241

1700536242 从代表主题的多项式分布θi中抽样生成它所对应的主题zij。

1700536243

1700536244

1700536245 从超参数为β的狄利克雷分布中抽样生成主题zij对应的词分布zij。

1700536246

1700536247

1700536248 从代表词的多项式分布zij中抽样生成词wij。

1700536249

1700536250

1700536251 我们要求解出主题分布θi以及词分布zij的期望，可以用吉布斯采样（Gibbs Sampling）的方式实现。首先随机给定每个单词的主题，然后在其他变量固定的情况下，根据转移概率抽样生成每个单词的新主题。对于每个单词来说，转移概率可以理解为：给定文章中的所有单词以及除自身以外其他所有单词的主题，在此条件下该单词对应为各个新主题的概率。最后，经过反复迭代，我们可以根据收敛后的采样结果计算主题分布和词分布的期望。

1700536252

1700536253 问题2　如何确定LDA模型中的主题个数？

1700536254

1700536255 难度：★★☆☆☆

1700536256

1700536257 分析与解答

1700536258

1700536259 在LDA中，主题的个数K是一个预先指定的超参数。对于模型超参数的选择，实践中的做法一般是将全部数据集分成训练集、验证集、和测试集3部分，然后利用验证集对超参数进行选择。例如，在确定LDA的主题个数时，我们可以随机选取60%的文档组成训练集，另外20%的文档组成验证集，剩下20%的文档组成测试集。在训练时，尝试多组超参数的取值，并在验证集上检验哪一组超参数所对应的模型取得了最好的效果。最终，在验证集上效果最好的一组超参数和其对应的模型将被选定，并在测试集上进行测试。

1700536260

1700536261 为了衡量LDA模型在验证集和测试集上的效果，需要寻找一个合适的评估指标。一个常用的评估指标是困惑度（perplexity）。在文档集合D上，模型的困惑度被定义为

1700536262

1700536263

1700536264 ，

1700536265

1700536266 （6.28）

1700536267

1700536268 其中M为文档的总数，wd为文档d中单词所组成的词袋向量，p(wd)为模型所预测的文档d的生成概率，Nd为文档d中单词的总数。

1700536269

1700536270 一开始，随着主题个数的增多，模型在训练集和验证集的困惑度呈下降趋势，但是当主题数目足够大的时候，会出现过拟合，导致困惑度指标在训练集上继续下降但在验证集上反而增长。这时，可以取验证集的困惑度极小值点所对应的主题个数作为超参数。在实践中，困惑度的极小值点可能出现在主题数目非常大的时候，然而实际应用并不能承受如此大的主题数目，这时就需要在实际应用中合理的主题数目范围内进行选择，比如选择合理范围内困惑度的下降明显变慢（拐点）的时候。

1700536271

1700536272 另外一种方法是在LDA基础之上融入分层狄利克雷过程（Hierarchical Dirichlet Process，HDP），构成一种非参数主题模型HDP-LDA。非参数主题模型的好处是不需要预先指定主题的个数，模型可以随着文档数目的变化而自动对主题个数进行调整；它的缺点是在LDA基础上融入HDP之后使得整个概率图模型更加复杂，训练速度也更加缓慢，因此在实际应用中还是经常采用第一种方法确定合适的主题数目。

1700536273

1700536274 问题3　如何用主题模型解决推荐系统中的冷启动问题？

1700536275

1700536276 难度：★★★☆☆

[ 上一页 ] [ :1.700536227e+09 ] [ 下一页 ]