打字猴:1.700536227e+09
1700536227 LDA可以看作是pLSA的贝叶斯版本,其文本生成过程与pLSA基本相同,不同的是为主题分布和词分布分别加了两个狄利克雷(Dirichlet)先验。为什么要加入狄利克雷先验呢?这就要从频率学派和贝叶斯学派的区别说起。pLSA采用的是频率派思想,将每篇文章对应的主题分布p(zk|dm)和每个主题对应的词分布p(wn|zk)看成确定的未知常数,并可以求解出来;而LDA采用的是贝叶斯学派的思想,认为待估计的参数(主题分布和词分布)不再是一个固定的常数,而是服从一定分布的随机变量。这个分布符合一定的先验概率分布(即狄利克雷分布),并且在观察到样本信息之后,可以对先验分布进行修正,从而得到后验分布。LDA之所以选择狄利克雷分布作为先验分布,是因为它为多项式分布的共轭先验概率分布,后验概率依然服从狄利克雷分布,这样做可以为计算带来便利。图6.11是LDA的图模型,其中α,β分别为两个狄利克雷分布的超参数,为人工设定。
1700536228
1700536229
1700536230
1700536231
1700536232 图6.11 LDA图模型
1700536233
1700536234 语料库的生成过程为:对文本库中的每一篇文档di,采用以下操作
1700536235
1700536236 (1)从超参数为α的狄利克雷分布中抽样生成文档di的主题分布θi。
1700536237
1700536238 (2)对文档di中的每一个词进行以下3个操作。
1700536239
1700536240  
1700536241
1700536242 从代表主题的多项式分布θi中抽样生成它所对应的主题zij。
1700536243
1700536244
1700536245 从超参数为β的狄利克雷分布中抽样生成主题zij对应的词分布zij。
1700536246
1700536247
1700536248 从代表词的多项式分布zij中抽样生成词wij。
1700536249
1700536250
1700536251 我们要求解出主题分布θi以及词分布zij的期望,可以用吉布斯采样(Gibbs Sampling)的方式实现。首先随机给定每个单词的主题,然后在其他变量固定的情况下,根据转移概率抽样生成每个单词的新主题。对于每个单词来说,转移概率可以理解为:给定文章中的所有单词以及除自身以外其他所有单词的主题,在此条件下该单词对应为各个新主题的概率。最后,经过反复迭代,我们可以根据收敛后的采样结果计算主题分布和词分布的期望。
1700536252
1700536253 问题2 如何确定LDA模型中的主题个数?
1700536254
1700536255 难度:★★☆☆☆
1700536256
1700536257 分析与解答
1700536258
1700536259 在LDA中,主题的个数K是一个预先指定的超参数。对于模型超参数的选择,实践中的做法一般是将全部数据集分成训练集、验证集、和测试集3部分,然后利用验证集对超参数进行选择。例如,在确定LDA的主题个数时,我们可以随机选取60%的文档组成训练集,另外20%的文档组成验证集,剩下20%的文档组成测试集。在训练时,尝试多组超参数的取值,并在验证集上检验哪一组超参数所对应的模型取得了最好的效果。最终,在验证集上效果最好的一组超参数和其对应的模型将被选定,并在测试集上进行测试。
1700536260
1700536261 为了衡量LDA模型在验证集和测试集上的效果,需要寻找一个合适的评估指标。一个常用的评估指标是困惑度(perplexity)。在文档集合D上,模型的困惑度被定义为
1700536262
1700536263
1700536264
1700536265
1700536266 (6.28)
1700536267
1700536268 其中M为文档的总数,wd为文档d中单词所组成的词袋向量,p(wd)为模型所预测的文档d的生成概率,Nd为文档d中单词的总数。
1700536269
1700536270 一开始,随着主题个数的增多,模型在训练集和验证集的困惑度呈下降趋势,但是当主题数目足够大的时候,会出现过拟合,导致困惑度指标在训练集上继续下降但在验证集上反而增长。这时,可以取验证集的困惑度极小值点所对应的主题个数作为超参数。在实践中,困惑度的极小值点可能出现在主题数目非常大的时候,然而实际应用并不能承受如此大的主题数目,这时就需要在实际应用中合理的主题数目范围内进行选择,比如选择合理范围内困惑度的下降明显变慢(拐点)的时候。
1700536271
1700536272 另外一种方法是在LDA基础之上融入分层狄利克雷过程(Hierarchical Dirichlet Process,HDP),构成一种非参数主题模型HDP-LDA。非参数主题模型的好处是不需要预先指定主题的个数,模型可以随着文档数目的变化而自动对主题个数进行调整;它的缺点是在LDA基础上融入HDP之后使得整个概率图模型更加复杂,训练速度也更加缓慢,因此在实际应用中还是经常采用第一种方法确定合适的主题数目。
1700536273
1700536274 问题3 如何用主题模型解决推荐系统中的冷启动问题?
1700536275
1700536276 难度:★★★☆☆
[ 上一页 ]  [ :1.700536227e+09 ]  [ 下一页 ]