打字猴:1.70053616e+09
1700536160 逸闻趣事 
1700536161
1700536162  
1700536163
1700536164 贝叶斯理论与“上帝的存在”
1700536165
1700536166 提起贝叶斯学派和频率学派贯穿一个世纪的辩论,统计和机器学习背景的同学不可谓不熟悉,但如果追根溯源,讲起贝叶斯“开宗立派”的初衷,确实还是一个很有意思的故事。因为贝叶斯提出贝叶斯理论,最初竟是为了证明“上帝的存在”。
1700536167
1700536168 生活在18世纪的贝叶斯本职工作是一位英格兰长老会的牧师,1763年,贝叶斯发表论文《论有关机遇问题的求解》,奠定了贝叶斯统计理论的基础。在这篇文章中,贝叶斯提出了解决框架,就是用不断增加的信息和经验,可以逐步逼近未知的真相或理解未知,并给出了算法。但贝叶斯关注的原始问题的表述是这样的,人能不能根据凡人世界的经验和现实世界的证据来证明上帝的存在。因为宗教人士的逻辑就是基于上帝存在的主要证据,能够认识机遇的规律,几乎等同于证明上帝的存在。
1700536169
1700536170 其实17世纪—18世纪,大量数学家、物理学家、哲学家的研究都与神学有千丝万缕的联系。1687年,艾萨克·牛顿惊世骇俗的著作《自然哲学的数学原理》一书出版,文中牛顿也花了大量的篇幅总结写这本书的原因,那就是为了找寻到上帝是如何构建世界的真相,或者说上帝是基于哪几个法则来构建世界的。牛顿是个虔诚的新教徒,很多人被一些观点迷惑了,认为牛顿是晚年才相信上帝的,这是错的。牛顿是自幼就信封上帝。他在这本书里尽可能用古典几何学的办法来描述微积分。由此看出,古希腊数学家用数学探索世界,而牛顿是打算像古希腊数学家那样,用数学来探索上帝。
1700536171
1700536172 但殊途同归,不管初衷是怎样,贝叶斯和牛顿最终都为所在的领域甚至全人类的发展做出了杰出的贡献。而人类对于“上帝”的认识也更趋理性和全面。
1700536173
1700536174
1700536175
1700536176
1700536177 百面机器学习:算法工程师带你去面试 [:1700532202]
1700536178 百面机器学习:算法工程师带你去面试 05 主题模型
1700536179
1700536180
1700536181
1700536182 场景描述
1700536183
1700536184 基于词袋模型或N-gram模型的文本表示模型有一个明显的缺陷,就是无法识别出两个不同的词或词组具有相同的主题。因此,需要一种技术能够将具有相同主题的词或词组映射到同一维度上去,于是产生了主题模型。主题模型是一种特殊的概率图模型。想象一下我们如何判定两个不同的词具有相同的主题呢?这两个词可能有更高的概率同时出现在同一篇文档中;换句话说,给定某一主题,这两个词的产生概率都是比较高的,而另一些不太相关的词汇产生的概率则是较低的。假设有K个主题,我们就把任意文章表示成一个K维的主题向量,其中向量的每一维代表一个主题,权重代表这篇文章属于这个特定主题的概率。主题模型所解决的事情,就是从文本库中发现有代表性的主题(得到每个主题上面词的分布),并且计算出每篇文章对应着哪些主题。
1700536185
1700536186 知识点
1700536187
1700536188 pLSA(Probabilistic Latent Semantic Analysis),LDA(Latent Dirichlet Allocation)
1700536189
1700536190 问题1 常见的主题模型有哪些?试介绍其原理。
1700536191
1700536192 难度:★★☆☆☆
1700536193
1700536194 分析与解答
1700536195
1700536196 ■ pLSA
1700536197
1700536198 pLSA是用一个生成模型来建模文章的生成过程。假设有K个主题,M篇文章;对语料库中的任意文章d,假设该文章有N个词,则对于其中的每一个词,我们首先选择一个主题z,然后在当前主题的基础上生成一个词w。图6.10是pLSA图模型。
1700536199
1700536200
1700536201
1700536202
1700536203 图6.10 pLSA图模型
1700536204
1700536205
1700536206
1700536207 生成主题z和词w的过程遵照一个确定的概率分布。设在文章d中生成主题z的概率为p(z|d),在选定主题的条件下生成词w的概率为p(w|z),则给定文章d,生成词w的概率可以写成:。在这里我们做一个简化,假设给定主题z的条件下,生成词w的概率是与特定的文章无关的,则公式可以简化为:。整个语料库中的文本生成概率可以用似然函数表示为
1700536208
1700536209
[ 上一页 ]  [ :1.70053616e+09 ]  [ 下一页 ]