打字猴:1.7005331e+09

1700533100 给定原始输入该如何有效地构造决策树呢？可以采用梯度提升决策树，该方法的思想是每次都在之前构建的决策树的残差上构建下一棵决策树。对梯度提升决策树感兴趣的读者可以参考第12章的具体内容，也可以阅读参考文献[2]。

1700533101

1700533102

1700533103

1700533104

1700533105 百面机器学习：算法工程师带你去面试 [:1700532172]

1700533106 百面机器学习：算法工程师带你去面试 05　文本表示模型

1700533107

1700533108

1700533109

1700533110 场景描述

1700533111

1700533112 文本是一类非常重要的非结构化数据，如何表示文本数据一直是机器学习领域的一个重要研究方向。

1700533113

1700533114 知识点

1700533115

1700533116 词袋模型（Bag of Words），TF-IDF（Term Frequency-Inverse Document Frequency），主题模型（Topic Model），词嵌入模型（Word Embedding）

1700533117

1700533118 问题　有哪些文本表示模型？它们各有什么优缺点？

1700533119

1700533120 难度：★★☆☆☆

1700533121

1700533122 分析与解答

1700533123

1700533124 ■ 词袋模型和N-gram模型

1700533125

1700533126 最基础的文本表示模型是词袋模型。顾名思义，就是将每篇文章看成一袋子词，并忽略每个词出现的顺序。具体地说，就是将整段文本以词为单位切分开，然后每篇文章可以表示成一个长向量，向量中的每一维代表一个单词，而该维对应的权重则反映了这个词在原文章中的重要程度。常用TF-IDF来计算权重，公式为

1700533127

1700533128 TF-IDF(t,d)=TF(t,d)×IDF(t) ，

1700533129

1700533130 （1.5）

1700533131

1700533132 其中TF(t,d)为单词t在文档d中出现的频率，IDF(t)是逆文档频率，用来衡量单词t对表达语义所起的重要性，表示为

1700533133

1700533134

1700533135 IDF(t)=log ．

1700533136

1700533137 （1.6）

1700533138

1700533139 直观的解释是，如果一个单词在非常多的文章里面都出现，那么它可能是一个比较通用的词汇，对于区分某篇文章特殊语义的贡献较小，因此对权重做一定惩罚。

1700533140

1700533141 将文章进行单词级别的划分有时候并不是一种好的做法，比如英文中的natural language processing（自然语言处理）一词，如果将natural，language，processing这3个词拆分开来，所表达的含义与三个词连续出现时大相径庭。通常，可以将连续出现的n个词（n≤N）组成的词组（N-gram）也作为一个单独的特征放到向量表示中去，构成N-gram模型。另外，同一个词可能有多种词性变化，却具有相似的含义。在实际应用中，一般会对单词进行词干抽取（Word Stemming）处理，即将不同词性的单词统一成为同一词干的形式。

1700533142

1700533143 ■ 主题模型

1700533144

1700533145 主题模型用于从文本库中发现有代表性的主题（得到每个主题上面词的分布特性），并且能够计算出每篇文章的主题分布，具体细节参见第6章第5节。

1700533146

1700533147 ■ 词嵌入与深度学习模型

1700533148

1700533149 词嵌入是一类将词向量化的模型的统称，核心思想是将每个词都映射成低维空间（通常K=50～300维）上的一个稠密向量（Dense Vector）。K维空间的每一维也可以看作一个隐含的主题，只不过不像主题模型中的主题那样直观。

[ 上一页 ] [ :1.7005331e+09 ] [ 下一页 ]