打字猴:1.700539667e+09

1700539667

1700539668 另一个非常流行的模型是梯度提升决策树，其核心思想是，每一棵树学的是之前所有树结论和的残差，这个残差就是一个加预测值后能得真实值的累加量。

1700539669

1700539670 我们以一个视频网站的用户画像为例，为了将广告定向投放给指定年龄的用户，视频网站需要对每个用户的年龄做出预测。在这个问题中，每个样本是一个已知性别/年龄的用户，而特征则包括这个人访问的时长、时段、观看的视频的类型等。

1700539671

1700539672 例如用户A的真实年龄是25岁，但第一棵决策树的预测年龄是22岁，差了3岁，即残差为3。那么在第二棵树里我们把A的年龄设为3岁去学习，如果第二棵树能把A分到3岁的叶子节点，那两棵树的结果相加就可以得到A的真实年龄；如果第二棵树的结论是5岁，则A仍然存在−2岁的残差，第三棵树里A的年龄就变成−2岁，继续学。这里使用残差继续学习，就是GBDT中Gradient Boosted所表达的意思。

1700539673

1700539674

1700539675

1700539676

1700539677 百面机器学习：算法工程师带你去面试 [:1700532241]

1700539678 百面机器学习：算法工程师带你去面试 03　基分类器

1700539679

1700539680

1700539681

1700539682 场景描述

1700539683

1700539684 基分类器的选择是集成学习主要步骤中的第一步，也是非常重要的一步。到底选择什么样的基分类器，为什么很多集成学习模型都选择决策树作为基分类器，这些都是需要明确的问题，做到知其然，也知其所以然。

1700539685

1700539686 知识点

1700539687

1700539688 方差-偏差关系，随机森林，基分类器

1700539689

1700539690 问题1　常用的基分类器是什么？

1700539691

1700539692 难度：★☆☆☆☆

1700539693

1700539694 分析与解答

1700539695

1700539696 最常用的基分类器是决策树，主要有以下3个方面的原因。

1700539697

1700539698 （1）决策树可以较为方便地将样本的权重整合到训练过程中，而不需要使用过采样的方法来调整样本权重。

1700539699

1700539700 （2）决策树的表达能力和泛化能力，可以通过调节树的层数来做折中。

1700539701

1700539702 （3）数据样本的扰动对于决策树的影响较大，因此不同子样本集合生成的决策树基分类器随机性较大，这样的“不稳定学习器”更适合作为基分类器。此外，在决策树节点分裂的时候，随机地选择一个特征子集，从中找出最优分裂属性，很好地引入了随机性。

1700539703

1700539704 除了决策树外，神经网络模型也适合作为基分类器，主要由于神经网络模型也比较“不稳定”，而且还可以通过调整神经元数量、连接方式、网络层数、初始权值等方式引入随机性。

1700539705

1700539706 问题2　可否将随机森林中的基分类器，由决策树替换为线性分类器或K-近邻？请解释为什么？

1700539707

1700539708 难度：★★☆☆☆

1700539709

1700539710 分析与解答

1700539711

1700539712 随机森林属于Bagging类的集成学习。Bagging的主要好处是集成后的分类器的方差，比基分类器的方差小。Bagging所采用的基分类器，最好是本身对样本分布较为敏感的（即所谓不稳定的分类器），这样Bagging才能有用武之地。线性分类器或者K-近邻都是较为稳定的分类器，本身方差就不大，所以以它们为基分类器使用Bagging并不能在原有基分类器的基础上获得更好的表现，甚至可能因为Bagging的采样，而导致他们在训练中更难收敛，从而增大了集成分类器的偏差。

1700539713

1700539714

1700539715

1700539716

[ 上一页 ] [ :1.700539667e+09 ] [ 下一页 ]