1700539680
1700539681
1700539682
场景描述
1700539683
1700539684
基分类器的选择是集成学习主要步骤中的第一步,也是非常重要的一步。到底选择什么样的基分类器,为什么很多集成学习模型都选择决策树作为基分类器,这些都是需要明确的问题,做到知其然,也知其所以然。
1700539685
1700539686
知识点
1700539687
1700539688
方差-偏差关系,随机森林,基分类器
1700539689
1700539690
问题1 常用的基分类器是什么?
1700539691
1700539692
难度:★☆☆☆☆
1700539693
1700539694
分析与解答
1700539695
1700539696
最常用的基分类器是决策树,主要有以下3个方面的原因。
1700539697
1700539698
(1)决策树可以较为方便地将样本的权重整合到训练过程中,而不需要使用过采样的方法来调整样本权重。
1700539699
1700539700
(2)决策树的表达能力和泛化能力,可以通过调节树的层数来做折中。
1700539701
1700539702
(3)数据样本的扰动对于决策树的影响较大,因此不同子样本集合生成的决策树基分类器随机性较大,这样的“不稳定学习器”更适合作为基分类器。此外,在决策树节点分裂的时候,随机地选择一个特征子集,从中找出最优分裂属性,很好地引入了随机性。
1700539703
1700539704
除了决策树外,神经网络模型也适合作为基分类器,主要由于神经网络模型也比较“不稳定”,而且还可以通过调整神经元数量、连接方式、网络层数、初始权值等方式引入随机性。
1700539705
1700539706
问题2 可否将随机森林中的基分类器,由决策树替换为线性分类器或K-近邻?请解释为什么?
1700539707
1700539708
难度:★★☆☆☆
1700539709
1700539710
分析与解答
1700539711
1700539712
随机森林属于Bagging类的集成学习。Bagging的主要好处是集成后的分类器的方差,比基分类器的方差小。Bagging所采用的基分类器,最好是本身对样本分布较为敏感的(即所谓不稳定的分类器),这样Bagging才能有用武之地。线性分类器或者K-近邻都是较为稳定的分类器,本身方差就不大,所以以它们为基分类器使用Bagging并不能在原有基分类器的基础上获得更好的表现,甚至可能因为Bagging的采样,而导致他们在训练中更难收敛,从而增大了集成分类器的偏差。
1700539713
1700539714
1700539715
1700539716
1700539718
百面机器学习:算法工程师带你去面试 04 偏差与方差
1700539719
1700539720
1700539721
1700539722
场景描述
1700539723
1700539724
我们经常用过拟合、欠拟合来定性地描述模型是否很好地解决了特定的问题。从定量的角度来说,可以用模型的偏差(Bias)与方差(Variance)来描述模型的性能。集成学习往往能够“神奇”地提升弱分类器的性能。本节将从偏差和方差的角度去解释这背后的机理。
1700539725
1700539726
什么是模型的偏差和方差,Boosting和Bagging方法与偏差和方差的关系是什么,通过回答这些问题,我们将介绍如何根据偏差和方差这两个指标来指导模型的优化和改进。
1700539727
1700539728
知识点
1700539729
[
上一页 ]
[ :1.70053968e+09 ]
[
下一页 ]