打字猴:1.700539692e+09

1700539692 难度：★☆☆☆☆

1700539693

1700539694 分析与解答

1700539695

1700539696 最常用的基分类器是决策树，主要有以下3个方面的原因。

1700539697

1700539698 （1）决策树可以较为方便地将样本的权重整合到训练过程中，而不需要使用过采样的方法来调整样本权重。

1700539699

1700539700 （2）决策树的表达能力和泛化能力，可以通过调节树的层数来做折中。

1700539701

1700539702 （3）数据样本的扰动对于决策树的影响较大，因此不同子样本集合生成的决策树基分类器随机性较大，这样的“不稳定学习器”更适合作为基分类器。此外，在决策树节点分裂的时候，随机地选择一个特征子集，从中找出最优分裂属性，很好地引入了随机性。

1700539703

1700539704 除了决策树外，神经网络模型也适合作为基分类器，主要由于神经网络模型也比较“不稳定”，而且还可以通过调整神经元数量、连接方式、网络层数、初始权值等方式引入随机性。

1700539705

1700539706 问题2　可否将随机森林中的基分类器，由决策树替换为线性分类器或K-近邻？请解释为什么？

1700539707

1700539708 难度：★★☆☆☆

1700539709

1700539710 分析与解答

1700539711

1700539712 随机森林属于Bagging类的集成学习。Bagging的主要好处是集成后的分类器的方差，比基分类器的方差小。Bagging所采用的基分类器，最好是本身对样本分布较为敏感的（即所谓不稳定的分类器），这样Bagging才能有用武之地。线性分类器或者K-近邻都是较为稳定的分类器，本身方差就不大，所以以它们为基分类器使用Bagging并不能在原有基分类器的基础上获得更好的表现，甚至可能因为Bagging的采样，而导致他们在训练中更难收敛，从而增大了集成分类器的偏差。

1700539713

1700539714

1700539715

1700539716

1700539717 百面机器学习：算法工程师带你去面试 [:1700532242]

1700539718 百面机器学习：算法工程师带你去面试 04　偏差与方差

1700539719

1700539720

1700539721

1700539722 场景描述

1700539723

1700539724 我们经常用过拟合、欠拟合来定性地描述模型是否很好地解决了特定的问题。从定量的角度来说，可以用模型的偏差（Bias）与方差（Variance）来描述模型的性能。集成学习往往能够“神奇”地提升弱分类器的性能。本节将从偏差和方差的角度去解释这背后的机理。

1700539725

1700539726 什么是模型的偏差和方差，Boosting和Bagging方法与偏差和方差的关系是什么，通过回答这些问题，我们将介绍如何根据偏差和方差这两个指标来指导模型的优化和改进。

1700539727

1700539728 知识点

1700539729

1700539730 偏差，方差，重采样，Boosting，Bagging

1700539731

1700539732 问题1　什么是偏差和方差？

1700539733

1700539734 难度：★★☆☆☆

1700539735

1700539736 分析与解答

1700539737

1700539738 在有监督学习中，模型的泛化误差来源于两个方面——偏差和方差，具体来讲偏差和方差的定义如下：

1700539739

1700539740 偏差指的是由所有采样得到的大小为m的训练数据集训练出的所有模型的输出的平均值和真实模型输出之间的偏差。偏差通常是由于我们对学习算法做了错误的假设所导致的，比如真实模型是某个二次函数，但我们假设模型是一次函数。由偏差带来的误差通常在训练误差上就能体现出来。

1700539741

[ 上一页 ] [ :1.700539692e+09 ] [ 下一页 ]