打字猴:1.70053771e+09
1700537710
1700537711
1700537712
1700537713 图8.14 SMOTE算法
1700537714
1700537715 SMOTE算法为每个少数类样本合成相同数量的新样本,这可能会增大类间重叠度,并且会生成一些不能提供有益信息的样本。为此出现Borderline-SMOTE、ADASYN等改进算法。Borderline-SMOTE只给那些处在分类边界上的少数类样本合成新样本,而ADASYN则给不同的少数类样本合成不同个数的新样本。此外,还可以采用一些数据清理方法(如基于Tomek Links)来进一步降低合成样本带来的类间重叠,以得到更加良定义(well-defined)的类簇,从而更好地训练分类器。
1700537716
1700537717 同样地,对于欠采样,可以采用Informed Undersampling来解决由于随机欠采样带来的数据丢失问题。常见的Informed Undersampling算法有:
1700537718
1700537719 (1)Easy Ensemble算法。 每次从多数类Smaj中上随机抽取一个子集E(|E|≈|Smin|),然后用E+Smin训练一个分类器;重复上述过程若干次,得到多个分类器,最终的分类结果是这多个分类器结果的融合。
1700537720
1700537721 (2)Balance Cascade算法。级联结构,在每一级中从多数类Smaj中随机抽取子集E,用E+Smin训练该级的分类器;然后将Smaj中能够被当前分类器正确判别的样本剔除掉,继续下一级的操作,重复若干次得到级联结构;最终的输出结果也是各级分类器结果的融合。
1700537722
1700537723 (3)其他诸如NearMiss(利用K近邻信息挑选具有代表性的样本)、One-sided Selection(采用数据清理技术)等算法。
1700537724
1700537725 在实际应用中,具体的采样操作可能并不总是如上述几个算法一样,但基本思路很多时候还是一致的。例如,基于聚类的采样方法,利用数据的类簇信息来指导过采样/欠采样操作;经常用到的数据扩充方法也是一种过采样,对少数类样本进行一些噪声扰动或变换(如图像数据集中对图片进行裁剪、翻转、旋转、加光照等)以构造出新的样本;而Hard Negative Mining则是一种欠采样,把比较难的样本抽出来用于迭代分类器。
1700537726
1700537727 ■ 基于算法的方法
1700537728
1700537729 在样本不均衡时,也可以通过改变模型训练时的目标函数(如代价敏感学习中不同类别有不同的权重)来矫正这种不平衡性;当样本数目极其不均衡时,也可以将问题转化为单类学习(one-class learning)、异常检测(anomaly detection)。本节主要关注采样,不再赘述。
1700537730
1700537731 ·总结与扩展·
1700537732
1700537733 在实际面试时,这道题还有很多可扩展的知识点。例如,模型在不均衡样本集上的评价标准;不同样本量(绝对数值)下如何选择合适的处理方法(考虑正负样本比例为1∶100和1000∶100000的区别);代价敏感学习和采样方法的区别、联系以及效果对比等。
1700537734
1700537735
1700537736
1700537737
1700537738 百面机器学习:算法工程师带你去面试 [:1700532219]
1700537739 百面机器学习:算法工程师带你去面试 第9章 前向神经网络
1700537740
1700537741 深度前馈网络(Deep Feedforward Networks)是一种典型的深度学习模型。其目标为拟合某个函数f,即定义映射y=f (x;θ)将输入x转化为某种预测的输出y,并同时学习网络参数θ的值,使模型得到最优的函数近似。由于从输入到输出的过程中不存在与模型自身的反馈连接,此类模型被称为“前馈”。
1700537742
1700537743 深度前馈网络通常由多个函数复合在一起来表示,该模型与一个有向无环图相关联,其中图则描述了函数的复合方式,例如“链式结构”f (x)=f(3)( f(2)( f(1)(x)))。链的全长定义为网络模型的“深度”。假设真实的函数为f (x),在神经网络的过程中,我们试图令f (x)拟合f (x)的值,而训练数据则提供在不同训练点上取值的f (x)的近似实例(可能包含噪声),即每个样本x伴随一个标签y≈f (x),指明输出层必须产生接近标签的值;而网络学习算法则需要决定如何使用中间的“隐藏层”来最优的实现f*的近似。
1700537744
1700537745 深度前馈网络是一类网络模型的统称,我们常见的多层感知机、自编码器、限制玻尔兹曼机,以及卷积神经网络等,都是其中的成员。
1700537746
1700537747
1700537748
1700537749
1700537750 百面机器学习:算法工程师带你去面试 [:1700532220]
1700537751 百面机器学习:算法工程师带你去面试 01 多层感知机与布尔函数
1700537752
1700537753
1700537754
1700537755 场景描述
1700537756
1700537757 神经网络概念的诞生很大程度上受到了神经科学的启发。生物学研究表明,大脑皮层的感知与计算功能是分层实现的,例如视觉图像,首先光信号进入大脑皮层的V1区,即初级视皮层,之后依次通过V2层和V4层,即纹外皮层,进入下颞叶参与物体识别。深度神经网络,除了模拟人脑功能的多层结构,最大的优势在于能够以紧凑、简洁的方式来表达比浅层网络更复杂的函数集合(这里的“简洁”可定义为隐层单元的数目与输入单元的数目呈多项式关系)。我们的问题将从一个简单的例子引出,已知神经网络中每个节点都可以进行“逻辑与/或/非”的运算,如何构造一个多层感知机(Multi-Layer Perceptron,MLP)网络实现n个输入比特的奇偶校验码(任意布尔函数)?
1700537758
1700537759 知识点
[ 上一页 ]  [ :1.70053771e+09 ]  [ 下一页 ]