1700537660
1700537661
图8.12 似然加权采样示例图
1700537662
1700537663
除此之外,还可以用MCMC采样法来进行采样。具体来说,如果采用Metropolis-Hastings采样法的话,如图8.13所示,只需要在随机向量(Cloudy, Rain)上选择一个概率转移矩阵,然后按照概率转移矩阵不断进行状态转换,每次转移有一定概率的接受或拒绝,最终得到的样本序列会收敛到目标分布。最简单的概率转移矩阵可以是:每次独立地随机选择(Cloudy, Rain)的四种状态之一。如果采用吉布斯采样法的话,根据条件概率p(Cloudy|Rain, Sprinkler, WetGrass)和p(Rain|Cloudy, Sprinkler, WetGrass),每次只对(Cloudy, Rain)中的一个变量进行采样,交替进行即可。
1700537664
1700537665
1700537666
1700537667
1700537668
图8.13 用Metropolis-Hastings采样法对贝叶斯网络进行采样
1700537669
1700537670
·总结与扩展·
1700537671
1700537672
本节还有一些相关的扩展问题,例如,如果是连续型随机变量,或者是无向图模型(即马尔可夫随机场,Markov Random Field),上述方法有哪些不适用,哪些仍然适用?具体该如何采样?
1700537673
1700537674
1700537675
1700537676
1700537678
百面机器学习:算法工程师带你去面试 07 不均衡样本集的重采样
1700537679
1700537680
1700537681
1700537682
场景描述
1700537683
1700537684
在训练二分类模型时,例如医疗诊断、网络入侵检测、信用卡反诈骗等,经常会遇到正负样本不均衡的问题。对于很多分类算法,如果直接采用不均衡的样本集来进行训练学习,会存在一些问题。例如,如果正负样本比例达到1∶99,则分类器简单地将所有样本都判为负样本就能达到99%的正确率,显然这并不是我们想要的,我们想让分类器在正样本和负样本上都有足够的准确率和召回率。
1700537685
1700537686
知识点
1700537687
1700537688
采样,数据扩充
1700537689
1700537690
问题 对于二分类问题,当训练集中正负样本非常不均衡时,如何处理数据以更好地训练分类模型?
1700537691
1700537692
难度:★★★☆☆
1700537693
1700537694
分析与解答
1700537695
1700537696
为什么很多分类模型在训练数据不均衡时会出现问题?本质原因是模型在训练时优化的目标函数和人们在测试时使用的评价标准不一致。这种“不一致”可能是由于训练数据的样本分布与测试时期望的样本分布不一致,例如,在训练时优化的是整个训练集(正负样本比例可能是1∶99)的正确率,而测试时可能想要模型在正样本和负样本上的平均正确率尽可能大(实际上是期望正负样本比例为1∶1);也可能是由于训练阶段不同类别的权重(重要性)与测试阶段不一致,例如训练时认为所有样本的贡献是相等的,而测试时假阳性样本(False Positive)和伪阴性样本(False Negative)有着不同的代价。
1700537697
1700537698
根据上述分析,一般可以从两个角度来处理样本不均衡问题[17]。
1700537699
1700537700
■ 基于数据的方法
1700537701
1700537702
对数据进行重采样,使原本不均衡的样本变得均衡。首先,记样本数大的类别为Cmaj,样本数小的类别为Cmin,它们对应的样本集分别为Smaj和Smin。根据题设,有|Smaj|>>|Smin。
1700537703
1700537704
最简单的处理不均衡样本集的方法是随机采样。采样一般分为过采样(Over-sampling)和欠采样(Under-sampling)。随机过采样是从少数类样本集Smin中随机重复抽取样本(有放回)以得到更多样本;随机欠采样则相反,从多数类样本集Smaj中随机选取较少的样本(有放回或无放回)。
1700537705
1700537706
直接的随机采样虽然可以使样本集变得均衡,但会带来一些问题,比如,过采样对少数类样本进行了多次复制,扩大了数据规模,增加了模型训练的复杂度,同时也容易造成过拟合;欠采样会丢弃一些样本,可能会损失部分有用信息,造成模型只学到了整体模式的一部分。
1700537707
1700537708
为了解决上述问题,通常在过采样时并不是简单地复制样本,而是采用一些方法生成新的样本。例如,SMOTE算法对少数类样本集Smin中每个样本x,从它在Smin中的K近邻中随机选一个样本y,然后在x,y连线上随机选取一点作为新合成的样本(根据需要的过采样倍率重复上述过程若干次),如图8.14所示。这种合成新样本的过采样方法可以降低过拟合的风险。
1700537709
[
上一页 ]
[ :1.70053766e+09 ]
[
下一页 ]