1700501251
❑可以作为查找异常值的有效工具。那些与多元线性回归方程的预测值相差太大的观察值通常值得进一步考察,确定其是否是异常值。
1700501252
1700501253
1700501254
1700501255
1700501257
数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.4.3 线性回归应用中的注意事项
1700501258
1700501259
线性回归应用中的注意事项如下:
1700501260
1700501261
❑算法对于噪声和异常值比较敏感。因此,在实践应用中,回归之前应该努力消除噪声和异常值,确保模型的稳定和准确度。
1700501262
1700501263
❑该算法只适合处理线性关系,如果自变量与目标变量之间有比较强烈的非线性关系,直接利用多元线性回归是不合适的。不过,在这种情况下,可以尝试对自变量进行一定的转换,比如取对数、开平方、取平方根等,尝试用多种不同的运算进行转换。
1700501264
1700501265
❑多元线性回归的应用还有一些前提假设:自变量是确定的变量,而不是随机变量,并且自变量之间是没有线性相关性的;随机误差项具有均值为0和等方差性;随机误差呈正态分布等。
1700501266
1700501267
1700501268
1700501269
1700501271
数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.5 模型的过拟合及对策
1700501272
1700501273
模型的过拟合(Over Fitting)是指模型在训练集里的表现让人非常满意,但是一旦应用到真实业务实践中,效果会大打折扣。换成学术化语言描述,就是模型对样本数据拟合得非常好,但是对于样本数据外的应用数据,拟合效果非常差。在数据分析挖掘业务实践中,即为模型搭建时的表现看上去非常好,但是应用到具体业务实践时,模型的效果显著下降,包括准确率、精度、效果等都显著下降了。
1700501274
1700501275
过拟合现象是数据挖掘中常见的一种挫折,尤其是在预测响应(分类)模型的应用场景里。在模型的实践应用中如果发生了模型的过拟合,不仅会大幅度降低模型的效果和效率,也会严重浪费运营业务资源,同时,还会严重打击数据分析师的自信心和影响力。所以,数据分析师应该比较清楚地了解过拟合产生的主要原因以及可以采用的相应措施,尽量去避免过拟合的发生。
1700501276
1700501277
总的来说,过拟合产生的主要原因如下:
1700501278
1700501279
❑建模样本抽取错误。包括但不限于样本数量太少,抽样方法错误,抽样时没有足够正确地考虑业务场景或业务特点等,以致抽出的样本数据不能足够有效地代表业务逻辑或业务场景。
1700501280
1700501281
❑样本里的噪声数据干扰过大。样本噪声大到模型过分记住了噪声特征,反而忽略了真实的输入输出间的关系。
1700501282
1700501283
❑在决策树模型的搭建过程中,如果对于决策树的生长没有合理的限制和修剪,由着决策树自由的生长,那有可能会使每片叶子里只包含单纯的事件数据(Event)或非事件数据(No Event)。可以想象,这种决策树当然是可以完美匹配(拟合)训练数据的,但是一旦应用到新的业务真实数据中,效果就会一塌糊涂。
1700501284
1700501285
❑建模时的逻辑假设到了应用模型时已经不能成立了。任何预测模型都是在假设的基础上才可以搭建和应用的,常用的假设包括:假设历史数据可以推测未来,假设业务环节没有发生显著变化,假设建模数据与后来的应用数据是相似的等。如果上述假设违反了业务场景,那么根据这些假设搭建的模型当然是无法有效应用的。
1700501286
1700501287
❑建模时使用了太多的输入变量。这同第二点噪声数据有些类似,数据挖掘新人常常犯这个错误,自己不做分析判断,把所有的变量交给软件或者机器去“撞大运”。须知,一个稳定优良的模型一定要遵循建模输入变量少而精的原则。
1700501288
1700501289
上面的原因都是现象,其实本质只有一个,那就是对业务理解错误造成的,无论是抽样,还是噪声,还是决策树、神经网络等,如果我们对于业务背景和业务知识了解得非常透彻,一定是可以避免绝大多数过拟合现象产生的。因为在模型从确定需求、思路讨论、搭建到业务应用验证的各个环节中,都是可以通过业务敏感来防止过拟合产生的。
1700501290
1700501291
入世,出世,都是一样的道,所谓的道从来不曾离开我们半步,只是看我们自身是否足够清净,足够醒悟,足够真实而已。佛法有八万四千法门,不过是不同的方便路径,归根结底,佛法的根本只是认识我们与生俱来的本来面目,真如自性。
1700501292
1700501293
过拟合的产生,有种种原因,不一而足,对其进行分类和剖析只是为了方便而已,防止过拟合的终极思路就是真正透彻理解业务背景和业务逻辑,有了这个根本,我们一定可以正确抽样,发现并排除噪声数据,一定可以在决策树、神经网络等算法中有效防止过拟合的产生。
1700501294
1700501295
当然,除了透彻了解业务本质外,还有一些技术层面的方法来防止过拟合的产生,虽然是“术”层面上的内容,但是很多人热衷于这些技巧,所以,在这里也顺便讲解如下:
1700501296
1700501297
❑最基本的技术手段,就是合理、有效地抽样;包括分层抽样、过抽样等,从而用不同的样本去检验模型。
1700501298
1700501299
❑事前准备几个不同时间窗口、不同范围的测试数据集和验证数据集,然后在不同的数据集里分别对模型进行交叉检验,这是目前业界防止过拟合的最常用的手段。
1700501300
[
上一页 ]
[ :1.700501251e+09 ]
[
下一页 ]