1700501271
数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.5 模型的过拟合及对策
1700501272
1700501273
模型的过拟合(Over Fitting)是指模型在训练集里的表现让人非常满意,但是一旦应用到真实业务实践中,效果会大打折扣。换成学术化语言描述,就是模型对样本数据拟合得非常好,但是对于样本数据外的应用数据,拟合效果非常差。在数据分析挖掘业务实践中,即为模型搭建时的表现看上去非常好,但是应用到具体业务实践时,模型的效果显著下降,包括准确率、精度、效果等都显著下降了。
1700501274
1700501275
过拟合现象是数据挖掘中常见的一种挫折,尤其是在预测响应(分类)模型的应用场景里。在模型的实践应用中如果发生了模型的过拟合,不仅会大幅度降低模型的效果和效率,也会严重浪费运营业务资源,同时,还会严重打击数据分析师的自信心和影响力。所以,数据分析师应该比较清楚地了解过拟合产生的主要原因以及可以采用的相应措施,尽量去避免过拟合的发生。
1700501276
1700501277
总的来说,过拟合产生的主要原因如下:
1700501278
1700501279
❑建模样本抽取错误。包括但不限于样本数量太少,抽样方法错误,抽样时没有足够正确地考虑业务场景或业务特点等,以致抽出的样本数据不能足够有效地代表业务逻辑或业务场景。
1700501280
1700501281
❑样本里的噪声数据干扰过大。样本噪声大到模型过分记住了噪声特征,反而忽略了真实的输入输出间的关系。
1700501282
1700501283
❑在决策树模型的搭建过程中,如果对于决策树的生长没有合理的限制和修剪,由着决策树自由的生长,那有可能会使每片叶子里只包含单纯的事件数据(Event)或非事件数据(No Event)。可以想象,这种决策树当然是可以完美匹配(拟合)训练数据的,但是一旦应用到新的业务真实数据中,效果就会一塌糊涂。
1700501284
1700501285
❑建模时的逻辑假设到了应用模型时已经不能成立了。任何预测模型都是在假设的基础上才可以搭建和应用的,常用的假设包括:假设历史数据可以推测未来,假设业务环节没有发生显著变化,假设建模数据与后来的应用数据是相似的等。如果上述假设违反了业务场景,那么根据这些假设搭建的模型当然是无法有效应用的。
1700501286
1700501287
❑建模时使用了太多的输入变量。这同第二点噪声数据有些类似,数据挖掘新人常常犯这个错误,自己不做分析判断,把所有的变量交给软件或者机器去“撞大运”。须知,一个稳定优良的模型一定要遵循建模输入变量少而精的原则。
1700501288
1700501289
上面的原因都是现象,其实本质只有一个,那就是对业务理解错误造成的,无论是抽样,还是噪声,还是决策树、神经网络等,如果我们对于业务背景和业务知识了解得非常透彻,一定是可以避免绝大多数过拟合现象产生的。因为在模型从确定需求、思路讨论、搭建到业务应用验证的各个环节中,都是可以通过业务敏感来防止过拟合产生的。
1700501290
1700501291
入世,出世,都是一样的道,所谓的道从来不曾离开我们半步,只是看我们自身是否足够清净,足够醒悟,足够真实而已。佛法有八万四千法门,不过是不同的方便路径,归根结底,佛法的根本只是认识我们与生俱来的本来面目,真如自性。
1700501292
1700501293
过拟合的产生,有种种原因,不一而足,对其进行分类和剖析只是为了方便而已,防止过拟合的终极思路就是真正透彻理解业务背景和业务逻辑,有了这个根本,我们一定可以正确抽样,发现并排除噪声数据,一定可以在决策树、神经网络等算法中有效防止过拟合的产生。
1700501294
1700501295
当然,除了透彻了解业务本质外,还有一些技术层面的方法来防止过拟合的产生,虽然是“术”层面上的内容,但是很多人热衷于这些技巧,所以,在这里也顺便讲解如下:
1700501296
1700501297
❑最基本的技术手段,就是合理、有效地抽样;包括分层抽样、过抽样等,从而用不同的样本去检验模型。
1700501298
1700501299
❑事前准备几个不同时间窗口、不同范围的测试数据集和验证数据集,然后在不同的数据集里分别对模型进行交叉检验,这是目前业界防止过拟合的最常用的手段。
1700501300
1700501301
❑建模时目标观测值的数量太少,如何分割训练集和验证集的比例,需要建模人员灵活掌握。
1700501302
1700501303
❑如果数据太少,谨慎使用神经网络模型,只有拥有足够多的数据,神经网络模型才可以有效防止过拟合的产生。并且,使用神经网络时,一定要事先有效筛选输入变量,千万不能一股脑把所有的变量都放进去。
1700501304
1700501305
1700501306
1700501307
1700501309
数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.6 一个典型的预测响应模型的案例分享
1700501310
1700501312
10.6.1 案例背景
1700501313
1700501314
某垂直细分的B2B网站平台,其商业模式是通过买卖双方在平台上产生交易而对卖家抽取交易提成费。对于该网站平台来说,促成买卖双方的线上成交是该平台的价值所在,网站平台的发展和盈利最终取决于是否能有效且规模化地促成买卖双方的线上成交并持续成交。
1700501315
1700501316
要有效且规模化地促成买卖双方在线成交,该网站平台有许多事情要做,包括吸引优质卖家、吸引广大有采购意愿的优质买家、帮助卖家在平台上更好地展示商品、帮助买家更快更有效地匹配所需要的卖家、优化网站交易流程以方便交易更有效、提供风险控制措施,保障双方交易的安全等。这里提到的每一个目的其实都是包含着一揽子的分析课题和项目开发的,需要数据分析团队在内的所有相关部门协同合作来实现。
1700501317
1700501318
本案例所要分享的就是其中一个细分的项目:初次成交的预测模型和运营应用。对于该平台上的卖家来说,从最开始的注册、发布商品信息,到后期的持续在线获得订单和在线成交,其中有一个结点对于卖家来说是至关重要,具有突破性的,那就是第一次在线成交,也叫初次成交转化,这个初次成交对于卖家的成功体验和激励的价值是不言而喻的;另外,从网站平台的运营方来说,卖家的初次成交也是网站运营工作的一个重要考察环节和考察指标,只有初次成交的卖家数量越多,周期越短,才可以有效保障后期持续性、规模化在线成交的可能性。本着上述背景和考虑思路,网站平台运营方希望通过数据分析找出短期内最有可能实现初次成交的卖家群体,分析其典型特征,运营方可以据此对卖家群体进行分层的精细化运营。最终的目的是一方面希望可以通过数据化运营有效提升单位时间段内初次成交的卖家数量,另一方面为今后的卖家培养找出一些运营可以着力的“抓手”,以帮助卖家有效成长。
1700501319
[
上一页 ]
[ :1.70050127e+09 ]
[
下一页 ]