1700499737
数据挖掘与数据化运营实战:思路、方法、技巧与应用 7.1 数据挖掘模型的优化要遵循有效、适度的原则
1700499738
1700499739
任何一个数据挖掘模型都是针对一个特定业务需求的,围绕着一个具体的业务需求,数据挖掘模型总是可以有办法不断完善、不断提升,即提升精确度、提升转化率等。这里自然就出现了一个限度的问题,到底模型优化到什么程度才算可以呢?或者说模型到了什么程度算可以接受?什么程度不能接受,要继续优化呢?这是数据挖掘商业实践中经常碰到的问题,对此,有一个有效、适度的总原则必须坚持。
1700499740
1700499741
既然任何一个数据挖掘模型都是针对一个特定业务需求的,那么评价模型是否合格的一个原则性标准就是模型的结论或应用效果是否满足当初的业务需求,即有效的原则。虽然这个原则的表述听上去比较虚,但是具体到业务实践和具体的分析需求中,一般都是有一系列具体、明确、可量化的指标和尺度的。比如,一个某付费产品的续费客户预测模型的建模需求,必然要求所构建的预测模型能有效锁定最可能续费的用户群体,从而可以提升续费转化率,是相对于不做客户细分时的总体续费转化率来说的,即原始转化率,或者称为随机转化率,最起码在对最终模型进行验证后,确实可以得出模型挑选出的优质群体的续费转化率显著高于随机转化率这样的结论,这时才可以称为有效。
1700499742
1700499743
一旦模型满足了有效的标准,是否还要继续优化呢?此时要考虑第二个原则,即适度的原则。所谓适度,是说此时模型还是可以继续投入资源、投入精力去持续优化的,即继续不断提升模型的精度、转化率等,但是必须要考虑投入产出之间的性价比是否合适,是否适度。如果花了很大的力气,投入了很多的资源,但是模型的提升不明显,即模型优化的投入与产出相比得不偿失,那么就违反了适度的原则;如果花了较少的力气,增加了不多的资源,但是模型的提升很明显,很显著(相比当初已经有效的模型而言),那么可以认为这种持续性的优化是适度的,是具有较好的性价比的。
1700499744
1700499745
在第6章分享的案例中,包含了模型优化的详细思路、过程、效果对比,以及落地应用的跟踪。从这个详细的案例可以发现,换个思路、新添分析变量、不断尝试不同的算法、对算法的参数进行调整、将数据的处理方式进行变化等,常常是可以有效提升模型效果的。
1700499746
1700499747
有效和适度作为模型优化的总原则听上去很简单,但是在实际操作中则需要数据分析师具备一定的项目经验,且要对业务有足够的理解和把握,否则是不容易实现有效和适度目的的。数据挖掘建模的王道是有丰富的项目经验积累,个中没有捷径可走,唯有踏踏实实多实践、多做项目、多动手、多思考,仅此而已。
1700499748
1700499749
1700499750
1700499751
1700499753
数据挖掘与数据化运营实战:思路、方法、技巧与应用 7.2 如何有效地优化模型
1700499754
1700499756
7.2.1 从业务思路上优化
1700499757
1700499758
从业务思路上优化模型是最重要的模型优化措施(没有“之一”),这也是很多数据分析师在尝试模型优化时最容易忽视或根本就没想过的方法。很多时候,这个思路和方法对于模型效用的提升是根本性的,是源头上的突破,因而常常更有效。之所以说它常常有效果,主要是因为经过前期的数据熟悉、分析和初步建模之后,我们对数据逻辑之间的关系更加敏锐了,而且对于需求目标的认识更加深刻了,并且前期建模过程中常常会有一些新的关联和联想给我们提供了新的更加贴切的灵感,所有这些正面的因素形成合力,拓宽了我们的业务思路,加强了我们的业务洞察力,换个角度看问题,又是一幅新的风景,通过这种方式常常可以轻松优化、提升模型。
1700499759
1700499760
第6章里分享过的“H层会员流失预警模型”,其建模过程中的优化思路就属于从业务思路上优化:在初步建模完成后,我们审视当初的建模思路,发现有一个潜在的、致命的思路漏洞、那就是我们没有考虑到在提取数据的那个时间窗口里,虽然当时处于H层但是非常接近H层最低点位置的人群,他们所处的这个低层位置的指标,是否可以直接取代预测模型的作用而有效引导出随后两周这类人群从H层流失的结论?换言之,这个群体是否会整体上或者绝大多数流失?由于我们发现了这个漏洞,重新增加了对这个假设的验证过程,更重要的是因此增添了一系列与此相关的新的变量,从后期的模型优化和最终的解决方案来看,正是由于这些新的思路和新关键字段的增添,使得模型的预测效果得到显著提升。这个案例非常具体、生动地说明了从思路上优化模型是多么有效,多么给力。
1700499761
1700499762
从业务思路上优化主要可以从以下几个层面进行考虑。
1700499763
1700499764
❑有没有更加明显且直观的规则、指标可以代替复杂的建模?通过对这些直观的假设进行验证、思考并增添相关的新衍生变量,有时候就可以有效优化模型。上面的案例就是这种思路的成果:如果“近30天登录##助手的PV量”接近“近30天行业标准的登录##助手的PV量,即活跃层与中间层的分界线”,那么,对于符合该指标条件的这部分H层会员在随后两周后大批量流失(或跌落)到中间层是否有明显的趋势?只要这个直观的猜测(或规则)经过数据验证是事实,那么就没有必要去搭建复杂的模型了,可以直接用这个简单的规则去判断。正是基于这个思考,我们一方面对这个猜想进行了验证,另一方面在模型中增加了核心的新的相关输入变量,包括:H层用户近30天登录##助手的PV量,与相应的近30天行业标准的登录##助手的PV量差值Visit_Assist_pv_Gap,以及两者的比值Visit_Assist_pv_Rate等)相信这些新增的变量从业务直觉上看是与用户流失的结果有密切关系的。虽然上面直观的猜想并没有被实际的数据所证实,但是由此带来的新的变量成了最终模型得以优化的最核心指标。
1700499765
1700499766
❑有没有一些明显的业务逻辑(业务假设)在前期的建模阶段被疏忽了呢?比如要搭建一个类似于“竞价排名”业务的续费用户(提前充值)预测模型,那么除了直接从数据仓库中提取相关的字段、数据之外,是否考虑到了用户提前充值的行为很可能跟其当前账户里的余额多少有关,或者跟其最近月均消耗金额与余额的比例有关?这些深入的思考可以让我们增添一些衍生的变量、字段,而这些衍生的变量常常能给模型带来明显的效果提升。
1700499767
1700499768
❑通过前期的初步建模和数据熟悉,是否有新的发现,甚至能颠覆之前的业务推测或业务直觉呢?如果有,适时调整新的分析思路,常常就会有明显的模型效果提升作用。比如,起初我们会猜想有佛教信仰的人应该是寺庙收入的主流目标群体,其承担了寺庙的绝大多数门票和捐款收入,但是仔细观察数据我们会发现其实在现实生活中不一定信仰佛教,但是一定有愿望乞求佛菩萨保佑,即保佑发财、保佑升官、保佑平安等的香客才是寺庙收入真正的主流目标群体。这种观察直接颠覆了之前的猜想,如果要为某寺庙寻找收入提升的方式,那么修改原先的目标群体,重新定位于那些乞求佛菩萨保佑的信众,宣传有求必应的灵验性,或许是提升收入的重要策略。针对这个新的目标群体构建的数据模型,理论上来说其效果会有明显的提升。
1700499769
1700499770
❑目标变量的定义是否稳定(在不同时间点抽样验证)?如果不稳定,通常应该考虑一个更加合适的相关的稳定的变量作为目标,并重新建模。
1700499771
1700499772
通过与业务需求方的“头脑风暴”,可以发掘出新的想法和思路,从更多的角度、更多的层次考虑业务逻辑,从而更全面地增加衍生字段。对于数据分析师来说,不仅自己要多角度、多层次考虑业务逻辑,更重要的是要与业务团队充分沟通、共同探讨,在大家的思维碰撞中发现新的火花。
1700499773
1700499774
1700499775
1700499776
1700499778
数据挖掘与数据化运营实战:思路、方法、技巧与应用 7.2.2 从建模的技术思路上优化
1700499779
1700499780
从建模的技术思路上优化是指在建模的总体技术思路、总体技术方向上进行比较、权衡。建模的总体技术思路包括不同的建模算法、不同的抽样方法、有没有必要通过细分群体来分别建模等。
1700499781
1700499782
一般来讲,不同的建模算法针对不同的具体业务场景会有不同的表现,没有哪种算法可以永远优越于其他算法,所以数据分析师在具体的业务项目实践中应该多尝试不同的建模算法,从中比较、权衡,择其优者而用之(在本章的后半部分,会详细介绍模型的评价指标体系和评估方向)。这里的建模算法是广义上的,包括基本的统计分析技术,只要是可以解决业务问题,都是我们的候选算法。而对于不同建模算法的比较,既包括预测响应(或分类)模型思路里不同算法的比较,如综合考虑逻辑回归算法、决策树算法、神经网络算法、支持向量机算法等,又有广义上的算法比较。比如,在A产品付费用户特征分析项目中,实际上有至少3种完全不同的技术思路可以应用,包括基本的统计分析方法,如找出有统计差异显著性的特征字段及组合、常规的聚类分析方法,如对付费用户群体进行几个重要业务变量的聚类划分,以及预测项目模型的思路,它不仅可以找出特征字段,还可以有效预测潜在的最可能付费的目标人群。很明显,3种不同的思路有更多种不同的算法可以尝试,究竟哪种思路和算法最适合本项目,要权衡的因素很多,包括项目的资源是否充足、现有数据的完整情况、项目的时间节点、模型精度要求等,但是从模型优化的角度来考虑,对不同的算法多尝试、多比较,是数据分析师常用的一种优化思路。
1700499783
1700499784
同样的道理,如何抽样对于模型的效果也有着非常重要的影响。基于业务背景的判断和现有的数据资源状况,数据分析师要决定是否抽样,以及如何抽样。对于稀有事件的建模预测,还会涉及过抽样,过抽样的浓度需要调整,需要结合具体的业务背景考虑。有关数据抽样的问题,将在本书第8章中做进一步的总结和分享。
1700499785
[
上一页 ]
[ :1.700499736e+09 ]
[
下一页 ]