1700499719
数据挖掘与数据化运营实战:思路、方法、技巧与应用 第7章 数据挖掘建模的优化和限度
1700499720
1700499721
没有最好,只有更好。
1700499722
1700499723
7.1 数据挖掘模型的优化要遵循有效、适度的原则
1700499724
1700499725
7.2 如何有效地优化模型
1700499726
1700499727
7.3 如何思考优化的限度
1700499728
1700499729
7.4 模型效果评价的主要指标体系
1700499730
1700499731
“没有最好,只有更好”这个广告语之所以能成为经典,是因为它揭示了“任何事物的发展和进步都是可以无限深入的”这样一个真理。一个人可以不断进步,一个产品也可以不断升级,同样,一个数据挖掘模型也是可以不断完善、不断优化、不断提升的。只是,数据挖掘模型的每一次优化、每一次提升都需要有资源的投入,而且都是为了满足特定的业务需求。在模型优化和资源投入之间,在投入数据分析资源和满足特定业务需求之间,又有一个微妙的平衡点——性价比。这个微妙的平衡点决定了模型的优化和完善是有限度的。本章的主题是模型优化的总体原则、模型评价的指标体系、模型优化的具体思路和方向,以及具体考虑优化的限度时应注意的几个典型因素。
1700499732
1700499733
1700499734
1700499735
1700499737
数据挖掘与数据化运营实战:思路、方法、技巧与应用 7.1 数据挖掘模型的优化要遵循有效、适度的原则
1700499738
1700499739
任何一个数据挖掘模型都是针对一个特定业务需求的,围绕着一个具体的业务需求,数据挖掘模型总是可以有办法不断完善、不断提升,即提升精确度、提升转化率等。这里自然就出现了一个限度的问题,到底模型优化到什么程度才算可以呢?或者说模型到了什么程度算可以接受?什么程度不能接受,要继续优化呢?这是数据挖掘商业实践中经常碰到的问题,对此,有一个有效、适度的总原则必须坚持。
1700499740
1700499741
既然任何一个数据挖掘模型都是针对一个特定业务需求的,那么评价模型是否合格的一个原则性标准就是模型的结论或应用效果是否满足当初的业务需求,即有效的原则。虽然这个原则的表述听上去比较虚,但是具体到业务实践和具体的分析需求中,一般都是有一系列具体、明确、可量化的指标和尺度的。比如,一个某付费产品的续费客户预测模型的建模需求,必然要求所构建的预测模型能有效锁定最可能续费的用户群体,从而可以提升续费转化率,是相对于不做客户细分时的总体续费转化率来说的,即原始转化率,或者称为随机转化率,最起码在对最终模型进行验证后,确实可以得出模型挑选出的优质群体的续费转化率显著高于随机转化率这样的结论,这时才可以称为有效。
1700499742
1700499743
一旦模型满足了有效的标准,是否还要继续优化呢?此时要考虑第二个原则,即适度的原则。所谓适度,是说此时模型还是可以继续投入资源、投入精力去持续优化的,即继续不断提升模型的精度、转化率等,但是必须要考虑投入产出之间的性价比是否合适,是否适度。如果花了很大的力气,投入了很多的资源,但是模型的提升不明显,即模型优化的投入与产出相比得不偿失,那么就违反了适度的原则;如果花了较少的力气,增加了不多的资源,但是模型的提升很明显,很显著(相比当初已经有效的模型而言),那么可以认为这种持续性的优化是适度的,是具有较好的性价比的。
1700499744
1700499745
在第6章分享的案例中,包含了模型优化的详细思路、过程、效果对比,以及落地应用的跟踪。从这个详细的案例可以发现,换个思路、新添分析变量、不断尝试不同的算法、对算法的参数进行调整、将数据的处理方式进行变化等,常常是可以有效提升模型效果的。
1700499746
1700499747
有效和适度作为模型优化的总原则听上去很简单,但是在实际操作中则需要数据分析师具备一定的项目经验,且要对业务有足够的理解和把握,否则是不容易实现有效和适度目的的。数据挖掘建模的王道是有丰富的项目经验积累,个中没有捷径可走,唯有踏踏实实多实践、多做项目、多动手、多思考,仅此而已。
1700499748
1700499749
1700499750
1700499751
1700499753
数据挖掘与数据化运营实战:思路、方法、技巧与应用 7.2 如何有效地优化模型
1700499754
1700499756
7.2.1 从业务思路上优化
1700499757
1700499758
从业务思路上优化模型是最重要的模型优化措施(没有“之一”),这也是很多数据分析师在尝试模型优化时最容易忽视或根本就没想过的方法。很多时候,这个思路和方法对于模型效用的提升是根本性的,是源头上的突破,因而常常更有效。之所以说它常常有效果,主要是因为经过前期的数据熟悉、分析和初步建模之后,我们对数据逻辑之间的关系更加敏锐了,而且对于需求目标的认识更加深刻了,并且前期建模过程中常常会有一些新的关联和联想给我们提供了新的更加贴切的灵感,所有这些正面的因素形成合力,拓宽了我们的业务思路,加强了我们的业务洞察力,换个角度看问题,又是一幅新的风景,通过这种方式常常可以轻松优化、提升模型。
1700499759
1700499760
第6章里分享过的“H层会员流失预警模型”,其建模过程中的优化思路就属于从业务思路上优化:在初步建模完成后,我们审视当初的建模思路,发现有一个潜在的、致命的思路漏洞、那就是我们没有考虑到在提取数据的那个时间窗口里,虽然当时处于H层但是非常接近H层最低点位置的人群,他们所处的这个低层位置的指标,是否可以直接取代预测模型的作用而有效引导出随后两周这类人群从H层流失的结论?换言之,这个群体是否会整体上或者绝大多数流失?由于我们发现了这个漏洞,重新增加了对这个假设的验证过程,更重要的是因此增添了一系列与此相关的新的变量,从后期的模型优化和最终的解决方案来看,正是由于这些新的思路和新关键字段的增添,使得模型的预测效果得到显著提升。这个案例非常具体、生动地说明了从思路上优化模型是多么有效,多么给力。
1700499761
1700499762
从业务思路上优化主要可以从以下几个层面进行考虑。
1700499763
1700499764
❑有没有更加明显且直观的规则、指标可以代替复杂的建模?通过对这些直观的假设进行验证、思考并增添相关的新衍生变量,有时候就可以有效优化模型。上面的案例就是这种思路的成果:如果“近30天登录##助手的PV量”接近“近30天行业标准的登录##助手的PV量,即活跃层与中间层的分界线”,那么,对于符合该指标条件的这部分H层会员在随后两周后大批量流失(或跌落)到中间层是否有明显的趋势?只要这个直观的猜测(或规则)经过数据验证是事实,那么就没有必要去搭建复杂的模型了,可以直接用这个简单的规则去判断。正是基于这个思考,我们一方面对这个猜想进行了验证,另一方面在模型中增加了核心的新的相关输入变量,包括:H层用户近30天登录##助手的PV量,与相应的近30天行业标准的登录##助手的PV量差值Visit_Assist_pv_Gap,以及两者的比值Visit_Assist_pv_Rate等)相信这些新增的变量从业务直觉上看是与用户流失的结果有密切关系的。虽然上面直观的猜想并没有被实际的数据所证实,但是由此带来的新的变量成了最终模型得以优化的最核心指标。
1700499765
1700499766
❑有没有一些明显的业务逻辑(业务假设)在前期的建模阶段被疏忽了呢?比如要搭建一个类似于“竞价排名”业务的续费用户(提前充值)预测模型,那么除了直接从数据仓库中提取相关的字段、数据之外,是否考虑到了用户提前充值的行为很可能跟其当前账户里的余额多少有关,或者跟其最近月均消耗金额与余额的比例有关?这些深入的思考可以让我们增添一些衍生的变量、字段,而这些衍生的变量常常能给模型带来明显的效果提升。
1700499767
[
上一页 ]
[ :1.700499718e+09 ]
[
下一页 ]