1700499529
数据挖掘与数据化运营实战:思路、方法、技巧与应用 6.5 按计划初步搭建挖掘模型
1700499530
1700499531
对数据进行初步的摸底和清洗之后,就进入初步搭建挖掘模型阶段了。在该阶段,包括以下3个主要的工作内容:
1700499532
1700499533
❑进一步筛选模型的输入变量。最终进入模型的输入变量应遵循“少而精”的总原则,该总原则一方面是为了提高模型的稳定性,另一方面也是为了有效提升模型的预测精度。关于如何筛选模型的输入变量,在8.6节、9.3.3节、第10章中会有比较详细、深入的分析和讨论,有兴趣的读者可以参考上述章节详细了解。
1700499534
1700499535
❑尝试不同的挖掘算法和分析方法,并比较不同方案的效果、效率和稳定性。关于模型的比较和优化,7.4节有比较详细的整理和总结,有兴趣的读者可以参考阅读。
1700499536
1700499537
❑整理经过模型挑选出来的与目标变量的预测最相关的一系列核心输入变量,将其作为与业务方讨论落地应用时的参考和建议。
1700499538
1700499539
具体针对本项目实践来说,本阶段在通过不同算法的尝试和对结果的比较中,发现神经网络搭建的模型相对来说准确度更高、效率更高,如图6-1所示。
1700499540
1700499541
1700499542
1700499543
1700499544
图6-1 不同算法的模型效果(响应率)比较
1700499545
1700499546
从图6-1可以看出:通过神经网络模型得到的分数最高的前10%的用户中,流失率高达44%左右,而样本的整体流失率在10.1%左右;得分最高的前20%的用户中,流失率高达29%;得分最高的前30%的用户中,流失率高达24%。
1700499547
1700499548
通过逻辑回归模型得到的分数最高的前10%的用户中,流失率高达41%左右;得分最高的前20%的用户中,流失率高达27%;得分最高的前30%用户中,流失率高达23%。
1700499549
1700499550
通过对上述的模型效果的比较,大致可以认为,目前的神经网络模型相对于其他模型而言,有更高的预测效果,可以更多地有效锁定有流失风险的用户。
1700499551
1700499552
1700499553
1700499554
1700499556
数据挖掘与数据化运营实战:思路、方法、技巧与应用 6.6 与业务方讨论模型的初步结论,提出新的思路和模型优化方案
1700499557
1700499558
在本阶段,需要整理模型的初步报告、结论,以及对主要预测字段进行提炼,还要通过与业务方沟通和分享,在此基础上讨论出模型的可能优化方向,并对落地应用的方案进行讨论,同时罗列出注意事项。
1700499559
1700499560
具体针对本项目而言,除了上面提到的模型比较之外,还对核心自变量进行了整理提炼,并进行了权重排序,如图6-2所示。
1700499561
1700499562
1700499563
1700499564
1700499565
图6-2 核心自变量的提炼
1700499566
1700499567
针对目前模型的表现和后期的落地应用场景,数据分析师就下列事项与运营方交换了意见,其中沟通和讨论的主要内容如下:
1700499568
1700499569
❑对建模时给出的流失用户的定义要进行后续新数据的跟踪,看该定义是否合理,是否表现稳定,是否符合业务运营的需求。
1700499570
1700499571
❑在后期的落地应用中,针对模型所判断出来的流失风险最大的用户群,可以考虑进行更加深入的分析,以找出运营的抓手和进一步的细分特征,其中所涉及的技术包括聚类技术、特征阀值的设定等。
1700499572
1700499573
❑模型落地应用后的效果跟踪也非常关键,主要包括:对于模型的稳定性要结合新的数据来验证,要考虑如何评价运营的挽留效果,如何设置运营组和对照组,如何进行客观公正公平的评价(包括模型效果的评价和运营效果的评价等)。
1700499574
1700499575
❑模型的优化要遵循资源合理应用的总原则。关于模型的优化和限度,第7章有详细的分享和讨论,在此不再过多地扩展讲解。
1700499576
1700499577
❑细分建模也是提升模型效果的一种有效手段。具体针对本项目而言,即开通了WinPort的会员,其流失率7%;未开通Win Port的会员,其流失率高达15%。那么,针对这两类群体分别建模,有可能会提升模型的预测效果和效率。
[
上一页 ]
[ :1.700499528e+09 ]
[
下一页 ]