打字猴:1.70049954e+09
1700499540
1700499541
1700499542
1700499543
1700499544 图6-1 不同算法的模型效果(响应率)比较
1700499545
1700499546 从图6-1可以看出:通过神经网络模型得到的分数最高的前10%的用户中,流失率高达44%左右,而样本的整体流失率在10.1%左右;得分最高的前20%的用户中,流失率高达29%;得分最高的前30%的用户中,流失率高达24%。
1700499547
1700499548 通过逻辑回归模型得到的分数最高的前10%的用户中,流失率高达41%左右;得分最高的前20%的用户中,流失率高达27%;得分最高的前30%用户中,流失率高达23%。
1700499549
1700499550 通过对上述的模型效果的比较,大致可以认为,目前的神经网络模型相对于其他模型而言,有更高的预测效果,可以更多地有效锁定有流失风险的用户。
1700499551
1700499552
1700499553
1700499554
1700499555 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497542]
1700499556 数据挖掘与数据化运营实战:思路、方法、技巧与应用 6.6 与业务方讨论模型的初步结论,提出新的思路和模型优化方案
1700499557
1700499558 在本阶段,需要整理模型的初步报告、结论,以及对主要预测字段进行提炼,还要通过与业务方沟通和分享,在此基础上讨论出模型的可能优化方向,并对落地应用的方案进行讨论,同时罗列出注意事项。
1700499559
1700499560 具体针对本项目而言,除了上面提到的模型比较之外,还对核心自变量进行了整理提炼,并进行了权重排序,如图6-2所示。
1700499561
1700499562
1700499563
1700499564
1700499565 图6-2 核心自变量的提炼
1700499566
1700499567 针对目前模型的表现和后期的落地应用场景,数据分析师就下列事项与运营方交换了意见,其中沟通和讨论的主要内容如下:
1700499568
1700499569 ❑对建模时给出的流失用户的定义要进行后续新数据的跟踪,看该定义是否合理,是否表现稳定,是否符合业务运营的需求。
1700499570
1700499571 ❑在后期的落地应用中,针对模型所判断出来的流失风险最大的用户群,可以考虑进行更加深入的分析,以找出运营的抓手和进一步的细分特征,其中所涉及的技术包括聚类技术、特征阀值的设定等。
1700499572
1700499573 ❑模型落地应用后的效果跟踪也非常关键,主要包括:对于模型的稳定性要结合新的数据来验证,要考虑如何评价运营的挽留效果,如何设置运营组和对照组,如何进行客观公正公平的评价(包括模型效果的评价和运营效果的评价等)。
1700499574
1700499575 ❑模型的优化要遵循资源合理应用的总原则。关于模型的优化和限度,第7章有详细的分享和讨论,在此不再过多地扩展讲解。
1700499576
1700499577 ❑细分建模也是提升模型效果的一种有效手段。具体针对本项目而言,即开通了WinPort的会员,其流失率7%;未开通Win Port的会员,其流失率高达15%。那么,针对这两类群体分别建模,有可能会提升模型的预测效果和效率。
1700499578
1700499579 ❑在项目实践过程中,业务团队的直觉和建议有时候会有“一字千金”的价值,所以要鼓励业务方积极参与模型的讨论和建议。
1700499580
1700499581 ❑预测模型的搭建和完善也跟网站分析一样,遵循着“持续优化,永无止境”的规律。
1700499582
1700499583 在上述讨论、交流的基础上,业务团队也提出了很多有价值的建议和意见,在此不一一列举了。但是当数据分析师对截止到当前的进度和成果进行反思时,突然发现了一个以前没有想到、但有可能会非常严重的漏洞。截止到目前为止,无论是数据分析师,还是业务团队都没有考虑到是否有可能从当初高活跃度客户的定义里直接推测出是否有流失的可能性。当初高活跃度的定义主要是依据用户在某入口页面的30天PV量是否超过相应的行业平均值来给出的,那么我们有理由推测,虽然用户在该入口页面的30天PV量大于相应行业的平均值,但是超过的幅度不大,只是超过行业平均值的10%,这样的用户是否更加容易流失呢?这种猜测看上去有道理,但是当初都没有想到。如果这个猜测被验证是正确的,并且效果比上述的预测模型还好,那么这个预测模型就没有意义了。
1700499584
1700499585 在将这个重要的想法及时跟业务方进行沟通后,得到了业务方的理解和支持,那么接下来就要验证该猜想了。首先要增加衍生变量,围绕上述猜想增添了下列衍生变量,主要是衡量用户跟行业平均值的差值和比例,具体衍生变量如图6-3所示。
1700499586
1700499587
1700499588
1700499589
[ 上一页 ]  [ :1.70049954e+09 ]  [ 下一页 ]