1700499509
数据挖掘与数据化运营实战:思路、方法、技巧与应用 6.4 抽取样本数据、熟悉数据、数据清洗和摸底
1700499510
1700499511
本阶段的主要内容包括:根据前期讨论的分析思路和建模思路,以及初步圈定的分析字段(分析变量)编写代码,从数据仓库中提取分析、建模所需的样本数据;通过对样本数据的熟悉和摸底,找到无效数据、脏数据、错误数据等,并且对样本数据中存在的这些明显的数据质量问题进行清洗、剔除、转换,同时视具体的业务场景和项目需求,决定是否产生衍生变量,以及怎样衍生等。
1700499512
1700499513
在互联网行业,由于业务发展迅猛,产品日新月异,不断在优化或换代,且相关的存储方案和战略方向在不断修改和调整,所有这些因素都导致了数据仓库的数据存储或多或少都存在这样或那样的漏洞、缺憾、偏差,而且直接导致了具体抽取的分析样本数据中不可避免地存在无效数据、脏数据、错误数据等有问题的数据。对于这些数据问题,在本环节不仅要将其明确找出来,还要应用具体的技术手段来加以应对。具体针对本项目的数据质量来说,本阶段有下列主要的发现和应对策略:
1700499514
1700499515
❑通过对原始样本数据和原始字段的摸底、排查,发现有些字段缺失值高达50%以上,经过研究发现这些缺失是数据仓库存储过程中的记录缺失,或者是由于产品优化后的业务逻辑更改所造成的,这些问题虽然可以向相关的数据仓库接口人反映,但是对于本项目来说已经无法回滚所需的真实数据了,对这些数据我们采取直接删除的措施。
1700499516
1700499517
❑通过输入变量之间的相关性分析,找出潜在共线性问题的相关输入变量,对于高度线性相关的变量只保留一个。
1700499518
1700499519
❑在数据仓库的数据回滚过程中造成了某些字段的严重不符合逻辑或明显自相矛盾,比如用户最近30天登录网站次数为0,其最近30天发布产品信息的天数不为0。针对类似的严重不符合逻辑的数据问题,要提请数据仓库重新回滚数据,直到数据正确为止。
1700499520
1700499521
经过处理,即删除严重缺失数据、数据仓库重新回滚明显矛盾的数据、对高度相关性的部分数据的有取有舍,在本阶段结束时共保留了36个比较有意义的字段、变量和相应数据。
1700499522
1700499523
关于数据清洗的主要注意事项和常用技术,在第8章中会有比较详细的介绍和分析。
1700499524
1700499525
1700499526
1700499527
1700499529
数据挖掘与数据化运营实战:思路、方法、技巧与应用 6.5 按计划初步搭建挖掘模型
1700499530
1700499531
对数据进行初步的摸底和清洗之后,就进入初步搭建挖掘模型阶段了。在该阶段,包括以下3个主要的工作内容:
1700499532
1700499533
❑进一步筛选模型的输入变量。最终进入模型的输入变量应遵循“少而精”的总原则,该总原则一方面是为了提高模型的稳定性,另一方面也是为了有效提升模型的预测精度。关于如何筛选模型的输入变量,在8.6节、9.3.3节、第10章中会有比较详细、深入的分析和讨论,有兴趣的读者可以参考上述章节详细了解。
1700499534
1700499535
❑尝试不同的挖掘算法和分析方法,并比较不同方案的效果、效率和稳定性。关于模型的比较和优化,7.4节有比较详细的整理和总结,有兴趣的读者可以参考阅读。
1700499536
1700499537
❑整理经过模型挑选出来的与目标变量的预测最相关的一系列核心输入变量,将其作为与业务方讨论落地应用时的参考和建议。
1700499538
1700499539
具体针对本项目实践来说,本阶段在通过不同算法的尝试和对结果的比较中,发现神经网络搭建的模型相对来说准确度更高、效率更高,如图6-1所示。
1700499540
1700499541
1700499542
1700499543
1700499544
图6-1 不同算法的模型效果(响应率)比较
1700499545
1700499546
从图6-1可以看出:通过神经网络模型得到的分数最高的前10%的用户中,流失率高达44%左右,而样本的整体流失率在10.1%左右;得分最高的前20%的用户中,流失率高达29%;得分最高的前30%的用户中,流失率高达24%。
1700499547
1700499548
通过逻辑回归模型得到的分数最高的前10%的用户中,流失率高达41%左右;得分最高的前20%的用户中,流失率高达27%;得分最高的前30%用户中,流失率高达23%。
1700499549
1700499550
通过对上述的模型效果的比较,大致可以认为,目前的神经网络模型相对于其他模型而言,有更高的预测效果,可以更多地有效锁定有流失风险的用户。
1700499551
1700499552
1700499553
1700499554
1700499556
数据挖掘与数据化运营实战:思路、方法、技巧与应用 6.6 与业务方讨论模型的初步结论,提出新的思路和模型优化方案
1700499557
[
上一页 ]
[ :1.700499508e+09 ]
[
下一页 ]