1700499478
在本阶段,针对前面对业务的初步了解和需求背景的分析,数据分析师制订了初步的分析框架和分析计划。
1700499479
1700499480
分析框架的主要内容如下:
1700499481
1700499482
❑分析需求转化成数据分析项目中目标变量的定义。具体到本案例,高活跃度免费用户的流失是这样定义的,在某个时间点(A点)用户是满足高活跃度用户标准要求的(属于高活跃度用户群体),随后过A点7天,也就是1周之后,这1周也是配合运营的时间节奏来确定的,该用户从高活跃度群体跌落到中级甚至是最低级的活跃度群体里,并且在过A点14天,即2周之后仍然没有回到高活跃度标准的,就定义为高活跃度免费用户的流失群体。数据分析师在给出这个初步定义时,要强调上述高活跃度用户的流失定义只是当前的初步定义,随着后期进行数据抽取,并与业务方进一步讨论,有了更深入的分析后,上述流失的定义是可以修改和完善的,修改和完善的最终目的是为了数据分析和挖掘的工作能最有效地支持业务应用,并提升业务工作效率。
1700499483
1700499484
❑分析思路的大致描述。具体到本案例,分析思路是通过搭建分类模型来比较准确且有效地来提前锁定有可能流失的用户群体。
1700499485
1700499486
❑分析样本的数据抽取规则。关于数据抽取的规则,限于企业的商业机密,不能分享太多,基本上是指根据上面目标变量的定义,选择一个适当的时间窗口,然后抽取一定的样本数据。
1700499487
1700499488
❑潜在分析变量(模型输入变量)的大致圈定和罗列。经过前期与业务方的调研和沟通,数据分析师和业务方已经大致圈定了相关变量,即从业务经验判断和以往的分析工作中,提炼整理出来的大约63个原始变量,具体见表6-1。因涉及企业的商业隐私,这里就不具体说明各变量的中文含义了,总而言之,是从业务经验的角度大致罗列了这些似乎对目标变量的预测有意义的相关变量。
1700499489
1700499490
1700499491
1700499492
1700499493
1700499494
1700499495
1700499496
❑分析过程中的项目风险思考和主要的应对策略。具体到本案例,项目风险思考主要包括模型效果不好的可能性,即有可能分类模型的思路被证明是不好的,也有可能是模型效果不好,或者准确度不高,或者模型不稳定。是否有相应的分析对策来部分弥补,如果分类模型的思路被证明是行不通的,可以退而求其次进行流失用户的群体特征细分,或者重新定义流失用户等。
1700499497
1700499498
❑项目的落地应用价值分析和展望。具体到本案例,则主要集中在3个方面:模型投入应用后提前锁定有高流失风险的高活跃度用户群体,从而可以使运营方有针对性地开展挽留、服务等运营工作;可以将建模过程中发现的有价值的、最可能影响流失的重要字段和指标选择性地提供给运营方,用于制定运营方案和策略的依据和参考;针对影响流失的核心指标和字段,可以提供给相关业务方,以作为进行客户关系管理的依据和参考线索。
1700499499
1700499500
分析计划主要是指分析过程中时间节点的安排和相应的分析进度的设置,具体可见以下示例,见表6-2。
1700499501
1700499502
1700499503
1700499504
1700499505
1700499506
1700499507
1700499509
数据挖掘与数据化运营实战:思路、方法、技巧与应用 6.4 抽取样本数据、熟悉数据、数据清洗和摸底
1700499510
1700499511
本阶段的主要内容包括:根据前期讨论的分析思路和建模思路,以及初步圈定的分析字段(分析变量)编写代码,从数据仓库中提取分析、建模所需的样本数据;通过对样本数据的熟悉和摸底,找到无效数据、脏数据、错误数据等,并且对样本数据中存在的这些明显的数据质量问题进行清洗、剔除、转换,同时视具体的业务场景和项目需求,决定是否产生衍生变量,以及怎样衍生等。
1700499512
1700499513
在互联网行业,由于业务发展迅猛,产品日新月异,不断在优化或换代,且相关的存储方案和战略方向在不断修改和调整,所有这些因素都导致了数据仓库的数据存储或多或少都存在这样或那样的漏洞、缺憾、偏差,而且直接导致了具体抽取的分析样本数据中不可避免地存在无效数据、脏数据、错误数据等有问题的数据。对于这些数据问题,在本环节不仅要将其明确找出来,还要应用具体的技术手段来加以应对。具体针对本项目的数据质量来说,本阶段有下列主要的发现和应对策略:
1700499514
1700499515
❑通过对原始样本数据和原始字段的摸底、排查,发现有些字段缺失值高达50%以上,经过研究发现这些缺失是数据仓库存储过程中的记录缺失,或者是由于产品优化后的业务逻辑更改所造成的,这些问题虽然可以向相关的数据仓库接口人反映,但是对于本项目来说已经无法回滚所需的真实数据了,对这些数据我们采取直接删除的措施。
1700499516
1700499517
❑通过输入变量之间的相关性分析,找出潜在共线性问题的相关输入变量,对于高度线性相关的变量只保留一个。
1700499518
1700499519
❑在数据仓库的数据回滚过程中造成了某些字段的严重不符合逻辑或明显自相矛盾,比如用户最近30天登录网站次数为0,其最近30天发布产品信息的天数不为0。针对类似的严重不符合逻辑的数据问题,要提请数据仓库重新回滚数据,直到数据正确为止。
1700499520
1700499521
经过处理,即删除严重缺失数据、数据仓库重新回滚明显矛盾的数据、对高度相关性的部分数据的有取有舍,在本阶段结束时共保留了36个比较有意义的字段、变量和相应数据。
1700499522
1700499523
关于数据清洗的主要注意事项和常用技术,在第8章中会有比较详细的介绍和分析。
1700499524
1700499525
1700499526
1700499527
[
上一页 ]
[ :1.700499478e+09 ]
[
下一页 ]