1700501320
1700501321
1700501322
1700501324
数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.6.2 基本的数据摸底
1700501325
1700501326
为了慎重起见,数据分析团队与运营方协商,先针对网站平台的某一个细分产品类目的卖家进行初次成交的专题分析。视分析和建模的应用效果,再决定后期是否推广到全站的卖家。
1700501327
1700501328
因此,本次专题分析只针对代号为120023的细分产品类目卖家,根据网站平台的运营规律和节奏,初步的分析思路是通过对第N-1月份的卖家行为数据和属性数据的分析,寻找它们与卖家第N个月有实际的在线初次成交之间的关系。
1700501329
1700501330
在进行数据摸底后发现,截止当时项目进行时,代号为120023的细分产品类目卖家共有170 000家,交易次数为0,即是还没有发生初次成交的卖家,经过连续几个月的数据观察,发现每个月实现初次成交的卖家基本上稳定在2000家左右。如果基于总共170 000家来计算每个月初次成交的转换率,大约在1.12%。
1700501331
1700501332
根据数据分析师的项目经验以及运营方的业务判断,总数170 000的大池子里应该是可以通过数据分析找出一些简单的阀值过滤掉一批最不可能近期实现初次成交的卖家群体的。通过业务经验和连续几个月对重点字段的数据摸底,得到了如下结果:
1700501333
1700501334
❑月度登录“即时通信工具”达10天次以上的潜在卖家,平均每月大概为50 000人,其中在次月实现初次成交的用户有1900人左右(对比原始数据每月大概170 000的潜在卖家,次月实现(初次成交)的用户有2000人左右;浓缩过滤后只保留50 000人(过滤了大约71%的近期可能性很小的大部分卖家),但是次月实现初次成交的用户只过滤掉5%;换句话说,通过设置阀值月度登录即时通信工具达到10天次以上,初次成交的转换率就从原始的1.12%提升到3.5%左右。并且这个阀值的设立只是丢失了5%的初次成交卖家。找到这个阀值的意义在于,基于3.5%的转换率搭建的模型相比在原始转换率1.12%基础上搭建的模型来说要更加准确,更容易发现自变量与因变量之间的关系。
1700501335
1700501336
❑来自两个特定省份A省和B省的卖家,其初次成交的转换率约为3.3%,所覆盖的初次成交卖家数为70%左右,即是丢失了将近30%的初次成交卖家。
1700501337
1700501338
❑可交易Offer占比大于等于0.5的卖家,其初次成交的转换率约为3.7%,所覆盖的初次成交卖家数为85%左右。
1700501339
1700501340
基于上述的一些数据摸底和重要发现,数据分析师与业务方沟通后,决定设置阀值为月度登录即时通信工具达到10天次以上,在此基础上尝试数据分析挖掘建模和后期应用。
1700501341
1700501342
在数据摸底环节中,还有一个重要的基础性工作,那就是与业务方一起列出潜在的分析字段和分析指标,如图10-3所示[1]。这个工作是后期分析挖掘的基础,可圈定大致的分析指标和分析字段的范围,并据此进行数据的抽取工作。之所以强调要与业务方一起列出潜在的分析字段和分析指标,是因为在项目的前期阶段,业务方的业务经验和灵感非常重要,可以协助数据分析师考虑得更加全面和周详。
1700501343
1700501344
1700501345
1700501346
1700501347
图10-3 初步分析字段一览
1700501348
1700501349
在上述原始字段的基础上,数据分析师通过走访业务方,以及经过资深业务专家的检验,增添了一些重要的衍生变量如下:
1700501350
1700501351
❑类目专注度。公式是卖家该类目下总的有效商品Offer数量除以该卖家在网站中总的有效商品Offer。因为有足够的理由相信,类目专注度越高,越容易产生成交。
1700501352
1700501353
❑优质商品Offer占比。公式是卖家的优质Offer数量除以该卖家总的有效商品的Offer数量。因为有足够的理由相信,优质的商品Offer越多,越容易产生成交。
1700501354
1700501355
❑可在线交易Offer的占比。公式是卖家的可在线交易Offer数量除以该卖家总的有效商品的Offer数量。
1700501356
1700501357
[1]限于业务方的商业隐私,这些字段和指标的中文含义就不详述了。
1700501358
1700501359
1700501360
1700501361
1700501363
数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.6.3 建模数据的抽取和清洗
1700501364
1700501365
在完成了前期摸底和变量罗列之后,接下来的工作就是抽取建模数据和熟悉、清洗数据环节了。这个环节的工作量是最大的,它和随后的数据转换环节,所需要消耗的时间占整个数据分析建模项目时间的70%,甚至更多。
1700501366
1700501367
抽取、熟悉、清洗数据的目的主要包括:熟悉数据的分布特征和数据的基本统计指标、发现数据中的缺失值(及规模)、发现数据中的异常值(及规模)、发现数据中明显与业务逻辑相矛盾的错误。这样最终就可以得到比较干净的数据,从而提高随后分析的准确性和后期模型搭建的效果了。
1700501368
1700501369
在本项目的数据清洗过程中,发现了以下的数据错误:
[
上一页 ]
[ :1.70050132e+09 ]
[
下一页 ]