1700500007
1700500008
1700500010
数据挖掘与数据化运营实战:思路、方法、技巧与应用 第8章 常见的数据处理技巧
1700500011
1700500012
工欲善其事,必先利其器。
1700500013
1700500014
——《论语·卫灵公》
1700500015
1700500016
8.1 数据的抽取要正确反映业务需求
1700500017
1700500018
8.2 数据抽样
1700500019
1700500020
8.3 分析数据的规模有哪些具体的要求
1700500021
1700500022
8.4 如何处理缺失值和异常值
1700500023
1700500024
8.5 数据转换
1700500025
1700500026
8.6 筛选有效的输入变量
1700500027
1700500028
8.7 共线性问题
1700500029
1700500030
在前面的章节里,重点谈到了数据挖掘实践中值得我们警惕和预防的错误观念(第5章),以及模型优化中主要用到的优化原则和方法(第7章)。虽然在“道”层面上的内容对于数据挖掘应用的影响是决定性的和根本性的,但是在“术”层面上的内容对于数据挖掘应用来说也是不可或缺的,只要应用得当定能“锦上添花”。另外,常见挖掘技术上的使用技巧,即所谓的“术”,属于数据分析师分析的基本功,有了基本功不代表你就可以进行完美的数据挖掘应用,但是如果没有基本功,你的数据挖掘应用肯定不会成功,从这个角度来看,这些“术”应该成为每个数据分析师必备的技能和知识,它们很重要也很基础。
1700500031
1700500032
提到数据挖掘中的技巧,首当其冲就是数据处理中的技巧,另外还包括各种挖掘算法的应用技巧,以及数据化运营整个闭环中的各环节所涉及的一些相应技巧。鉴于数据挖掘项目实践中有将近60%左右的时间和精力是用来熟悉、清理和转换数据的,因此本章专门针对数据处理中一些普遍性的,同时也是非常重要的一些技巧进行分析、总结和提炼。至于各种挖掘算法应用中的技巧和数据化运营中的其他技巧,将在随后相关的章节中分别进行讲解。
1700500033
1700500034
本章将对数据挖掘中最常见的一些判断和处理数据的方法进行展开阐述,对于本章的各节都可以看成是一个独立的环节,其中介绍了常见的容易犯错误的地方,同时每一节又会独立地从技术角度来思考挖掘过程中的风险点和需要注意的地方。
1700500035
1700500036
1700500037
1700500038
1700500040
数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.1 数据的抽取要正确反映业务需求
1700500041
1700500042
一个数据挖掘(分析)需求一旦被分析师接受和认可,数据分析师接下来要做的事情就是抽取分析用的数据,并熟悉数据。在数据挖掘实践中,因为抽取的数据不能正确反映业务需求而导致挖掘项目失败的例子并不少见,原因很简单,从错误的数据里,肯定是不能找到正确的分析挖掘结论的。举例来说,某业务分析需求是找出因为使用店铺装修工具而带来显著销售收入提升的用户群体特征,如果不对此需求详加思考,仅仅凭借字面意思,就去抽取使用了该装修工具并且有明显销售收入提升的人群,然后对该人群加以特征分析,其结果就很有可能是“垃圾进,垃圾出(Garbage In,Garbage Out)”,错误的结论将严重误导业务方接下来的业务应用。本案例里为什么上面的抽取数据思路有误呢?是其没有正确反映业务需求吗?难道不是严格按照需求描述来抽取数据的吗?
1700500043
1700500044
之所以说上述的抽取思路是错误的,是因为对于本案例所在的平台来说,用户可以有很多不同的付费工具、付费服务去提升他们的销售收入,比如用户在平台上的竞价排名就可以很有效地提升其销售额。很有可能在购买和使用了店铺装修工具的用户中,有相当数量和相当比例的人也同时使用了竞价排名等多种方式去提升销售额,换句话说,如果仅仅抽取使用了店铺装修工具并且带来显著销售收入提升的用户,而没有排除同时也使用了其他诸如竞价排名等方式的用户,那得到的特征人群的描述肯定是不符合当初的业务需求定义的。
1700500045
1700500046
在本案例中,要如何避免出现上述的错误呢?如何保证数据的抽取能尽可能反映和满足业务的需求呢?一个常用的方法就是使用控制变量,确保抽取的用户群里,不包含使用了竞价排名等主要的提升流量和销售收入手段的用户,尽可能使得这个用户群的确是因为仅仅使用了店铺装修工具而带来的销售收入提升。
1700500047
1700500048
在数据挖掘分析的实践中,如何尽量确保数据的抽取能正确反映业务需求呢?以下一些方法、原则及技巧可供参考和借鉴。
1700500049
1700500050
❑真正熟悉业务背景,这是确保数据抽取能正确反映业务需求的王道。如果分析师对于业务背景非常熟悉,那么在上述的案例中,面对相应的分析需求,他在脑海里的第一反应就应该是排除掉诸如竞价排名之类的影响,真正过滤出仅仅使用了店铺装修工具并且提升了销售收入的特定用户群体。熟悉业务背景,这句话看似老生常谈,却是历久弥坚。在很多时候最朴素的总是最珍贵的,最平凡的总是最核心的,生活的哲理也是数据挖掘的哲理,即所谓的万法归宗。
1700500051
1700500052
❑确保抽取的数据所对应的当时业务背景,与现在的业务需求即将应用的业务背景没有明显的重大改变。数据挖掘分析所针对的分析数据是有时效性的,如果应用场景的基础条件发生了根本变化,根据历史数据做出的挖掘结论对于变化了的业务环境来说是没有意义的。举例来说,如果最初的产品销售是基于猛烈的折扣和赠品活动来推动的,后期的销售并没有类似的折扣和赠品,那么基于前面折扣和赠品所带来的销售数据所做的付费用户特征分析,或者付费用户预测模型,是不能用到后期(没有折扣和赠品)对付费用户的预测上的。类似的业务环境改变的场景在瞬息万变的企业经营中是司空见惯的,数据分析师在分析挖掘实践中,一定要有意识地提醒自己,建模数据所对应的当时的业务环境,与现在业务需求所对应的业务环境是否已发生了根本性的变化,这样才能确保数据的抽取可正确反映业务需求。
1700500053
1700500054
1700500055
1700500056
[
上一页 ]
[ :1.700500007e+09 ]
[
下一页 ]