1700500139
1700500141
数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.5 数据转换
1700500142
1700500143
对于数据挖掘分析建模来说,数据转换(Transformation)是最常用、最重要,也是最有效的一种数据处理技术。经过适当的数据转换后,模型的效果常常可以有明显的提升,也正因为这个原因,数据转换成了很多数据分析师在建模过程中最喜欢使用的一种数据处理手段。另一方面,在绝大多数数据挖掘实践中,由于原始数据,在此主要是指区间型变量(Interval)的分布不光滑(或有噪声)、不对称分布(Skewed Distributions),也使得数据转化成为一种必需的技术手段。
1700500144
1700500145
按照采用的转换逻辑和转换目的的不同,数据转换主要可以分为以下四大类:
1700500146
1700500147
❑产生衍生变量。
1700500148
1700500149
❑改善变量分布特征的转换,这里主要指对不对称分布(Skewed Distributions)所进行的转换。
1700500150
1700500151
❑区间型变量的分箱转换。
1700500152
1700500153
❑针对区间型变量进行的标准化操作。
1700500154
1700500156
8.5.1 生成衍生变量
1700500157
1700500158
这类转换的目的很直观,即通过对原始数据进行简单、适当的数学公式推导,产生更加有商业意义的新变量。举个简单的例子,在对原始数据中的用户出生年月日进行处理时,把当前的年月日减去用户出生年月日,得到一个新的字段“用户年龄”,这个新的字段作为一个区间型变量(Interval)明显比原始变量用户出生年月日要更有商业含义,也更加适合进行随后的数据分析建模应用。一般常见的衍生变量如下。
1700500159
1700500160
❑用户月均、年均消费金额和消费次数。
1700500161
1700500162
❑用户在特定商品类目的消费金额占其全部消费金额的比例。
1700500163
1700500164
❑家庭人均年收入。
1700500165
1700500166
❑用户在线交易终止的次数占用户在线交易成功次数的比例。
1700500167
1700500168
❑用户下单付费的次数占用户下单次数的比例。
1700500169
1700500170
从中不难发现,得到这些衍生变量所应用到的数学公式都很简单,但是其商业意义都是很明确的,而且跟具体的分析背景和分析思路密切相关。
1700500171
1700500172
衍生变量的产生主要依赖于数据分析师的业务熟悉程度和对项目思路的掌控程度,是数据分析师用思想创造出来的“艺术品”。如果没有明确的项目分析思路和对数据的透彻理解,是无法找到有针对性的衍生变量的。
1700500173
1700500174
1700500175
1700500176
1700500178
数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.5.2 改善变量分布的转换
1700500179
1700500180
在数据挖掘实践中,大多数区间型变量(Interval)原始分布状态偏差都较大,而且是严重不对称的。这种大偏度,严重不对称的分布出现在自变量中常常会干扰模型的拟合,最终会影响模型的效果和效率,如图8-1所示。如果通过各种数学转换,使得自变量的分布呈现(或者近似)正态分布,并形成倒钟形曲线,如图8-2所示,那么模型的拟合常常会有明显的提升,转换后自变量的预测性能也可能得到改善,最终将会显著提高模型的效果和效率。
1700500181
1700500182
1700500183
1700500184
1700500185
图8-1 某区间型变量的原始分布图(明显的偏差大,严重不对称)
1700500186
1700500187
1700500188
[
上一页 ]
[ :1.700500139e+09 ]
[
下一页 ]