1700500195
1700500196
❑开平方根(Square Root)。
1700500197
1700500198
❑取倒数(Inverse)。
1700500199
1700500200
❑开平方(Square)。
1700500201
1700500202
❑取指数(Exponential)。
1700500203
1700500204
1700500205
1700500206
1700500208
数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.5.3 分箱转换
1700500209
1700500210
对于区间型变量(Interval),除了进行上面提到的改善分布的转换措施之外,还可以进行另外的转换尝试,即分箱转换。
1700500211
1700500212
分箱转换(Binning)就是把区间型变量(Interval)转换成次序型变量(Ordinal),其转换的主要目的如下:
1700500213
1700500214
❑降低变量(主要是指自变量)的复杂性,简化数据。比如,有一组用户的年龄,原始数据是区间型的,从20~80岁,每1岁都是1个年龄段;如果通过分箱转换,每10岁构成1个年龄组,就可以有效简化数据。
1700500215
1700500216
❑提升自变量的预测能力。如果分箱恰当,是可以有效提升自变量和因变量的相关性的,这样就可以显著提升模型的预测效率和效果;尤其是当自变量与因变量之间有比较明显的非线性关系时,分箱操作更是不错的手段,可用于探索和发现这些相关性;另外,当自变量的偏度很大时,分箱操作也是值得积极尝试的方法。
1700500217
1700500218
从上面的分析可以看出,分箱操作的价值与改善分布转换的价值类似,都是努力提升自变量的预测能力,强化自变量与因变量的线性(或非线性)关系,从而可以明显提升预测模型的拟合效果。两者有异曲同工之处,在数据挖掘实践中,经常会对这两种方式分别进行尝试,择其优者而用之。
1700500219
1700500220
1700500221
1700500222
1700500224
数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.5.4 数据的标准化
1700500225
1700500226
数据的标准化(Normalization)转换也是数据挖掘中常见的数据转换措施之一,数据标准化转换的主要目的是将数据按照比例进行缩放,使之落入一个小的区间范围之内,使得不同的变量经过标准化处理后可以有平等分析和比较的基础。
1700500227
1700500228
最简单的数据标准化转换是Min-Max标准化,也叫离差标准化,是对原始数据进行线性变换,使得结果在[0,1]区间,其转换公式如下:
1700500229
1700500230
1700500231
1700500232
1700500233
其中,max为样本数据的最大值,min为样本数据的最小值。
1700500234
1700500235
关于数据的标准化转换,将在9.3.2节详细介绍。
1700500236
1700500237
总地来说,数据转换的方式多种多样,操作起来简单、灵活、方便,在实践应用中的价值也是比较明显的。但是,它也有缺点,其中主要的缺点在于,在具体的数据挖掘实践中有些非线性转换如Log转换、平方根转换、多次方转换等的含义无法用清晰的商业逻辑和商业含义向用户(业务应用方)解释。比如,你无法解释“把消费者在线消费金额取对数”在商业上是什么意思,这在一定程度上影响了业务应用方对模型的接受程度和理解能力。
1700500238
1700500239
当然,瑕不掩瑜,毕竟预测模型的最终目的是预测的准确度和精确度,数据转换在商业解释中的这点小小的遗憾当然无损其在强大的数据处理中的重要价值。
1700500240
1700500241
1700500242
1700500243
[
上一页 ]
[ :1.700500195e+09 ]
[
下一页 ]