打字猴:1.70050017e+09
1700500170 从中不难发现,得到这些衍生变量所应用到的数学公式都很简单,但是其商业意义都是很明确的,而且跟具体的分析背景和分析思路密切相关。
1700500171
1700500172 衍生变量的产生主要依赖于数据分析师的业务熟悉程度和对项目思路的掌控程度,是数据分析师用思想创造出来的“艺术品”。如果没有明确的项目分析思路和对数据的透彻理解,是无法找到有针对性的衍生变量的。
1700500173
1700500174
1700500175
1700500176
1700500177 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497572]
1700500178 数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.5.2 改善变量分布的转换
1700500179
1700500180 在数据挖掘实践中,大多数区间型变量(Interval)原始分布状态偏差都较大,而且是严重不对称的。这种大偏度,严重不对称的分布出现在自变量中常常会干扰模型的拟合,最终会影响模型的效果和效率,如图8-1所示。如果通过各种数学转换,使得自变量的分布呈现(或者近似)正态分布,并形成倒钟形曲线,如图8-2所示,那么模型的拟合常常会有明显的提升,转换后自变量的预测性能也可能得到改善,最终将会显著提高模型的效果和效率。
1700500181
1700500182
1700500183
1700500184
1700500185 图8-1 某区间型变量的原始分布图(明显的偏差大,严重不对称)
1700500186
1700500187
1700500188
1700500189
1700500190 图8-2 变量经过取对数的转换,呈现倒钟形的正态分布图
1700500191
1700500192 常见的改善分布的转换措施如下:
1700500193
1700500194 ❑取对数(Log)。
1700500195
1700500196 ❑开平方根(Square Root)。
1700500197
1700500198 ❑取倒数(Inverse)。
1700500199
1700500200 ❑开平方(Square)。
1700500201
1700500202 ❑取指数(Exponential)。
1700500203
1700500204
1700500205
1700500206
1700500207 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497573]
1700500208 数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.5.3 分箱转换
1700500209
1700500210 对于区间型变量(Interval),除了进行上面提到的改善分布的转换措施之外,还可以进行另外的转换尝试,即分箱转换。
1700500211
1700500212 分箱转换(Binning)就是把区间型变量(Interval)转换成次序型变量(Ordinal),其转换的主要目的如下:
1700500213
1700500214 ❑降低变量(主要是指自变量)的复杂性,简化数据。比如,有一组用户的年龄,原始数据是区间型的,从20~80岁,每1岁都是1个年龄段;如果通过分箱转换,每10岁构成1个年龄组,就可以有效简化数据。
1700500215
1700500216 ❑提升自变量的预测能力。如果分箱恰当,是可以有效提升自变量和因变量的相关性的,这样就可以显著提升模型的预测效率和效果;尤其是当自变量与因变量之间有比较明显的非线性关系时,分箱操作更是不错的手段,可用于探索和发现这些相关性;另外,当自变量的偏度很大时,分箱操作也是值得积极尝试的方法。
1700500217
1700500218 从上面的分析可以看出,分箱操作的价值与改善分布转换的价值类似,都是努力提升自变量的预测能力,强化自变量与因变量的线性(或非线性)关系,从而可以明显提升预测模型的拟合效果。两者有异曲同工之处,在数据挖掘实践中,经常会对这两种方式分别进行尝试,择其优者而用之。
1700500219
[ 上一页 ]  [ :1.70050017e+09 ]  [ 下一页 ]