打字猴:1.700500434e+09
1700500434 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497582]
1700500435 数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.6.7 部分建模算法自身的筛选功能
1700500436
1700500437 除了上述这些具体的、直接的指标计算和参考的方法之外,在数据挖掘商业实战中,还有一种“借力”的巧妙方法,那就是借助于一些成熟的算法进行初步的运算,利用模型的初步结果筛选出有价值的自变量,再把这些经过初期过滤的自变量放进模型和算法中进行真正意义上的建模和验证工作。
1700500438
1700500439 可供“借力”的算法或者模型包括决策树模型、回归(含线性回归和逻辑回归)模型等,在建模前期的变量筛选阶段,借力可以帮助初选出有价值的自变量。需要强调的是,在这些场景中,这些算法工具和模型可能无法实现最终的预测(分类)功能,而仅仅是用作自变量的初步筛选。
1700500440
1700500441 比如线性回归和逻辑回归,算法本身通过不断地增加或者剔除变量,来检验各输入变量对于预测的价值,这就是所谓的Stepwise算法,但是,即便如此,最好在使用之前先进行人为的初步筛选,从而把精简后的变量交给算法去选择。在大数据量建模的时候尤其要如此。
1700500442
1700500443
1700500444
1700500445
1700500446 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497583]
1700500447 数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.6.8 降维的方法
1700500448
1700500449 在数据挖掘的实战中,面对数量庞大的原始变量,除了上述种种指标及思路外,还有一种方法也会经常被应用,那就是数据降维,具体来说,包括主成分分析和变量聚类等。其中,对于主成分分析,已在2.3.8节中进行了详细介绍;对于变量聚类,将在8.7节的共线性问题中做专门介绍。
1700500450
1700500451 通过采取降维的措施和方法,可以有效精简输入变量的数目,在一定程度上实现有效筛选模型输入变量的目标。
1700500452
1700500453
1700500454
1700500455
1700500456 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497584]
1700500457 数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.6.9 最后的准则
1700500458
1700500459 本节到目前为止,谈到了数据挖掘实战中常见的筛选输入变量的各种方法和原理,这些分析技术层面的技巧和工具的熟练应用可以有效提高我们筛选输入变量的效率和质量。但是,业务环境千差万别,应用场景纷繁复杂,很多时候我们既要考虑技术层面的指标及判断方法,同时又要受实战环境中诸多因素的影响和制约,包括时间、资源、成本和目标等。
1700500460
1700500461 有些时候,尽管通过上述的分析技术可发现某个变量很重要,但是具体实战中也可能会选择放弃,个中的原因可能会涉及环境因素,比如说该变量的收集要花费太长的时间,或者花费过多的成本,那么权衡下来,就有可能放弃该变量。毕竟,只要最终的模型能满足初期的业务需求就可以了,模型的优化和提升是需要兼顾和权衡其他因素的制约的。
1700500462
1700500463 既要贯彻落实上述种种有效的筛选输入变量的方法和原理,又要在数据挖掘商业实战中综合考虑诸多环境因素和制约条件,并加以权衡和折中,这就是筛选输入变量的方法和原理中最后的准则。这个准则体现了筛选变量的过程是个辩证的、丰富多彩的、充满活力的过程,体现了数据分析挖掘强大的生命力和勃勃生机。
1700500464
1700500465
1700500466
1700500467
1700500468 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497585]
1700500469 数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.7 共线性问题
1700500470
1700500471 共线性问题是困扰模型预测能力的一个常见问题。所谓共线性,又叫多重共线性,是指自变量之间存在较强的,甚至完全的线性相关关系。当自变量之间高度相关时,模型参数会变得不稳定,模型的预测能力会降低。同时,严重的共线性增加了对于模型结果的解释成本,因为它致使很难确切分辨每个自变量对因变量的影响。所以,在建模前期的变量筛选环节,就要对共线性问题引起足够的重视,并采取有效措施尽量加以避免。
1700500472
1700500473 需要强调的是,理论上来讲,输入变量之间除了存在共线性之外,完全可能存在其他各种非线性的关系,这些非线性的关系也很可能如共线性一样影响模型的预测能力。但是,我们无法完全掌握这些非线性关系,所以,只能以考察它们之间的线性关系为基础来排除一些主要的线性关系的变量。
1700500474
1700500475 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497586]
1700500476 8.7.1 如何发现共线性
1700500477
1700500478 常见的识别共线性的方法如下:
1700500479
1700500480 ❑相关系数的方法。最常见的就是皮尔逊相关系数(Pearson Correlation),详细内容请参考8.6.3节,对于线性相关指标的详细讨论。
1700500481
1700500482 ❑通过模型结论的观察。比如,在回归模型中,如果回归系数的标准差过大,就可能意味着变量之间存在着共线性问题。
1700500483
[ 上一页 ]  [ :1.700500434e+09 ]  [ 下一页 ]