1700499789
1700499790
1700499791
1700499792
1700499794
数据挖掘与数据化运营实战:思路、方法、技巧与应用 7.2.3 从建模的技术技巧上优化
1700499795
1700499796
之所以本节专门针对建模技巧进行总结和分享,对应于7.2.2节的建模技术思路上优化,是想强调,在建模过程中,业务思路上的优化比建模技术思路上的优化更重要,而建模技术思路上的优化又比单纯的建模技巧的优化更重要。很多数据分析师,尤其是刚刚涉足该职业的分析师,总是非常热衷于对技巧的掌握和应用,殊不知在真正成功的数据挖掘应用中这些建模技巧最多只是“术”层面上的,而所谓“术”更多的是“锦上添花”而不能“雪中送炭”。与之相对应的是,思路上的优化,尤其是业务思路上的优化才是真正“道”层面上的,是方向性的,是可以产生质变的因素和条件,所以它是可以“雪中送炭”的,是最有可能显著提升模型效果的。
1700499797
1700499798
既然建模技巧更多起到的是“锦上添花”的作用,这倒也很符合模型优化的初衷,如果业务思路正确了,建模技术思路正确了,再加上这些建模技巧,的确是可以有效优化和提升模型的。
1700499799
1700499800
事实上,本书相当的篇幅都涉及了各种类型课题即模型的分析技巧和建模技巧。第8~13章分别介绍了大量的建模技巧和需要注意的事项,这些所罗列、分享的各种技术细节和技巧,当然也可以用于建模优化的技巧和措施,有关这6章所罗列的技术措施和技巧,本章就不重复了,希望读者在实践中将它们有机地结合起来,并应用到具体的业务实践中。
1700499801
1700499802
1700499803
1700499804
1700499806
数据挖掘与数据化运营实战:思路、方法、技巧与应用 7.3 如何思考优化的限度
1700499807
1700499808
在已经可以满足业务需求的情况下,是否继续优化模型呢?这里要考虑的就是优化限度,即适度的问题。其中有以下两个主要因素需要重点思考。
1700499809
1700499810
数据化运营实践中的数据分析和数据挖掘非常强调时效性,在业务需求给出的有限时间里完成优化并投入应用。因此,时间因素是思考适度的主要维度。分析师要对模型继续优化的方案、思路有非常大的把握对由此决定的优化完成的时间节点有准确的判断,以确保是在业务需求规定的时间节点之前完成优化的。
1700499811
1700499812
从投入与产出的对比来考虑是思考适度的另一个主要思路。成熟的、经验丰富的数据分析师对于模型优化的投入比较清楚,比如,需要什么技术、什么思路,具体如何优化,大概需要多少资源配合等,在对这些优化的投入进行综合考虑后,再对比预计优化后的提升效果大概有多大,两者权衡之后,即可判断出是否有必要继续优化。当然,这里的权衡和比较需要数据分析师本身有较好的分析功底和丰富的项目经验,所谓运筹帷幄之中,决胜千里之外,这种预判的能力是高级数据分析师应该也必须具备的技术能力和功底。
1700499813
1700499814
1700499815
1700499816
1700499818
数据挖掘与数据化运营实战:思路、方法、技巧与应用 7.4 模型效果评价的主要指标体系
1700499819
1700499820
模型的评价指标和评价体系是建模过程中的一个重要环节,不同类型的项目、不同类型的模型有各自的评价指标和体系。在7.2节我们也提到,从第8章一直到第13章将针对不同类型的模型分别进行详述,包括相应的技术、思路、应用、技巧,当然也包括相应的评价体系和指标,所以本节不再重复。本节将重点介绍关于目标变量是二元变量(即是与否,1与0)的分类(预测)模型的评价体系和评价指标。之所以在这里强调目标变量是二元变量的分类(预测)模型(Binary Models),主要是因为在数据化运营实践场景中,大量的模型属于二元变量的分类(预测)模型,比如预测用户是否响应运营活动、预测用户是否会流失、预测用户是否在最近1个月内会购买某产品等;而且,这类二元变量的分类(预测)模型相比于其他类型的模型来说有更多的评价维度和评价指标,也更繁杂。
1700499821
1700499823
7.4.1 评价模型准确度和精度的系列指标
1700499824
1700499825
在介绍系列指标之前,先明确以下4个基本的定义:
1700499826
1700499827
❑True Positive(TP):指模型预测为正(1)的,并且实际上也的确是正(1)的观察对象的数量。
1700499828
1700499829
❑True Negative(TN):指模型预测为负(0)的,并且实际上也的确是负(0)的观察对象的数量。
1700499830
1700499831
❑False Positive(FP):指模型预测为正(1)的,但是实际上是负(0)的观察对象的数量。
1700499832
1700499833
❑False Negative(FN):指模型预测为负(0)的,但是实际上是正(1)的观察对象的数量。
1700499834
1700499835
上述4个基本定义可以用一个表格形式简单地体现,如表7-1所示。
1700499836
1700499837
1700499838
[
上一页 ]
[ :1.700499789e+09 ]
[
下一页 ]