1700499806
数据挖掘与数据化运营实战:思路、方法、技巧与应用 7.3 如何思考优化的限度
1700499807
1700499808
在已经可以满足业务需求的情况下,是否继续优化模型呢?这里要考虑的就是优化限度,即适度的问题。其中有以下两个主要因素需要重点思考。
1700499809
1700499810
数据化运营实践中的数据分析和数据挖掘非常强调时效性,在业务需求给出的有限时间里完成优化并投入应用。因此,时间因素是思考适度的主要维度。分析师要对模型继续优化的方案、思路有非常大的把握对由此决定的优化完成的时间节点有准确的判断,以确保是在业务需求规定的时间节点之前完成优化的。
1700499811
1700499812
从投入与产出的对比来考虑是思考适度的另一个主要思路。成熟的、经验丰富的数据分析师对于模型优化的投入比较清楚,比如,需要什么技术、什么思路,具体如何优化,大概需要多少资源配合等,在对这些优化的投入进行综合考虑后,再对比预计优化后的提升效果大概有多大,两者权衡之后,即可判断出是否有必要继续优化。当然,这里的权衡和比较需要数据分析师本身有较好的分析功底和丰富的项目经验,所谓运筹帷幄之中,决胜千里之外,这种预判的能力是高级数据分析师应该也必须具备的技术能力和功底。
1700499813
1700499814
1700499815
1700499816
1700499818
数据挖掘与数据化运营实战:思路、方法、技巧与应用 7.4 模型效果评价的主要指标体系
1700499819
1700499820
模型的评价指标和评价体系是建模过程中的一个重要环节,不同类型的项目、不同类型的模型有各自的评价指标和体系。在7.2节我们也提到,从第8章一直到第13章将针对不同类型的模型分别进行详述,包括相应的技术、思路、应用、技巧,当然也包括相应的评价体系和指标,所以本节不再重复。本节将重点介绍关于目标变量是二元变量(即是与否,1与0)的分类(预测)模型的评价体系和评价指标。之所以在这里强调目标变量是二元变量的分类(预测)模型(Binary Models),主要是因为在数据化运营实践场景中,大量的模型属于二元变量的分类(预测)模型,比如预测用户是否响应运营活动、预测用户是否会流失、预测用户是否在最近1个月内会购买某产品等;而且,这类二元变量的分类(预测)模型相比于其他类型的模型来说有更多的评价维度和评价指标,也更繁杂。
1700499821
1700499823
7.4.1 评价模型准确度和精度的系列指标
1700499824
1700499825
在介绍系列指标之前,先明确以下4个基本的定义:
1700499826
1700499827
❑True Positive(TP):指模型预测为正(1)的,并且实际上也的确是正(1)的观察对象的数量。
1700499828
1700499829
❑True Negative(TN):指模型预测为负(0)的,并且实际上也的确是负(0)的观察对象的数量。
1700499830
1700499831
❑False Positive(FP):指模型预测为正(1)的,但是实际上是负(0)的观察对象的数量。
1700499832
1700499833
❑False Negative(FN):指模型预测为负(0)的,但是实际上是正(1)的观察对象的数量。
1700499834
1700499835
上述4个基本定义可以用一个表格形式简单地体现,如表7-1所示。
1700499836
1700499837
1700499838
1700499839
1700499840
基于上面的4个基本定义,可以延伸出下列评价指标:
1700499841
1700499842
❑Accuracy(正确率):模型总体的正确率,是指模型能正确预测、识别1和0的对象数量与预测对象总数的比值,公式如下:
1700499843
1700499844
1700499845
1700499846
1700499847
❑Error rate(错误率):模型总体的错误率,是指模型错误预测、错误识别1和0观察对象的数量与预测对象总数的比值,也即1减去正确率的差,公式如下:
1700499848
1700499849
1700499850
1700499851
1700499852
❑Sensitivity(灵敏性):又叫击中率或真正率,模型正确识别为正(1)的对象占全部观察对象中实际为正(1)的对象数量的比值,公式如下:
1700499853
1700499854
[
上一页 ]
[ :1.700499805e+09 ]
[
下一页 ]