1700499786
针对细分群体分别建模也是建模过程中常用的、有效的模型优化思路和方法之一。细分建模的思路和作用很容易理解,细分本身就是对分析对象的一次筛选,即所谓的物以类聚,人以群分。细分后的各个群体相比之前的整体对象来说一定是多了些精细化的分割,群里多了一些共性,群里的数据因此更加“整齐,少了噪声”,群间多了一些差异,所以更适合分别建模,分别分析,基于这些精细化的群体分别建模,常能更明显提升模型的效果。当然了,不是说只要做了细分,模型就一定会得到明显的提升,因为模型的提升还涉及具体的细分方案是否合理、是否合适,细分的关键指标的挑选是否精准,细分后核心群体里的逻辑关系是否与建模所希望寻找的逻辑关系相吻合等因素。但是,总体来说,细分后的群体,尤其是核心群体(占有最大比例的目标事件)的模型效果提升常常是很明显的。比如,某产品是用于线上店铺装修的一个付费产品,其功能是帮助店家有效装修网上的店铺。在有关该产品的付费用户预测模型中,初期的模型效果不太理想,但我们通过建模和数据摸底发现了一个有趣的现象,那就是过去30天主动查看自己店面外观(该变量是指卖家像买家那样浏览自己的店铺前台,而不是作为卖家进行后台打理)的用户相比于过去30天完全不查看自己店面外观的用户来说,前者购买该产品的比例远远高于后者,并且在最终成为该产品的付费用户中,来自前者的付费用户数量远远高于来自后者的付费用户。其比例为91∶9,限于企业的商业隐私,无法提供更具体的数据规模,不过,相信现有的数据和背景已经足够让读者充分理解项目背景,并体会项目中的思路和方法了。因此在该模型的优化过程中,我们采用了细分建模的优化思路,并针对重点细分群体(该群体中付费用户数量占总付费用户数量的91%,其基本阀值是“过去30天内主动查看自己店面外观达1天次以上的用户”)重新建模,结果模型的效果有了明显的提升;而对于另外剩下的那个小群体(该群体中付费用户数量占总付费用户数量的9%,其基本阀值是“过去30天内主动查看自己店面外观为0天次的用户”),我们用简单的统计分析工具做了一个简单的重要变量筛选,有效锁定了该群体中更有可能转化为付费用户的人群,并找出其特征。其实,就算在这个小群体里无法找出付费用户的特征,整个项目的优化也是比较明显的,因为虽然我们放弃了9%的付费用户,但是通过细分优化后的模型,可以更有效地覆盖可能产生付费用户中91%的目标用户的预测模型,并且模型的提升和效率更加明显。因此从这个案例中,也可以得到这样的认识,即细分建模有时候会通过故意漏掉一小部分目标用户,从而可以针对剩下的绝大多数目标用户进行更有效的预测。
1700499787
1700499788
当然了,针对细分群体分别建模更多的时候并非如上面的案例一样操作,即只针对“过去30天主动查看自己店面外观的用户”建模,放弃对“过去30天没有查看自己店面外观的用户”建模,而是真正地分别建立多个模型,从而一一对应不同的核心客户群体。同样是苹果手机iPhone的核心目标群体,即目标消费者,其实可以细分成苹果发烧友消费者、非发烧友消费者,两个群体的购买动机、消费心理等一定有比较明显的差异,从理论上来说,对两个不同群体分别建模来进行分析应该比笼统地分析建模更加精准,这是很容易理解的。
1700499789
1700499790
1700499791
1700499792
1700499794
数据挖掘与数据化运营实战:思路、方法、技巧与应用 7.2.3 从建模的技术技巧上优化
1700499795
1700499796
之所以本节专门针对建模技巧进行总结和分享,对应于7.2.2节的建模技术思路上优化,是想强调,在建模过程中,业务思路上的优化比建模技术思路上的优化更重要,而建模技术思路上的优化又比单纯的建模技巧的优化更重要。很多数据分析师,尤其是刚刚涉足该职业的分析师,总是非常热衷于对技巧的掌握和应用,殊不知在真正成功的数据挖掘应用中这些建模技巧最多只是“术”层面上的,而所谓“术”更多的是“锦上添花”而不能“雪中送炭”。与之相对应的是,思路上的优化,尤其是业务思路上的优化才是真正“道”层面上的,是方向性的,是可以产生质变的因素和条件,所以它是可以“雪中送炭”的,是最有可能显著提升模型效果的。
1700499797
1700499798
既然建模技巧更多起到的是“锦上添花”的作用,这倒也很符合模型优化的初衷,如果业务思路正确了,建模技术思路正确了,再加上这些建模技巧,的确是可以有效优化和提升模型的。
1700499799
1700499800
事实上,本书相当的篇幅都涉及了各种类型课题即模型的分析技巧和建模技巧。第8~13章分别介绍了大量的建模技巧和需要注意的事项,这些所罗列、分享的各种技术细节和技巧,当然也可以用于建模优化的技巧和措施,有关这6章所罗列的技术措施和技巧,本章就不重复了,希望读者在实践中将它们有机地结合起来,并应用到具体的业务实践中。
1700499801
1700499802
1700499803
1700499804
1700499806
数据挖掘与数据化运营实战:思路、方法、技巧与应用 7.3 如何思考优化的限度
1700499807
1700499808
在已经可以满足业务需求的情况下,是否继续优化模型呢?这里要考虑的就是优化限度,即适度的问题。其中有以下两个主要因素需要重点思考。
1700499809
1700499810
数据化运营实践中的数据分析和数据挖掘非常强调时效性,在业务需求给出的有限时间里完成优化并投入应用。因此,时间因素是思考适度的主要维度。分析师要对模型继续优化的方案、思路有非常大的把握对由此决定的优化完成的时间节点有准确的判断,以确保是在业务需求规定的时间节点之前完成优化的。
1700499811
1700499812
从投入与产出的对比来考虑是思考适度的另一个主要思路。成熟的、经验丰富的数据分析师对于模型优化的投入比较清楚,比如,需要什么技术、什么思路,具体如何优化,大概需要多少资源配合等,在对这些优化的投入进行综合考虑后,再对比预计优化后的提升效果大概有多大,两者权衡之后,即可判断出是否有必要继续优化。当然,这里的权衡和比较需要数据分析师本身有较好的分析功底和丰富的项目经验,所谓运筹帷幄之中,决胜千里之外,这种预判的能力是高级数据分析师应该也必须具备的技术能力和功底。
1700499813
1700499814
1700499815
1700499816
1700499818
数据挖掘与数据化运营实战:思路、方法、技巧与应用 7.4 模型效果评价的主要指标体系
1700499819
1700499820
模型的评价指标和评价体系是建模过程中的一个重要环节,不同类型的项目、不同类型的模型有各自的评价指标和体系。在7.2节我们也提到,从第8章一直到第13章将针对不同类型的模型分别进行详述,包括相应的技术、思路、应用、技巧,当然也包括相应的评价体系和指标,所以本节不再重复。本节将重点介绍关于目标变量是二元变量(即是与否,1与0)的分类(预测)模型的评价体系和评价指标。之所以在这里强调目标变量是二元变量的分类(预测)模型(Binary Models),主要是因为在数据化运营实践场景中,大量的模型属于二元变量的分类(预测)模型,比如预测用户是否响应运营活动、预测用户是否会流失、预测用户是否在最近1个月内会购买某产品等;而且,这类二元变量的分类(预测)模型相比于其他类型的模型来说有更多的评价维度和评价指标,也更繁杂。
1700499821
1700499823
7.4.1 评价模型准确度和精度的系列指标
1700499824
1700499825
在介绍系列指标之前,先明确以下4个基本的定义:
1700499826
1700499827
❑True Positive(TP):指模型预测为正(1)的,并且实际上也的确是正(1)的观察对象的数量。
1700499828
1700499829
❑True Negative(TN):指模型预测为负(0)的,并且实际上也的确是负(0)的观察对象的数量。
1700499830
1700499831
❑False Positive(FP):指模型预测为正(1)的,但是实际上是负(0)的观察对象的数量。
1700499832
1700499833
❑False Negative(FN):指模型预测为负(0)的,但是实际上是正(1)的观察对象的数量。
1700499834
1700499835
上述4个基本定义可以用一个表格形式简单地体现,如表7-1所示。
[
上一页 ]
[ :1.700499786e+09 ]
[
下一页 ]