打字猴:1.70049994e+09

1700499940

1700499941 图7-4　KS曲线绘制步骤3）示意图

1700499942

1700499943 4）各分数对应下累计的、真正的正（1）观察对象的百分比与累计的、真正的负（0）观察对象的百分比之差的最大值就是KS值。在本示范中，KS值为46.7%，如图7-5所示。

1700499944

1700499945

1700499946

1700499947

1700499948 图7-5　KS曲线绘制步骤4）示意图

1700499949

1700499950

1700499951

1700499952

1700499953 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497561]

1700499954 数据挖掘与数据化运营实战：思路、方法、技巧与应用 7.4.4　Lift值

1700499955

1700499956 虽然前几节分享了不同的评价指标和方法，但是在数据挖掘建模的业务实践中，用得最多的评价模型方法其实是Lift值，它直观、通俗易懂，容易为业务方理解，更重要的是这种方法可以根据业务需要的不同，直接显示对应不同目标群体规模（不同数量规模）的模型效果，方便业务应用时挑选最恰当的受众群体规模。比如，挑选打分人群里预测分数最高的10%的人群，还是20%的人群，或者是40%的人群等。

1700499957

1700499958 Lift值是如何计算的呢？我们知道，二元分类（预测）模型在具体的业务场景中，都有一个Random Rate，所谓Random Rate，是指在不使用模型的时候，基于已有业务效果的正比例，也就是不使用模型之前“正”的实际观察对象在总体观察对象中的占比，这个占比也称作“正”事件的随机响应概率。如果经过建模，有了一个不错的预测模型，那么这个模型就可以比较有效锁定（正确地分类出、预测出大多数的“正”的观察对象）群体了，所谓“有效”是指在预测概率的数值从高到低的排序中，排名靠前的观察值中，真正的“正”观察值在累计的总观察值里的占比应该是高于Random Rate的。

1700499959

1700499960 举例来说，某二元分类（预测）模型针对10 000名潜在用户打分（预测其购买某产品的可能性），Random Rate为9%，即其中有900人会实际购买该产品，将这10 000名用户经过模型打分后所得的（购买某产品可能性）概率分数从高到低进行排序，如果排名前10%的用户，即1000名概率最高的用户里实际购买产品的用户数量为600人，那么与Random Rate相比较，可得出排名前10%的用户其实际购买率的Lift值为6.67。

1700499961

1700499962

1700499963

1700499964

1700499965 或

1700499966

1700499967

1700499968

1700499969

1700499970 上述两种算法，得到的结果都是6.67，两种算法的思路有什么区别？为什么它们可以殊途同归？感兴趣的读者可以自己进行揣摩和思考。

1700499971

1700499972 上述两种算法，引出了跟Lift相关且在模型评估中也常常用到的两个评价指标，分别是响应率（%Response）和捕获率（%Captured Response），这两个指标反映的是与Lift基本相同的意思，都是评估模型的效果和效率，但是它们比Lift更加直观，更加容易理解，因此在实践中，尤其是在与业务方交流、沟通模型效果评价时）经常采用。

1700499973

1700499974 对%Response和%Captured Response的应用，也如Lift的应用一样，首先要把经过模型预测后的观察对象按照预测概率的分数从高到低进行排序，然后对这些排序后的观察对象按照均等的数量划分成10个区间，或者20个区间，每个区间里观察对象的数量一致（概率分数的顺序不变），这样各个区间可以被命名为排序最高的前10%的对象、排序最高的前20%的对象等。

1700499975

1700499976 响应率是指上述经过概率分数排序后的某区间段或累计区间观察对象中，属于正（1）的观察对象占该区间或该累计区间总体观察对象数量的百分比。很明显，响应率越大，说明在该区间或该累计区间模型的预测准确度越高，如图7-6所示。

1700499977

1700499978

1700499979

1700499980

1700499981 图7-6　模型响应率曲线

1700499982

1700499983 从图7-6可以发现，最上面的一条线是神经网络模型的响应率曲线，在概率得分从高到低排序的前10%的观察对象中，有70%是实际上属于正（1）的；前20%的观察对象中，有将近63%是实际上属于正（1）的，在后面的观察对象也可以依次找出对应的响应率。

1700499984

1700499985 捕获率是指上述经过概率分数排序后的某区间段或累计区间的观察对象中，属于正（1）的观察对象占全体观察对象中属于正（1）的总数的百分比。捕获率顾名思义就是某区间或累计区间模型可以抓住的正（1）的观察对象占总体，正（1）的观察对象的比例，如图7-7所示。

1700499986

1700499987 从图7-7可以看出，最上面的一条线是神经网络模型的捕获率曲线，在概率得分从高到低排序的前10%的观察对象中，实际是正（1）的观察对象占全部正（1）总体数量的近25%；前20%的观察对象中，实际是正（1）的观察对象占全部正（1）总体数量的近44%。

1700499988

1700499989

[ 上一页 ] [ :1.70049994e+09 ] [ 下一页 ]