1702629018
其中最著名的当属IBM公司的拉凯什·阿格拉瓦在1993年为英国玛莎百货所作的购物车分析。关心数据挖掘的人,应该都听说过“尿片与啤酒”的故事吧?
1702629019
1702629020
表6–1 尿片与啤酒的购买分析①
1702629021
1702629022
购买啤酒 没购买啤酒 共计 购买尿片 20 30 50 没购买尿片 280 670 950 共计 300 700 1 000 比如,我们对1 000位顾客的“购物车”,也就是超市的购物小票进行统计,分析“是否购买啤酒”和“是否购买尿片”的数据,得到的结果如表6–1所示。其中同时购买尿片和啤酒的顾客有20人,只买啤酒的顾客有280人,只买尿片的顾客有30人,两者都没买的顾客有670人。
1702629023
1702629024
这个数据能够说明什么呢?阿格拉瓦认为最值得关注的地方在于“购买的尿片的人中有40%(50人中有20人)的人都购买了啤酒”。与其他商品进行比较之后就会发现,“买尿片的人”最有可能同时购买的商品就是啤酒。所以,我们可以得出一个推论,即向买尿片的人推销啤酒应该可以提高啤酒的销量。在购物车分析中,像这样“购买某种商品的人同时购买其他商品的概率”被称为信赖度。
1702629025
1702629026
不过,现在就给出上述结论为时尚早。本来购买啤酒的人的数量就远远多于购买尿片的人。人类使用尿片的时间最多也就2~3年,而成年男性绝大多数都会喝啤酒。假设本来应该有1/2以上的购物车中装有啤酒,但是因为前来购买尿片的年轻父亲为了孩子而控制饮酒,导致啤酒的购买率停留在40%的话,那么向这些顾客推荐啤酒就是失去意义了。
1702629027
1702629028
所以,在购物车分析中还需要一个被称为改善度的指标。也就是说,在所有的顾客中啤酒的购买率(1 000人中有300人购买,购买率为30%)与购买尿片的顾客中啤酒的购买率(50人中有20人购买,购买率为40%)相比,究竟是何种关系,这个对比的数值就是改善度。上述例子中尿片对啤酒的购买率改善度就是1.33(=40÷30)。从购物车分析的思考方法来看,如果改善度在1以上,就可以认为是具有改善效果的。
1702629029
1702629030
但即便如此,这个结果仍然是不准确的,如表6–2所示。
1702629031
1702629032
表6–2 尿片与啤酒的购买分析②
1702629033
1702629034
购买啤酒 没购买啤酒 共计 购买尿片 2 3 5 没购买尿片 298 697 995 共计 300 700 1 000 在这种情况下,虽然购买尿片的顾客中有40%(5人中有2人)的人都购买了啤酒,信赖度仍然为0.40。所有顾客中啤酒的购买率仍然保持不变,所以改善度同样为1.33。
1702629035
1702629036
但是,如果同时购买尿片和啤酒的这两个人中有一个人是偶尔心血来潮进行购买的话,那么信赖度就会瞬间下降到0.20,改善度也同样下降为0.67,就会出现相反的结果。而且,如果购买尿片的人数本来就很少的话,就算他们“真的会同时购买啤酒”,对增加啤酒的销量也起不到什么作用。
1702629037
1702629038
所以,在购物车分析中需要注意的是,“不必考虑那些数量极少的消费组合”以及“同时购买尿片和啤酒的顾客”在全体顾客中占多少比率。这个值被称为支持度。表6–1中的支持度为0.02(1 000人中有20人),而表6–2中的支持度为0.002(1 000人中有2人)。
1702629039
1702629040
比购物车分析更加方便的卡方检验
1702629041
1702629042
通过上述那样简单的计算就可以找出具有关联性的商品,这是购物车分析的优点。但是,学过统计学的人很快就会发现“本来就有更加简单的方法”。谷歌的创始人之一谢尔盖·布林在学生时代特意针对此事发表过一篇论文,提出“与购物车分析相比,统计学的相关分析更加方便”。
1702629043
1702629044
在对这样的统计表进行分析时,统计学最常用的是卡方检验计算的卡方值。在广义线性模型中,我已经对卡方检验进行过说明,所以大家应该对这个概念并不陌生。卡方检验之中已经包含了费希尔所说过的“估计值的误差”,所以不必考虑支持度之类的指标,卡方值越大就能够证明改善度越大。另外,在商品是否有销售的二值变量间,选择卡方值大的组合与选择相关系数绝对值大的组合,其意义也是相同的。
1702629045
1702629046
在进行购物车分析时,必须在考虑改善度与支持度的前提下进行各种各样的计算和检验,而使用卡方值的话则不会被误差所欺骗,能够自动找出关联性较强的商品组合。因此,在亚马逊的商品推荐中,就常常进行这样的相关分析。
1702629047
1702629048
诞生于人工智能领域的高级数据挖掘法
1702629049
1702629050
当然,除了购物车分析那样的简单计算方法之外,数据挖掘领域也有具有高级运算逻辑的方法,比如神经元网络、支持向量机,以及聚集性分析,想必大家都或多或少地听过这些名字吧。
1702629051
1702629052
这些方法绝大多数都被应用于人工智能领域。人工智能是计算机科学中一直备受瞩目的领域,从事计算机相关工作的技术人员或许从学生时代开始就经常接触到上述那些方法了。
1702629053
1702629054
在人工智能领域中,根据思考方法的不同分为几大类,而数据挖掘最常用的方法则是从归属于人类认知功能的分类之中诞生出来的。
1702629055
1702629056
比如,我们人类面对拥有一定高度的家具时,能够非常清楚地分辨出哪些形状的是“椅子”,而计算机就无法分辨什么样的家具属于“椅子”。这样的认知就属于“椅子”和“椅子之外其他家具”的分类。
1702629057
1702629058
1702629059
1702629060
1702629061
图6–3 形状各异的椅子
1702629062
1702629063
对人工智能来说,“分类”大致上有两种方法:一种是“有教师的分类”,另一种是“无教师的分类”。
1702629064
1702629065
如果将家具的高度、重量以及有几个接地点等数据输入进去,那么接下来需要做的就是“将相似性较高的分为同一组”。如果利用椅子之间数据的相似性要高于椅子与衣柜之间数据相似性的特点对许许多多的家具进行分类的话,其中一定会出现“椅子或者数据上类似椅子的家具”这一分类。这种方法属于无教师的分类,其中最具代表性的就是聚集性分析。
1702629066
1702629067
实际应用中,聚集性分析最常出现的领域是市场调查中的市场分类。所谓市场分类,是指将市场或者顾客分为相似性较高的几组。没有进行市场分类的市场调查就像是没有准星的大炮,只能盲目地生产商品,毫无针对性地进行宣传和销售。但是,顾客的价值观与接触的媒体各不相同,毫无章法地胡乱“开炮”只会浪费广告费与销售经费。
[
上一页 ]
[ :1.702629018e+09 ]
[
下一页 ]