打字猴:1.702628987e+09
1702628987 看穿一切数字的统计学 [:1702626757]
1702628988 26 诞生于市场调查现场的数据挖掘
1702628989
1702628990
1702628991
1702628992 在前文中我曾经提到过,统计学由于计算机的出现,其影响力得到了爆炸性的扩大,由此诞生了被称为数据挖掘的研究领域。
1702628993
1702628994 正如对计算机的利用取代了统计学家的手工计算一样,数据挖掘的技术也是伴随着计算机的进步所诞生的。或许就是因为这个缘故,在计算机领域对“数据挖掘”的认知率要远远高于“统计学”。经常会有人向我咨询“我已经导入了最新分析用的数据库,为什么还是无法进行数据挖掘”。不过,没有人向我咨询“我为什么无法进行统计分析”。
1702628995
1702628996 但实际上,当我仔细询问究竟为了什么课题或者出于什么目的进行分析的时候,却发现与“数据挖掘”相比,真正应该使用的却是统计学方法。
1702628997
1702628998 确实,与“回归分析”这样写在统计学教科书上的汉字相比,“Neural Network”这样的英文单词确实显得更加时髦。而且像“根据在人工智能领域的研究,对人类的神经元进行模拟实验”之类的说明,听起来好像是非常了不起的技术。
1702628999
1702629000 不过,如果能够掌握数据挖掘和统计学的思考方法之间的区别和共同点,就可以找到最适合自己的方法。接下来,就让我们对此进行详细的说明。
1702629001
1702629002 数据挖掘的历史
1702629003
1702629004 要说数据挖掘的起源,谁也没有一个准确的答案。“数据挖掘”这个单词本身,在1995年知识发现(KDD,Knowledge Discovery in Database)国际会议上被确定为“在众多数据中找出有用且未知数据的过程”之前,人们对它的解释一直是众说纷纭。
1702629005
1702629006 因此,目前还没有人能够像费希尔被称为“生物统计学之父”那样被人们称为“数据挖掘之父”。
1702629007
1702629008 之所以会出现这种情况,是因为数据挖掘并不是由学者研究出来的方法,而是在市场调查和数据处理的“现场”所诞生的方法。曾经进行数据挖掘的人甚至对统计学一无所知。
1702629009
1702629010 但是从统计学家在纸上计算公式,对自己从学生们那里收集到的调查问卷结果和实验动物的检查值进行手动计算的时代开始,这些对统计学一无所知的人就已经拥有大量实际存在的数据,并且需要从中找出有用的信息了。1970年代,条码格式才开始逐渐规范,销售点(POS机)也在超市中得到普及。数据库领域的王者甲骨文公司也是在20世纪70年代末期成立的。
1702629011
1702629012 但是在那个年代,就算身为统计学家,也不见得就接触过计算机。根据比我年长20~30岁的教师亲口所说,在他们的学生时代“只要写作一篇相当简单的统计分析论文,就可以毕业”。
1702629013
1702629014 “尿片与啤酒”的购买分析
1702629015
1702629016 在数据挖掘的黎明期,经常接触数据的计算机技术人员和身处一线的市场调查员们发明了各种各样的方法。
1702629017
1702629018 其中最著名的当属IBM公司的拉凯什·阿格拉瓦在1993年为英国玛莎百货所作的购物车分析。关心数据挖掘的人,应该都听说过“尿片与啤酒”的故事吧?
1702629019
1702629020 表6–1 尿片与啤酒的购买分析①
1702629021
1702629022     购买啤酒   没购买啤酒   共计   购买尿片   20   30   50   没购买尿片   280   670   950   共计   300   700   1 000  比如,我们对1 000位顾客的“购物车”,也就是超市的购物小票进行统计,分析“是否购买啤酒”和“是否购买尿片”的数据,得到的结果如表6–1所示。其中同时购买尿片和啤酒的顾客有20人,只买啤酒的顾客有280人,只买尿片的顾客有30人,两者都没买的顾客有670人。
1702629023
1702629024 这个数据能够说明什么呢?阿格拉瓦认为最值得关注的地方在于“购买的尿片的人中有40%(50人中有20人)的人都购买了啤酒”。与其他商品进行比较之后就会发现,“买尿片的人”最有可能同时购买的商品就是啤酒。所以,我们可以得出一个推论,即向买尿片的人推销啤酒应该可以提高啤酒的销量。在购物车分析中,像这样“购买某种商品的人同时购买其他商品的概率”被称为信赖度。
1702629025
1702629026 不过,现在就给出上述结论为时尚早。本来购买啤酒的人的数量就远远多于购买尿片的人。人类使用尿片的时间最多也就2~3年,而成年男性绝大多数都会喝啤酒。假设本来应该有1/2以上的购物车中装有啤酒,但是因为前来购买尿片的年轻父亲为了孩子而控制饮酒,导致啤酒的购买率停留在40%的话,那么向这些顾客推荐啤酒就是失去意义了。
1702629027
1702629028 所以,在购物车分析中还需要一个被称为改善度的指标。也就是说,在所有的顾客中啤酒的购买率(1 000人中有300人购买,购买率为30%)与购买尿片的顾客中啤酒的购买率(50人中有20人购买,购买率为40%)相比,究竟是何种关系,这个对比的数值就是改善度。上述例子中尿片对啤酒的购买率改善度就是1.33(=40÷30)。从购物车分析的思考方法来看,如果改善度在1以上,就可以认为是具有改善效果的。
1702629029
1702629030 但即便如此,这个结果仍然是不准确的,如表6–2所示。
1702629031
1702629032 表6–2 尿片与啤酒的购买分析②
1702629033
1702629034     购买啤酒   没购买啤酒   共计   购买尿片   2   3   5   没购买尿片   298   697   995   共计   300   700   1 000  在这种情况下,虽然购买尿片的顾客中有40%(5人中有2人)的人都购买了啤酒,信赖度仍然为0.40。所有顾客中啤酒的购买率仍然保持不变,所以改善度同样为1.33。
1702629035
1702629036 但是,如果同时购买尿片和啤酒的这两个人中有一个人是偶尔心血来潮进行购买的话,那么信赖度就会瞬间下降到0.20,改善度也同样下降为0.67,就会出现相反的结果。而且,如果购买尿片的人数本来就很少的话,就算他们“真的会同时购买啤酒”,对增加啤酒的销量也起不到什么作用。
[ 上一页 ]  [ :1.702628987e+09 ]  [ 下一页 ]