1700498368
数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.3.4 关联规则
1700498369
1700498370
关联规则(Association Rule)是在数据库和数据挖掘领域中被发明并被广泛研究的一种重要模型,关联规则数据挖掘的主要目的是找出数据集中的频繁模式(Frequent Pattern),即多次重复出现的模式和并发关系(Cooccurrence Relationships),即同时出现的关系,频繁和并发关系也称作关联(Association)。
1700498371
1700498372
应用关联规则最经典的案例就是购物篮分析(Basket Analysis),通过分析顾客购物篮中商品之间的关联,可以挖掘顾客的购物习惯,从而帮助零售商更好地制定有针对性的营销策略。
1700498373
1700498374
以下列举一个简单的关联规则的例子:
1700498375
1700498376
婴儿尿不湿→啤酒[支持度=10%,置信度=70%]
1700498377
1700498378
这个规则表明,在所有顾客中,有10%的顾客同时购买了婴儿尿不湿和啤酒,而在所有购买了婴儿尿不湿的顾客中,占70%的人同时还购买了啤酒。发现这个关联规则后,超市零售商决定把婴儿尿不湿和啤酒摆放在一起进行促销,结果明显提升了销售额,这就是发生在沃尔玛超市中“啤酒和尿不湿”的经典营销案例。
1700498379
1700498380
上面的案例是否让你对支持度和置信度有了一定的了解?事实上,支持度(Support)和置信度(Confidence)是衡量关联规则强度的两个重要指标,它们分别反映着所发现规则的有用性和确定性。其中支持度:规则X→Y的支持度是指事物全集中包含X∪Y的事物百分比。支持度主要衡量规则的有用性,如果支持度太小,则说明相应规则只是偶发事件。在商业实战中,偶发事件很可能没有商业价值;置信度:规则X→Y的置信度是指既包含了X又包含了Y的事物数量占所有包含了X的事物数量的百分比。置信度主要衡量规则的确定性(可预测性),如果置信度太低,那么从X就很难可靠地推断出Y来,置信度太低的规则在实践应用中也没有太大用处。
1700498381
1700498382
在众多的关联规则数据挖掘算法中,最著名的就是Apriori算法,该算法具体分为以下两步进行:
1700498383
1700498384
(1)生成所有的频繁项目集。一个频繁项目集(Frequent Itemset)是一个支持度高于最小支持度阀值(min-sup)的项目集。
1700498385
1700498386
(2)从频繁项目集中生成所有的可信关联规则。这里可信关联规则是指置信度大于最小置信度阀值(min-conf)的规则。
1700498387
1700498388
关联规则算法不但在数值型数据集的分析中有很大用途,而且在纯文本文档和网页文件中,也有着重要用途。比如发现单词间的并发关系以及Web的使用模式等,这些都是Web数据挖掘、搜索及推荐的基础。
1700498389
1700498390
1700498391
1700498392
1700498394
数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.3.5 聚类
1700498395
1700498396
聚类(Clustering)分析有一个通俗的解释和比喻,那就是“物以类聚,人以群分”。针对几个特定的业务指标,可以将观察对象的群体按照相似性和相异性进行不同群组的划分。经过划分后,每个群组内部各对象间的相似度会很高,而在不同群组之间的对象彼此间将具有很高的相异度。
1700498397
1700498398
聚类分析的算法可以分为划分的方法(Partitioning Method)、层次的方法(Hierarchical Method)、基于密度的方法(Density-based Method)、基于网格的方法(Grid-based Method)、基于模型的方法(Model-based Method)等,其中,前面两种方法最为常用。
1700498399
1700498400
对于划分的方法(Partitioning Method),当给定m个对象的数据集,以及希望生成的细分群体数量K后,即可采用这种方法将这些对象分成K组(K≤m),使得每个组内对象是相似的,而组间的对象是相异的。最常用的划分方法是K-Means方法,其具体原理是:首先,随机选择K个对象,并且所选择的每个对象都代表一个组的初始均值或初始的组中心值;对剩余的每个对象,根据其与各个组初始均值的距离,将它们分配给最近的(最相似)小组;然后,重新计算每个小组新的均值;这个过程不断重复,直到所有的对象在K组分布中都找到离自己最近的组。
1700498401
1700498402
层次的方法(Hierarchical Method)则是指依次让最相似的数据对象两两合并,这样不断地合并,最后就形成了一棵聚类树。
1700498403
1700498404
聚类技术在数据分析和数据化运营中的主要用途表现在:既可以直接作为模型对观察对象进行群体划分,为业务方的精细化运营提供具体的细分依据和相应的运营方案建议,又可在数据处理阶段用作数据探索的工具,包括发现离群点、孤立点,数据降维的手段和方法,通过聚类发现数据间的深层次的关系等。
1700498405
1700498406
关于聚类技术的详细介绍和应用实践中的注意事项,可参考本书第9章。
1700498407
1700498408
1700498409
1700498410
1700498412
数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.3.6 贝叶斯分类方法
1700498413
1700498414
贝叶斯分类方法(Bayesian Classifier)是非常成熟的统计学分类方法,它主要用来预测类成员间关系的可能性。比如通过一个给定观察值的相关属性来判断其属于一个特定类别的概率。贝叶斯分类方法是基于贝叶斯定理的,已经有研究表明,朴素贝叶斯分类方法作为一种简单贝叶斯分类算法甚至可以跟决策树和神经网络算法相媲美。
1700498415
1700498416
贝叶斯定理的公式如下:
[
上一页 ]
[ :1.700498367e+09 ]
[
下一页 ]