1700498350
1700498351
逻辑斯蒂回归(Logistic Regression)相比于线性回归来说,在数据化运营中有更主流更频繁的应用,主要是因为该分析技术可以很好地回答诸如预测、分类等数据化运营常见的分析项目主题。简单来讲,凡是预测“两选一”事件的可能性(比如,“响应”还是“不响应”;“买”还是“不买”;“流失”还是“不流失”),都可以采用逻辑斯蒂回归方程。
1700498352
1700498353
逻辑斯蒂回归预测的因变量是介于0和1之间的概率,如果对这个概率进行换算,就可以用线性公式描述因变量与自变量的关系了,具体公式如下:
1700498354
1700498355
1700498356
1700498357
1700498358
与多元线性回归所采用的最小二乘法的参数估计方法相对应,最大似然法是逻辑斯蒂回归所采用的参数估计方法,其原理是找到这样一个参数,可以让样本数据所包含的观察值被观察到的可能性最大。这种寻找最大可能性的方法需要反复计算,对计算能力有很高的要求。最大似然法的优点是在大样本数据中参数的估值稳定、偏差小,估值方差小。
1700498359
1700498360
关于线性回归和逻辑回归的详细介绍和在实践应用中的注意事项,可参考本书10.3节和10.4节。
1700498361
1700498362
[1]正态分布也称常态分布,是具有两个参数m和s2的连续型随机变量分布,第一个参数m是服从正态分布的随机变量的均值,第二个参数s2是此随机变量的方差,服从正态分布的随机变量的概率规律为取与m邻近的值的概率大,而取离m越远的值的概率越小;s越小,分布越集中在m附近,s越大,分布越分散。
1700498363
1700498364
1700498365
1700498366
1700498368
数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.3.4 关联规则
1700498369
1700498370
关联规则(Association Rule)是在数据库和数据挖掘领域中被发明并被广泛研究的一种重要模型,关联规则数据挖掘的主要目的是找出数据集中的频繁模式(Frequent Pattern),即多次重复出现的模式和并发关系(Cooccurrence Relationships),即同时出现的关系,频繁和并发关系也称作关联(Association)。
1700498371
1700498372
应用关联规则最经典的案例就是购物篮分析(Basket Analysis),通过分析顾客购物篮中商品之间的关联,可以挖掘顾客的购物习惯,从而帮助零售商更好地制定有针对性的营销策略。
1700498373
1700498374
以下列举一个简单的关联规则的例子:
1700498375
1700498376
婴儿尿不湿→啤酒[支持度=10%,置信度=70%]
1700498377
1700498378
这个规则表明,在所有顾客中,有10%的顾客同时购买了婴儿尿不湿和啤酒,而在所有购买了婴儿尿不湿的顾客中,占70%的人同时还购买了啤酒。发现这个关联规则后,超市零售商决定把婴儿尿不湿和啤酒摆放在一起进行促销,结果明显提升了销售额,这就是发生在沃尔玛超市中“啤酒和尿不湿”的经典营销案例。
1700498379
1700498380
上面的案例是否让你对支持度和置信度有了一定的了解?事实上,支持度(Support)和置信度(Confidence)是衡量关联规则强度的两个重要指标,它们分别反映着所发现规则的有用性和确定性。其中支持度:规则X→Y的支持度是指事物全集中包含X∪Y的事物百分比。支持度主要衡量规则的有用性,如果支持度太小,则说明相应规则只是偶发事件。在商业实战中,偶发事件很可能没有商业价值;置信度:规则X→Y的置信度是指既包含了X又包含了Y的事物数量占所有包含了X的事物数量的百分比。置信度主要衡量规则的确定性(可预测性),如果置信度太低,那么从X就很难可靠地推断出Y来,置信度太低的规则在实践应用中也没有太大用处。
1700498381
1700498382
在众多的关联规则数据挖掘算法中,最著名的就是Apriori算法,该算法具体分为以下两步进行:
1700498383
1700498384
(1)生成所有的频繁项目集。一个频繁项目集(Frequent Itemset)是一个支持度高于最小支持度阀值(min-sup)的项目集。
1700498385
1700498386
(2)从频繁项目集中生成所有的可信关联规则。这里可信关联规则是指置信度大于最小置信度阀值(min-conf)的规则。
1700498387
1700498388
关联规则算法不但在数值型数据集的分析中有很大用途,而且在纯文本文档和网页文件中,也有着重要用途。比如发现单词间的并发关系以及Web的使用模式等,这些都是Web数据挖掘、搜索及推荐的基础。
1700498389
1700498390
1700498391
1700498392
1700498394
数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.3.5 聚类
1700498395
1700498396
聚类(Clustering)分析有一个通俗的解释和比喻,那就是“物以类聚,人以群分”。针对几个特定的业务指标,可以将观察对象的群体按照相似性和相异性进行不同群组的划分。经过划分后,每个群组内部各对象间的相似度会很高,而在不同群组之间的对象彼此间将具有很高的相异度。
1700498397
1700498398
聚类分析的算法可以分为划分的方法(Partitioning Method)、层次的方法(Hierarchical Method)、基于密度的方法(Density-based Method)、基于网格的方法(Grid-based Method)、基于模型的方法(Model-based Method)等,其中,前面两种方法最为常用。
1700498399
[
上一页 ]
[ :1.70049835e+09 ]
[
下一页 ]