打字猴:1.700498332e+09
1700498332 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497495]
1700498333 数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.3.3 回归
1700498334
1700498335 回归(Regression)分析包括线性回归(Linear Regression),这里主要是指多元线性回归和逻辑斯蒂回归(Logistic Regression)。其中,在数据化运营中更多使用的是逻辑斯蒂回归,它又包括响应预测、分类划分等内容。
1700498336
1700498337 多元线性回归主要描述一个因变量如何随着一批自变量的变化而变化,其回归公式(回归方程)就是因变量与自变量关系的数据反映。因变量的变化包括两部分:系统性变化与随机变化,其中,系统性变化是由自变量引起的(自变量可以解释的),随机变化是不能由自变量解释的,通常也称作残值。
1700498338
1700498339 在用来估算多元线性回归方程中自变量系数的方法中,最常用的是最小二乘法,即找出一组对应自变量的相应参数,以使因变量的实际观测值与回归方程的预测值之间的总方差减到最小。
1700498340
1700498341 对多元线性回归方程的参数估计,是基于下列假设的:
1700498342
1700498343 ❑输入变量是确定的变量,不是随机变量,而且输入的变量间无线性相关,即无共线性。
1700498344
1700498345 ❑随机误差的期望值总和为零,即随机误差与自变量不相关。
1700498346
1700498347 ❑随机误差呈现正态分布[1]。
1700498348
1700498349 如果不满足上述假设,就不能用最小二乘法进行回归系数的估算了。
1700498350
1700498351 逻辑斯蒂回归(Logistic Regression)相比于线性回归来说,在数据化运营中有更主流更频繁的应用,主要是因为该分析技术可以很好地回答诸如预测、分类等数据化运营常见的分析项目主题。简单来讲,凡是预测“两选一”事件的可能性(比如,“响应”还是“不响应”;“买”还是“不买”;“流失”还是“不流失”),都可以采用逻辑斯蒂回归方程。
1700498352
1700498353 逻辑斯蒂回归预测的因变量是介于0和1之间的概率,如果对这个概率进行换算,就可以用线性公式描述因变量与自变量的关系了,具体公式如下:
1700498354
1700498355
1700498356
1700498357
1700498358 与多元线性回归所采用的最小二乘法的参数估计方法相对应,最大似然法是逻辑斯蒂回归所采用的参数估计方法,其原理是找到这样一个参数,可以让样本数据所包含的观察值被观察到的可能性最大。这种寻找最大可能性的方法需要反复计算,对计算能力有很高的要求。最大似然法的优点是在大样本数据中参数的估值稳定、偏差小,估值方差小。
1700498359
1700498360 关于线性回归和逻辑回归的详细介绍和在实践应用中的注意事项,可参考本书10.3节和10.4节。
1700498361
1700498362 [1]正态分布也称常态分布,是具有两个参数m和s2的连续型随机变量分布,第一个参数m是服从正态分布的随机变量的均值,第二个参数s2是此随机变量的方差,服从正态分布的随机变量的概率规律为取与m邻近的值的概率大,而取离m越远的值的概率越小;s越小,分布越集中在m附近,s越大,分布越分散。
1700498363
1700498364
1700498365
1700498366
1700498367 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497496]
1700498368 数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.3.4 关联规则
1700498369
1700498370 关联规则(Association Rule)是在数据库和数据挖掘领域中被发明并被广泛研究的一种重要模型,关联规则数据挖掘的主要目的是找出数据集中的频繁模式(Frequent Pattern),即多次重复出现的模式和并发关系(Cooccurrence Relationships),即同时出现的关系,频繁和并发关系也称作关联(Association)。
1700498371
1700498372 应用关联规则最经典的案例就是购物篮分析(Basket Analysis),通过分析顾客购物篮中商品之间的关联,可以挖掘顾客的购物习惯,从而帮助零售商更好地制定有针对性的营销策略。
1700498373
1700498374 以下列举一个简单的关联规则的例子:
1700498375
1700498376 婴儿尿不湿→啤酒[支持度=10%,置信度=70%]
1700498377
1700498378 这个规则表明,在所有顾客中,有10%的顾客同时购买了婴儿尿不湿和啤酒,而在所有购买了婴儿尿不湿的顾客中,占70%的人同时还购买了啤酒。发现这个关联规则后,超市零售商决定把婴儿尿不湿和啤酒摆放在一起进行促销,结果明显提升了销售额,这就是发生在沃尔玛超市中“啤酒和尿不湿”的经典营销案例。
1700498379
1700498380 上面的案例是否让你对支持度和置信度有了一定的了解?事实上,支持度(Support)和置信度(Confidence)是衡量关联规则强度的两个重要指标,它们分别反映着所发现规则的有用性和确定性。其中支持度:规则X→Y的支持度是指事物全集中包含X∪Y的事物百分比。支持度主要衡量规则的有用性,如果支持度太小,则说明相应规则只是偶发事件。在商业实战中,偶发事件很可能没有商业价值;置信度:规则X→Y的置信度是指既包含了X又包含了Y的事物数量占所有包含了X的事物数量的百分比。置信度主要衡量规则的确定性(可预测性),如果置信度太低,那么从X就很难可靠地推断出Y来,置信度太低的规则在实践应用中也没有太大用处。
1700498381
[ 上一页 ]  [ :1.700498332e+09 ]  [ 下一页 ]