1700498317
❑联系的种类。
1700498318
1700498319
❑联系的程度。
1700498320
1700498321
❑转换函数,又称激活函数或挤压函数。
1700498322
1700498323
关于这5个因素的详细说明,请参考本书10.1.1节。
1700498324
1700498325
“神经网络”技术在数据化运营中的主要用途体现在:作为分类、预测问题的重要技术支持,在用户划分、行为预测、营销响应等诸多方面具有广泛的应用前景。
1700498326
1700498327
关于神经网络的详细介绍和实践中的注意事项,可参考本书10.1节。
1700498328
1700498329
1700498330
1700498331
1700498333
数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.3.3 回归
1700498334
1700498335
回归(Regression)分析包括线性回归(Linear Regression),这里主要是指多元线性回归和逻辑斯蒂回归(Logistic Regression)。其中,在数据化运营中更多使用的是逻辑斯蒂回归,它又包括响应预测、分类划分等内容。
1700498336
1700498337
多元线性回归主要描述一个因变量如何随着一批自变量的变化而变化,其回归公式(回归方程)就是因变量与自变量关系的数据反映。因变量的变化包括两部分:系统性变化与随机变化,其中,系统性变化是由自变量引起的(自变量可以解释的),随机变化是不能由自变量解释的,通常也称作残值。
1700498338
1700498339
在用来估算多元线性回归方程中自变量系数的方法中,最常用的是最小二乘法,即找出一组对应自变量的相应参数,以使因变量的实际观测值与回归方程的预测值之间的总方差减到最小。
1700498340
1700498341
对多元线性回归方程的参数估计,是基于下列假设的:
1700498342
1700498343
❑输入变量是确定的变量,不是随机变量,而且输入的变量间无线性相关,即无共线性。
1700498344
1700498345
❑随机误差的期望值总和为零,即随机误差与自变量不相关。
1700498346
1700498347
❑随机误差呈现正态分布[1]。
1700498348
1700498349
如果不满足上述假设,就不能用最小二乘法进行回归系数的估算了。
1700498350
1700498351
逻辑斯蒂回归(Logistic Regression)相比于线性回归来说,在数据化运营中有更主流更频繁的应用,主要是因为该分析技术可以很好地回答诸如预测、分类等数据化运营常见的分析项目主题。简单来讲,凡是预测“两选一”事件的可能性(比如,“响应”还是“不响应”;“买”还是“不买”;“流失”还是“不流失”),都可以采用逻辑斯蒂回归方程。
1700498352
1700498353
逻辑斯蒂回归预测的因变量是介于0和1之间的概率,如果对这个概率进行换算,就可以用线性公式描述因变量与自变量的关系了,具体公式如下:
1700498354
1700498355
1700498356
1700498357
1700498358
与多元线性回归所采用的最小二乘法的参数估计方法相对应,最大似然法是逻辑斯蒂回归所采用的参数估计方法,其原理是找到这样一个参数,可以让样本数据所包含的观察值被观察到的可能性最大。这种寻找最大可能性的方法需要反复计算,对计算能力有很高的要求。最大似然法的优点是在大样本数据中参数的估值稳定、偏差小,估值方差小。
1700498359
1700498360
关于线性回归和逻辑回归的详细介绍和在实践应用中的注意事项,可参考本书10.3节和10.4节。
1700498361
1700498362
[1]正态分布也称常态分布,是具有两个参数m和s2的连续型随机变量分布,第一个参数m是服从正态分布的随机变量的均值,第二个参数s2是此随机变量的方差,服从正态分布的随机变量的概率规律为取与m邻近的值的概率大,而取离m越远的值的概率越小;s越小,分布越集中在m附近,s越大,分布越分散。
1700498363
1700498364
1700498365
1700498366
[
上一页 ]
[ :1.700498317e+09 ]
[
下一页 ]