1700498294
数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.3.2 神经网络
1700498295
1700498296
神经网络(Neural Network)是通过数学算法来模仿人脑思维的,它是数据挖掘中机器学习的典型代表。神经网络是人脑的抽象计算模型,我们知道人脑中有数以百亿个神经元(人脑处理信息的微单元),这些神经元之间相互连接,使得人的大脑产生精密的逻辑思维。而数据挖掘中的“神经网络”也是由大量并行分布的人工神经元(微处理单元)组成的,它有通过调整连接强度从经验知识中进行学习的能力,并可以将这些知识进行应用。
1700498297
1700498298
简单来讲,“神经网络”就是通过输入多个非线性模型以及不同模型之间的加权互联(加权的过程在隐蔽层完成),最终得到一个输出模型。其中,隐蔽层所包含的就是非线性函数。
1700498299
1700498300
目前最主流的“神经网络”算法是反馈传播(Backpropagation),该算法在多层前向型(Multilayer Feed-Forward)神经网络上进行学习,而多层前向型神经网络又是由一个输入层、一个或多个隐蔽层以及一个输出层组成的,“神经网络”的典型结构如图2-1所示。
1700498301
1700498302
1700498303
1700498304
1700498305
图2-1 “神经网络”的典型结构图
1700498306
1700498307
由于“神经网络”拥有特有的大规模并行结构和信息的并行处理等特点,因此它具有良好的自适应性、自组织性和高容错性,并且具有较强的学习、记忆和识别功能。目前神经网络已经在信号处理、模式识别、专家系统、预测系统等众多领域中得到广泛的应用。
1700498308
1700498309
“神经网络”的主要缺点就是其知识和结果的不可解释性,没有人知道隐蔽层里的非线性函数到底是如何处理自变量的,“神经网络”应用中的产出物在很多时候让人看不清其中的逻辑关系。但是,它的这个缺点并没有影响该技术在数据化运营中的广泛应用,甚至可以这样认为,正是因为其结果具有不可解释性,反而更有可能促使我们发现新的没有认识到的规律和关系。
1700498310
1700498311
在利用“神经网络”技术建模的过程中,有以下5个因素对模型结果有着重大影响:
1700498312
1700498313
❑层数。
1700498314
1700498315
❑每层中输入变量的数量。
1700498316
1700498317
❑联系的种类。
1700498318
1700498319
❑联系的程度。
1700498320
1700498321
❑转换函数,又称激活函数或挤压函数。
1700498322
1700498323
关于这5个因素的详细说明,请参考本书10.1.1节。
1700498324
1700498325
“神经网络”技术在数据化运营中的主要用途体现在:作为分类、预测问题的重要技术支持,在用户划分、行为预测、营销响应等诸多方面具有广泛的应用前景。
1700498326
1700498327
关于神经网络的详细介绍和实践中的注意事项,可参考本书10.1节。
1700498328
1700498329
1700498330
1700498331
1700498333
数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.3.3 回归
1700498334
1700498335
回归(Regression)分析包括线性回归(Linear Regression),这里主要是指多元线性回归和逻辑斯蒂回归(Logistic Regression)。其中,在数据化运营中更多使用的是逻辑斯蒂回归,它又包括响应预测、分类划分等内容。
1700498336
1700498337
多元线性回归主要描述一个因变量如何随着一批自变量的变化而变化,其回归公式(回归方程)就是因变量与自变量关系的数据反映。因变量的变化包括两部分:系统性变化与随机变化,其中,系统性变化是由自变量引起的(自变量可以解释的),随机变化是不能由自变量解释的,通常也称作残值。
1700498338
1700498339
在用来估算多元线性回归方程中自变量系数的方法中,最常用的是最小二乘法,即找出一组对应自变量的相应参数,以使因变量的实际观测值与回归方程的预测值之间的总方差减到最小。
1700498340
1700498341
对多元线性回归方程的参数估计,是基于下列假设的:
1700498342
[
上一页 ]
[ :1.700498293e+09 ]
[
下一页 ]