打字猴:1.700500931e+09
1700500931 ❑有比较优秀的在数据中挑选非线性关系的能力,能有效发现非线性的内在规律。在纷繁复杂的业务实践中,数据间非线性关系出现的机会远比线性关系多得多,神经网络的这种有效发现非线性关系的能力,大大提高了其在数据化运营等各种商业实践中的应用价值和贡献潜力。
1700500932
1700500933 ❑由于神经网络具有复杂的结构,因此在很多实践场合中其应用效果都明显优于其他的建模算法;它对异常值不敏感,这是个很不错的“宽容”个性。
1700500934
1700500935 ❑对噪声数据有比较高的承受能力。
1700500936
1700500937
1700500938
1700500939
1700500940 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497615]
1700500941 数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.1.3 神经网络技术的缺点和注意事项
1700500942
1700500943 虽然神经网络有上述这多优点,但是人无完人,金无足赤,它同样也有以下一些典型的不足之处需要引起数据分析师的注意:
1700500944
1700500945 ❑神经网络需要比较长的模型训练时间,在面对大数据量时尤其如此。
1700500946
1700500947 ❑对于神经网络模型来说少而精的变量才可以充分发挥神经网络的模型效率。但是,神经网络本身是无法挑选变量的。因此,对于神经网络的实际应用来讲,之前的变量挑选环节就必不可少了。虽然变量的选择对于任何一个模型的搭建来说都是很重要的环节,但是必须强调的是,对于神经网络模型来说尤为重要,这是由其复杂的内部结构决定的。
1700500948
1700500949 ❑如果搭建模型后直接将其投入应用,可能会得不到想要的效果。为了确保模型投入应用后具有稳定的效果,最好先尝试几种不同的神经网络模型,经过多次验证后,再挑选最稳定的模型投入应用。
1700500950
1700500951 ❑神经网络本身对于缺失值(Missing Value)比较敏感。所以,应用该技术时要注意针对缺失值进行适当的处理,或者赋值,或者替换,或者删除,参见本书8.4.1节。
1700500952
1700500953 ❑它具有过度拟合(Over-Fitting)数据的倾向,可能导致模型应用于新数据时效率显著下降。鉴于此,针对神经网络模型的应用要仔细验证,在确保稳定的前提下才可以投入业务落地应用。
1700500954
1700500955 ❑由于其结构的复杂性和结论的难以解释性,神经网络在商业实践中远远没有回归和决策树应用得广泛,人们对它的理解、接纳还有待提高。它也缺乏类似回归那样的丰富多样的模型诊断指标和措施。正因为如此,很多数据分析师视之为“黑盒子”,只是在实在无计可施的时候才“放手一搏”。
1700500956
1700500957
1700500958
1700500959
1700500960 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497616]
1700500961 数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.2 决策树技术的实践应用和注意事项
1700500962
1700500963 决策树模型是数据挖掘应用中常见的一种成熟技术,因其输出规则让人容易理解而备受数据分析师和业务应用方的喜欢和推崇。自从1960年Hunt等人提出概念学习系统框架方法(Concept Learning System Framework,CLSF)以来,决策树多种算法一直在不断发展、成熟,目前最常用的3种决策树算法分别是CHAID、CART和ID3,包括后来的C4.5,乃至C5.0。
1700500964
1700500965 决策树,顾名思义,其建模过程类似一棵树的成长,从根部开始,到树干,到分叉,到继续细枝末节的分叉,最终到一片片的树叶。在决策树里,所分析的数据样本形成一个树根,经过层层分枝,最终形成若干个结点,每个结点代表一个结论。从决策树的根部到叶结点的一条路径就形成了对相应对象的类别预测。
1700500966
1700500967 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497617]
1700500968 10.2.1 决策树的原理和核心要素
1700500969
1700500970 构造决策树采用的是自顶向下的贪婪算法,它会在每个结点选择分类效果最好的属性对样本进行分类,然后继续这个过程,直到这棵树能准确地分类训练样本,或者所有的属性都已被用过。
1700500971
1700500972 决策树算法的核心是在对每个结点进行测试后,选择最佳的属性,并且对决策树进行剪枝处理。
1700500973
1700500974 最常见的结点属性选择方法(标准)有信息增益、信息增益率、Gini指数、卡方检验(Chi-Square Statistics)等。在10.2.2~10.2.4节将对它们分别进行介绍。
1700500975
1700500976 决策树的剪枝处理包括两种方式:先剪枝(Prepruning)和后剪枝(Postpruning)。
1700500977
1700500978 所谓先剪枝,就是决策树生长之前,就人为定好树的层数,以及每个结点所允许的最少的样本数量等,而且在给定的结点不再分裂。
1700500979
1700500980 所谓后剪枝,是让树先充分生长,然后剪去子树,删除结点的分枝并用树叶替换。后剪枝的方法更常用。CART算法就包含了后剪枝方法,它使用的是代价复杂度剪枝算法,即将树的代价复杂度看做是树中树叶结点的个数和树的错误率的函数。C4.5使用的是悲观剪枝方法,类似于代价复杂度剪枝算法。
[ 上一页 ]  [ :1.700500931e+09 ]  [ 下一页 ]