打字猴:1.700498221e+09
1700498221 最后,针对互联网数据化运营中数据挖掘应用的特点进行梳理和总结。
1700498222
1700498223
1700498224
1700498225
1700498226 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497490]
1700498227 数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.1 数据挖掘的发展历史
1700498228
1700498229 数据挖掘起始于20世纪下半叶,是在当时多个学科发展的基础上发展起来的。随着数据库技术的发展应用,数据的积累不断膨胀,导致简单的查询和统计已经无法满足企业的商业需求,急需一些革命性的技术去挖掘数据背后的信息。同时,这期间计算机领域的人工智能(Artificial Intelligence)也取得了巨大进展,进入了机器学习的阶段。因此,人们将两者结合起来,用数据库管理系统存储数据,用计算机分析数据,并且尝试挖掘数据背后的信息。这两者的结合促生了一门新的学科,即数据库中的知识发现(Knowledge Discovery in Databases,KDD)。1989年8月召开的第11届国际人工智能联合会议的专题讨论会上首次出现了知识发现(KDD)这个术语,到目前为止,KDD的重点已经从发现方法转向了实践应用。
1700498230
1700498231 而数据挖掘(Data Mining)则是知识发现(KDD)的核心部分,它指的是从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。进入21世纪,数据挖掘已经成为一门比较成熟的交叉学科,并且数据挖掘技术也伴随着信息技术的发展日益成熟起来。
1700498232
1700498233 总体来说,数据挖掘融合了数据库、人工智能、机器学习、统计学、高性能计算、模式识别、神经网络、数据可视化、信息检索和空间数据分析等多个领域的理论和技术,是21世纪初期对人类产生重大影响的十大新兴技术之一。
1700498234
1700498235
1700498236
1700498237
1700498238 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497491]
1700498239 数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.2 统计分析与数据挖掘的主要区别
1700498240
1700498241 统计分析与数据挖掘有什么区别呢?从实践应用和商业实战的角度来看,这个问题并没有很大的意义,正如“不管白猫还是黑猫,抓住老鼠才是好猫”一样,在企业的商业实战中,数据分析师分析问题、解决问题时,首先考虑的是思路,其次才会对与思路匹配的分析挖掘技术进行筛选,而不是先考虑到底是用统计技术还是用数据挖掘技术来解决这个问题。从两者的理论来源来看,它们在很多情况下都是同根同源的。比如,在属于典型的数据挖掘技术的决策树里,CART、CHAID等理论和方法都是基于统计理论所发展和延伸的;并且数据挖掘中的技术有相当比例是用统计学中的多变量分析来支撑的。
1700498242
1700498243 相对于传统的统计分析技术,数据挖掘有如下一些特点:
1700498244
1700498245 ❑数据挖掘特别擅长于处理大数据,尤其是几十万行、几百万行,甚至更多更大的数据。
1700498246
1700498247 ❑数据挖掘在实践应用中一般都会借助数据挖掘工具,而这些挖掘工具的使用,很多时候并不需要特别专业的统计背景作为必要条件。不过,需要强调的是基本的统计知识和技能是必需的。
1700498248
1700498249 ❑在信息化时代,数据分析应用的趋势是从大型数据库中抓取数据,并通过专业软件进行分析,所以数据挖掘工具的应用更加符合企业实践和实战的需要。
1700498250
1700498251 ❑从操作者来看,数据挖掘技术更多是企业的数据分析师、业务分析师在使用,而不是统计学家用于检测。
1700498252
1700498253 更主流的观点普遍认为,数据挖掘是统计分析技术的延伸和发展,如果一定要加以区分,它们又有哪些区别呢?数据挖掘在如下几个方面与统计分析形成了比较明显的差异:
1700498254
1700498255 ❑统计分析的基础之一就是概率论,在对数据进行统计分析时,分析人员常常需要对数据分布和变量间的关系做假设,确定用什么概率函数来描述变量间的关系,以及如何检验参数的统计显著性;但是,在数据挖掘的应用中,分析人员不需要对数据分布做任何假设,数据挖掘中的算法会自动寻找变量间的关系。因此,相对于海量、杂乱的数据,数据挖掘技术有明显的应用优势。
1700498256
1700498257 ❑统计分析在预测中的应用常表现为一个或一组函数关系式,而数据挖掘在预测应用中的重点在于预测的结果,很多时候并不会从结果中产生明确的函数关系式,有时候甚至不知道到底是哪些变量在起作用,又是如何起作用的。最典型的例子就是“神经网络”挖掘技术,它里面的隐蔽层就是一个“黑箱”,没有人能在所有的情况下读懂里面的非线性函数是如何对自变量进行组合的。在实践应用中,这种情况常会让习惯统计分析公式的分析师或者业务人员感到困惑,这也确实影响了模型在实践应用中的可理解性和可接受度。不过,如果能换种思维方式,从实战的角度考虑,只要模型能正确预测客户行为,能为精细化运营提供准确的细分人群和目标客户,业务部门、运营部门不了解模型的技术细节,又有何不可呢?
1700498258
1700498259 ❑在实践应用中,统计分析常需要分析人员先做假设或判断,然后利用数据分析技术来验证该假设是否成立。但是,在数据挖掘中,分析人员并不需要对数据的内在关系做任何假设或判断,而是会让挖掘工具中的算法自动去寻找数据中隐藏的关系或规律。两者的思维方式并不相同,这给数据挖掘带来了更灵活、更宽广的思路和舞台。
1700498260
1700498261 虽然上面详细阐述了统计分析与数据挖掘的区别,但是在企业的实践应用中,我们不应该硬性地把两者割裂开来,也无法割裂,在实践应用中,没有哪个分析师会说,“我只用数据挖掘技术来分析”,或者“我只用统计分析技术来分析”。正确的思路和方法应该是:针对具体的业务分析需求,先确定分析思路,然后根据这个分析思路去挑选和匹配合适的分析算法、分析技术,而且一个具体的分析需求一般都会有两种以上不同的思路和算法可以去探索,最后可根据验证的效果和资源匹配等一系列因素进行综合权衡,从而决定最终的思路、算法和解决方案。
1700498262
1700498263 鉴于实践应用中,统计分析与数据挖掘技术并不能完全被割裂开来,并且本书侧重于数据化运营的实践分享。所以在后续各章节的讨论中,将不再人为地给一个算法、技术贴上“统计分析”或“数据挖掘”的标签,后续各章节的技术分享和实战应用举例,都会本着针对不同的分析目的、项目类型来介绍主流的、有效的分析挖掘技术以及相应的特点和技巧。统计分析也罢,数据挖掘也好,只要有价值,只要在实战中有效,都会是我们所关注的,都会是我们所要分析分享的。
1700498264
1700498265
1700498266
1700498267
1700498268 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497492]
1700498269 数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.3 数据挖掘的主要成熟技术以及在数据化运营中的主要应用
1700498270
[ 上一页 ]  [ :1.700498221e+09 ]  [ 下一页 ]