1700430880
驾驭大数据 序言
1700430881
1700430882
无论你是否喜欢,大量的数据都会在不久的将来涌入你的生活。也许它现在已经出现在你的生活中了,也许你已经与它们打了一段时间交道—例如,试图解决这些数据的存储问题以便后续的访问,处理错误和缺陷,或者将这些数据进行结构化分类。或许你现在准备通过分析庞大的数据集提炼出一些有价值的数据,进而从中得到一些关于你的客户、业务或者你的企业所处商业环境的信息。或许你还没有到这一步,但是你已经意识到了数据管理的重要性。
1700430883
1700430884
无论你属于上述哪种情况,你都找对了地方。正如Bill Franks所说,在不久的将来,不仅会有大数据,还会有许多关于大数据的书籍。但是,我觉得这本书不同于其他的大数据书籍。首先,该书是这个领域的先驱者。最重要的是,它与其他书籍侧重的内容有所不同。
1700430885
1700430886
很多大数据的书籍侧重于大数据管理:如何将大数据存储到数据库或者数据仓库中,或者如何将非结构化数据进行结构化和分类。如果你发现自己阅读到了很多关于Hadoop、MapReduce或者其他关于数据仓库方法的内容,那么你可能已经遇到了,或正在寻找一本“大数据管理(BDM)”的书籍。
1700430887
1700430888
当然,大数据管理是一项重要的工作。无论你有多少何种质量的数据,如果你不能将它们按照某种便于访问和分析的格式存储到一个环境中,那么你就无法体现出这些数据的价值。
1700430889
1700430890
但仅仅是大数据管理方面的知识还不能让你走得更远。为了让这些任意大小的数据变得有价值,你不得不自己分析和操作这些大数据。正如传统的数据库管理工具不能自动地分析来自传统系统的交易数据一样,Hadoop和MapReduce也不能自动解释来自网站、基因图谱、图像分析或者其他大数据源的数据的含义。即使在大数据时代到来之前,许多从事数据管理多年(甚至是几十年)的组织也没能从它们的数据中获取到便于分析和决策的有价值信息。
1700430891
1700430892
在我看来,这本书将重点放对了地方。它主要是关于大数据的有效分析,而不是大数据管理本身。它从数据开始,所有的内容均围绕如何做整体决策,如何构建卓越的数据分析中心,以及如何构建数据分析文化等主题。你也会发现一些大数据管理中提到的内容,但该书内容的主体仍是关于如何利用输入数据生成、组织、配置和执行数据分析。
1700430893
1700430894
或许你还没有意识到,分析在今天的商业领域中是一个很热门的话题。这本书将主要围绕公司如何利用分析进行竞争,我在该领域的著作和论文一直是我所有著作中最热门的内容。关于分析的会议也在各地不断涌现。大的咨询公司,例如,Accenture、Deloitte和IBM已经在该领域积累了大量经验。许多公司、公共服务部门甚至非营利机构都已经将分析作为一个优先的战略。现在人们对大数据非常感兴趣,但是重点仍应该放在如何组织这些数据并使得它们便于分析,进而影响决策和行动。
1700430895
1700430896
Bill Franks独创地将讨论重点放在大数据和分析的交集上。与其他数据仓库和数据应用供应商相比,他所在的公司Teradata,在数据分析及从中提取商业价值的领域,一直都表现出了最高的专注程度。尽管Teradata最被人们熟知的是其企业数据仓库工具,但是这些年来,它也提供了一系列的分析应用工具。
1700430897
1700430898
在过去的一些年中,Teradata为了开发面向大数据的高度可扩展的分析工具,已经和领先的数据分析软件供应商SAS建立了紧密的联系。这些工具通常是数据仓库环境的嵌入式分析工具,并针对大量数据分析应用,例如,实时欺诈检测和大规模客户购买倾向评分。Bill Franks是Teradata的首席分析专家,因此有机会了解大规模分析和库内处理的理念和专业知识。如果讨论这个主题,可能没有比Bill Franks更好的人选了。
1700430899
1700430900
那么,本书还提供了哪些特别有趣且重要的内容呢?以下是关于本书重点的简要介绍。
1700430901
1700430902
■ 第1章概述了大数据的相关概念,还解释了“数据的大小并不总是最重要的”这个观点。事实上,在整本书中,Franks指出了许多大数据其实并没有用,如何过滤掉无效的数据才是真正重要的。
1700430903
1700430904
■ 第3章是对大数据源的综述,将大数据源进行了创造性和有价值的分类,且非常全面。该书第2章介绍了网络数据及其分析,对希望了解在线用户行为的企业和个人会很有帮助。这部分内容绝不仅仅是一般的面向网页分析的报表。
1700430905
1700430906
■ 第4章致力于介绍分析可扩展性的演进,这部分内容为您提供了一个大数据和分析技术平台的全新视角。可以肯定的是,你在其他地方都未曾看到过这部分的内容。该章也讲述了最新的技术,例如,MapReduce,并讨论了大部分大数据分析工作都需要一个混合的环境。
1700430907
1700430908
■ 该书包含了一部分关于如何生成和管理分析数据环境的最新内容,这也是在其他地方看不到的内容。如果你想要了解最新的关于“分析沙箱”和“企业分析数据集”内容(这对我来讲也是全新的内容,但是现在我知道了它们是什么以及它们的重要性),那么你可以在第5章中找到答案。本章还包含了一些关于对管理系统和处理流程进行建模和评分的重要信息。
1700430909
1700430910
■ 第6章讨论了目前常用分析软件工具的类型,包含开源包R。虽然很难找到关于这些不同分析环境优缺点的评价,但是本章中你将读到这些分析。最后,本章讨论了一些组合和简易分析的方法,以便于像我这样的非技术人员理解。
1700430911
1700430912
■ 该书的第三部分从技术角度给出了在分析中和企业管理方面的建议。同时,选取的角度也是很合理的。例如,我特别喜欢第7章中关于制定决策和发现问题的部分。许多分析专家进行分析时都没有考虑一个更大的问题—这些问题是如何产生的。
1700430913
1700430914
■ 近来有人问我,关于分析文化内容的描述是否超出了本书的范畴。我回答说,在我读Franks所写的第四部分之前,我并不知道这个问题的答案。他将分析文化和创新文化联系在了一起,这一点我非常喜欢,并且以前从未见到过此类内容。
1700430915
1700430916
尽管这本书并没有避开技术话题,但它以一种直接和解释性的方式对它们进行了描述。这使得本书适合更广泛的读者,包括那些技术背景有限的读者。Franks使用数据可视化工具的论述借以概括整本书的基调和视角:“简单即是最好的。仅当必要时,再把它变得复杂。”
1700430917
1700430918
如果您的企业打算进行分析工作—毫无疑问你将需要解决很多在这本书中所涉及的问题。即使你不是一个技术人员,你也需要熟悉一些关于构建企业分析能力所涉及的内容。如果你是一个技术人员,你将学习到分析中人性化的一面。如果你正在书店或者通过“搜索本书内容”浏览本书的前言部分,那么买下这本书吧。如果你已经买了这本书,那就赶快行动起来,阅读它吧!
1700430919
1700430920
Thomas H. Davenport
1700430921
1700430922
信息、技术与管理领域杰出教授,美国巴布森学院
1700430923
1700430924
联合创始人、研发总监,国际数据分析研究所
1700430925
1700430926
1700430927
1700430928
[
上一页 ]
[ :1.70043088e+09 ]
[
下一页 ]