1700431072
1.3 大数据有何不同
1700431073
1700431074
大数据具有一些区别于传统数据源的重要特征。并非每个大数据源都具备所有这些特征,但是大多数大数据源都会具备其中的一些特征。
1700431075
1700431076
首先,大数据通常是由机器自动生成的。在新数据的产生过程中,并不会涉及人工参与,它们完全由机器自动生成。如果你分析一下传统的数据源,它们通常会涉及人工的因素。例如,零售业和银行交易、电话呼叫的详细记录、产品出货,或是发票付款。以上这些都会涉及某个人做某些事情,从而记录或生成一些数据。有人需要储蓄,有人需要采购,还有人需要打电话、发货和进行支付等。在每种情形中,总有一个人参与到新数据的生成流程中。在很多情况下,大数据并不是这样产生的。大量大数据源的产生根本不涉及与人的互动。例如,引擎中内置的传感器,即使没有人触摸或下达指令,它也会自动地生成关于周围环境的数据。
1700431077
1700431078
其次,大数据通常是一种全新的数据源,并非仅仅是对已有数据的扩展收集。例如,通过使用互联网,顾客可以与银行或零售商进行在线交易。然而,这些交易和传统的交易方式并没有本质上的差别,顾客仅仅是通过一种不同的渠道进行交易。企业可以收集网络交易数据,但是同他们多年来拥有的传统交易数据相比,这些数据仅仅是数量更多的相同类型数据而已。然而,对顾客在进行交易时的浏览行为进行收集,却产生了一种本质上全新的数据,我们将在第2章中对这类数据进行详细的讨论。
1700431079
1700431080
有时,“数量更多的相同类型数据”也可以达到另一个极端,从而变成一种新的数据。例如,或许很多年来都是人工方式读取你的电表。可以这样说,一个每隔15分钟自动读取用电数据的智能电表所产生的仅仅是更多“相同类型的数据”。然而,我们也有理由认为这种“数量更多的相同类型数据”已经不同于以前人工读取的数据,因为它可以使用一种全新的、更深层次的分析,所以它确实是一种新数据源。我们将在第3章讨论这种数据源。
1700431081
1700431082
再次,很多大数据源的设计并不友好。事实上,一些数据源根本没有被设计过!以社交媒体网站上的文本流为例,我们不可能要求用户使用一定标准的语法、语序或是词汇表。当人们发布信息时,你可以获得这些数据。处理这些时而规范,时而丑陋的数据是非常困难的事情。我们将在第3章和第6章中讨论文本数据。大多数传统数据源在设计之初都会尽量使其友好。例如,用于收集交易信息的系统通常会以整洁的、预先规范好的模板方式来生成数据,以确保数据容易被加载和使用。部分原因在于曾经对空间高效利用的需求,以前并没有空间记录其他的繁文缛节。
1700431083
1700431084
大数据可能是凌乱而丑陋的
1700431085
1700431086
传统数据源通常在最开始就被严格地定义。数据的每一个比特都有重要的价值,否则就不会包含这个数据比特。随着存储空间的开销变得微乎其微,大数据源在最开始通常不会被严格地定义,而是去收集所有可能使用到的各种信息。因此,在分析大数据时,可能会遇到各种杂乱无章、充斥着垃圾的数据。
1700431087
1700431088
最后,大量数据可能并不蕴含大量的价值。事实上,大部分数据甚至毫无价值。一篇网页日志中会含有非常重要的数据,但其中也包含了很多根本没有价值的数据。对其进行提炼,从而保留有价值的部分是非常必要的。传统数据源在定义之初,就被要求所有的数据要百分之百有用。这主要是由于当时可扩展性的限制,在数据中包含一些不重要信息的代价是非常昂贵的。不仅数据记录的格式被预先定义过了,而且数据中的每一部分都包含了重要价值。而如今,存储空间已不再是主要的瓶颈。因此,大数据会默认收集所有可能使用到的信息,后面再去考虑这种做法可能带来的麻烦。这样可以保证所有信息都不会被遗漏,但同时也导致了分析大数据变得更加棘手和令人头痛。
1700431089
1700431091
1.4 大数据为何是数量更多的、相同类型的传统数据
1700431092
1700431093
作为一个获得了大量关注的新热点,各种关于大数据的言论接踵而至:大数据如何从根本上改变完成分析和使用大数据的方法。如果花一些时间去思考这个问题,你会发现事实并不是这样的。这又是一个被炒作得远离了事实的例子。
1700431094
1700431095
大数据的庞大和它们所提出的可扩展性问题并不是一个新话题。大多数新数据源在第一次使用时都会被认为是庞大而难以使用的。大数据仅仅是又一波新的、更大的、突破了当前极限的数据。分析专家能够驾驭传统的数据源,虽然存在瓶颈限制,他也将能够驾驭大数据源。毕竟一直以来,分析专家都在积极努力地探索新的数据源,并将继续探索下去。
1700431096
1700431097
谁是第一个开始在电信公司中分析电话详细记录的人?正是分析专家。我的第一份工作是做大型机磁带的客户流失分析。在当时,该分析的数据量是令人难以置信的。谁是第一个深入研究零售点销售数据并找出其中价值的人?是分析专家。起初,分析几千个商店中几万到几十万个商品的数据被认为是一个大难题。而如今,这已经不再是什么难题。
1700431098
1700431099
最早涉足这些数据源的分析专家在当时都会被认为是在处理无法想象的大量数据。他们必须找出在当时的瓶颈下分析和利用这些数据的方法。很多人怀疑其可行性,还有些人甚至质疑这些数据是否真的有价值。这听起来很像是今天大数据的情形,难道不是吗?
1700431100
1700431101
大数据并不会改变分析专家们正在努力做的事情和他们这样做的原因。即使有些人开始自称为数据科学家而非分析专家,他们的目标其实还是一样的。这些待解决的问题必然会涉及大数据,这和以前的情景没什么两样。最终,就像他们一直以来所做的事情,分析专家和数据科学家们还是会去探索新的、无法想象的庞大数据集,以发现一些有价值的趋势和模式。在本书中,我们会将传统分析专家和数据科学家统一称为“分析专家”。我们将在第7、8、9章更详细地讨论这些专家。在这里要强调的是,大数据虽然听起来很陌生,但是对我们来说,它带来的挑战其实并不陌生。
1700431102
1700431103
你没有什么可畏惧的
1700431104
1700431105
从很多方面来讲,大数据并没有产生任何你的企业从未遇到过的问题。在数据分析的世界里,驾驭新的、突破了当前可扩展性极限的大数据源是永恒的主题。大数据仅仅是下一代的此类数据而已。分析师对于处理这些状况已经非常熟悉了。如果你的企业曾经驾驭过其他数据,那么它同样可以驾驭大数据。
1700431106
1700431107
大数据会改变分析专家的一些工作策略。为了更有效地处理大数据流,需要将新的工具、方法、技术和传统的分析工具结合起来。想要从原始大数据流中提炼出有用信息,需要开发复杂的过滤算法。同时,建模和预测流程也需要更新,我们需要将大数据输入添加到现有输入中。我们将在第4、5、6章更多地讨论这些话题。
1700431108
1700431109
工作策略的转变并不会从根本上改变分析的目标和流程。大数据必将催生出新的、创新性的分析方法,并且促使分析专家们继续在扩展性的瓶颈下进行革新。然而,对大数据的处理不会和分析专家们以前所做的事情有太大差别。他们已经准备好了迎接这个挑战。
1700431110
1700431112
1.5 大数据的风险
1700431113
1700431114
大数据会带来一些风险。其中一个风险是企业可能会被大数据压得不堪重负,从而停滞不前。正如我们将在第8章中讨论的,关键是要有合适的掌舵人来保证这些不会发生。你需要这些掌舵人去征服大数据,并处理各种问题。有了他们来处理问题,企业可以避免陷入泥沼而无法前行。
1700431115
1700431116
另一个风险是当收集如此庞大的大数据时,其成本的增长速度会快到令企业措手不及。和处理其他事物的方法一样,避免这种情况出现的方法是要保证以适当的步伐前进,使得企业能够及时跟上。没有必要从明天开始行动,一条不漏地收集所有的新数据。而应当立即去做的是,开始收集一些新数据源的样本并试图了解它们。可以使用这些初始样本进行一些实验分析,从而弄清楚数据源中哪些数据是重要的,以及如何使用它们。以样本数据为基础,企业已经做好了有效地处理更大规模数据源的准备。
1700431117
1700431118
对于很多大数据源,其最大的风险或许是隐私。如果世界上的每个人都是善良和诚实的,那么我们就没有必要去担心隐私问题了。但不是每个人都是善良和诚实的。事实上,进一步讲,还有很多并不善良和诚实的公司,甚至有的政府机构都不善良和诚实。这使得大数据存在一些潜在的风险。在处理大数据时,必须考虑到隐私问题,否则就无法完全发挥其潜能。如果没有适当的限制,大数据有可能会激发一股抗议风潮,以至于可能会被完全禁止。
1700431119
1700431120
回想一下最近受到广泛关注的一些安全性事件,例如,信用卡卡号和政府机密文件被窃取并发布在网上的泄密事件。因此毫不夸张地说,如果把数据储存在那里,总会有人试图去偷取它。一旦坏人拿到了这些数据,他们一定会利用这些数据去做坏事。已经有过几起倍受瞩目的案件,一些大公司由于其含糊不明的隐私政策而陷入麻烦之中。由于数据是以一种顾客不知情、不支持的方式被使用的,因此会产生冲突。随着大数据的爆炸式增长,必须同时对其使用自我约束和施加法律约束。
[
上一页 ]
[ :1.700431071e+09 ]
[
下一页 ]