1700431080
有时,“数量更多的相同类型数据”也可以达到另一个极端,从而变成一种新的数据。例如,或许很多年来都是人工方式读取你的电表。可以这样说,一个每隔15分钟自动读取用电数据的智能电表所产生的仅仅是更多“相同类型的数据”。然而,我们也有理由认为这种“数量更多的相同类型数据”已经不同于以前人工读取的数据,因为它可以使用一种全新的、更深层次的分析,所以它确实是一种新数据源。我们将在第3章讨论这种数据源。
1700431081
1700431082
再次,很多大数据源的设计并不友好。事实上,一些数据源根本没有被设计过!以社交媒体网站上的文本流为例,我们不可能要求用户使用一定标准的语法、语序或是词汇表。当人们发布信息时,你可以获得这些数据。处理这些时而规范,时而丑陋的数据是非常困难的事情。我们将在第3章和第6章中讨论文本数据。大多数传统数据源在设计之初都会尽量使其友好。例如,用于收集交易信息的系统通常会以整洁的、预先规范好的模板方式来生成数据,以确保数据容易被加载和使用。部分原因在于曾经对空间高效利用的需求,以前并没有空间记录其他的繁文缛节。
1700431083
1700431084
大数据可能是凌乱而丑陋的
1700431085
1700431086
传统数据源通常在最开始就被严格地定义。数据的每一个比特都有重要的价值,否则就不会包含这个数据比特。随着存储空间的开销变得微乎其微,大数据源在最开始通常不会被严格地定义,而是去收集所有可能使用到的各种信息。因此,在分析大数据时,可能会遇到各种杂乱无章、充斥着垃圾的数据。
1700431087
1700431088
最后,大量数据可能并不蕴含大量的价值。事实上,大部分数据甚至毫无价值。一篇网页日志中会含有非常重要的数据,但其中也包含了很多根本没有价值的数据。对其进行提炼,从而保留有价值的部分是非常必要的。传统数据源在定义之初,就被要求所有的数据要百分之百有用。这主要是由于当时可扩展性的限制,在数据中包含一些不重要信息的代价是非常昂贵的。不仅数据记录的格式被预先定义过了,而且数据中的每一部分都包含了重要价值。而如今,存储空间已不再是主要的瓶颈。因此,大数据会默认收集所有可能使用到的信息,后面再去考虑这种做法可能带来的麻烦。这样可以保证所有信息都不会被遗漏,但同时也导致了分析大数据变得更加棘手和令人头痛。
1700431089
1700431091
1.4 大数据为何是数量更多的、相同类型的传统数据
1700431092
1700431093
作为一个获得了大量关注的新热点,各种关于大数据的言论接踵而至:大数据如何从根本上改变完成分析和使用大数据的方法。如果花一些时间去思考这个问题,你会发现事实并不是这样的。这又是一个被炒作得远离了事实的例子。
1700431094
1700431095
大数据的庞大和它们所提出的可扩展性问题并不是一个新话题。大多数新数据源在第一次使用时都会被认为是庞大而难以使用的。大数据仅仅是又一波新的、更大的、突破了当前极限的数据。分析专家能够驾驭传统的数据源,虽然存在瓶颈限制,他也将能够驾驭大数据源。毕竟一直以来,分析专家都在积极努力地探索新的数据源,并将继续探索下去。
1700431096
1700431097
谁是第一个开始在电信公司中分析电话详细记录的人?正是分析专家。我的第一份工作是做大型机磁带的客户流失分析。在当时,该分析的数据量是令人难以置信的。谁是第一个深入研究零售点销售数据并找出其中价值的人?是分析专家。起初,分析几千个商店中几万到几十万个商品的数据被认为是一个大难题。而如今,这已经不再是什么难题。
1700431098
1700431099
最早涉足这些数据源的分析专家在当时都会被认为是在处理无法想象的大量数据。他们必须找出在当时的瓶颈下分析和利用这些数据的方法。很多人怀疑其可行性,还有些人甚至质疑这些数据是否真的有价值。这听起来很像是今天大数据的情形,难道不是吗?
1700431100
1700431101
大数据并不会改变分析专家们正在努力做的事情和他们这样做的原因。即使有些人开始自称为数据科学家而非分析专家,他们的目标其实还是一样的。这些待解决的问题必然会涉及大数据,这和以前的情景没什么两样。最终,就像他们一直以来所做的事情,分析专家和数据科学家们还是会去探索新的、无法想象的庞大数据集,以发现一些有价值的趋势和模式。在本书中,我们会将传统分析专家和数据科学家统一称为“分析专家”。我们将在第7、8、9章更详细地讨论这些专家。在这里要强调的是,大数据虽然听起来很陌生,但是对我们来说,它带来的挑战其实并不陌生。
1700431102
1700431103
你没有什么可畏惧的
1700431104
1700431105
从很多方面来讲,大数据并没有产生任何你的企业从未遇到过的问题。在数据分析的世界里,驾驭新的、突破了当前可扩展性极限的大数据源是永恒的主题。大数据仅仅是下一代的此类数据而已。分析师对于处理这些状况已经非常熟悉了。如果你的企业曾经驾驭过其他数据,那么它同样可以驾驭大数据。
1700431106
1700431107
大数据会改变分析专家的一些工作策略。为了更有效地处理大数据流,需要将新的工具、方法、技术和传统的分析工具结合起来。想要从原始大数据流中提炼出有用信息,需要开发复杂的过滤算法。同时,建模和预测流程也需要更新,我们需要将大数据输入添加到现有输入中。我们将在第4、5、6章更多地讨论这些话题。
1700431108
1700431109
工作策略的转变并不会从根本上改变分析的目标和流程。大数据必将催生出新的、创新性的分析方法,并且促使分析专家们继续在扩展性的瓶颈下进行革新。然而,对大数据的处理不会和分析专家们以前所做的事情有太大差别。他们已经准备好了迎接这个挑战。
1700431110
1700431112
1.5 大数据的风险
1700431113
1700431114
大数据会带来一些风险。其中一个风险是企业可能会被大数据压得不堪重负,从而停滞不前。正如我们将在第8章中讨论的,关键是要有合适的掌舵人来保证这些不会发生。你需要这些掌舵人去征服大数据,并处理各种问题。有了他们来处理问题,企业可以避免陷入泥沼而无法前行。
1700431115
1700431116
另一个风险是当收集如此庞大的大数据时,其成本的增长速度会快到令企业措手不及。和处理其他事物的方法一样,避免这种情况出现的方法是要保证以适当的步伐前进,使得企业能够及时跟上。没有必要从明天开始行动,一条不漏地收集所有的新数据。而应当立即去做的是,开始收集一些新数据源的样本并试图了解它们。可以使用这些初始样本进行一些实验分析,从而弄清楚数据源中哪些数据是重要的,以及如何使用它们。以样本数据为基础,企业已经做好了有效地处理更大规模数据源的准备。
1700431117
1700431118
对于很多大数据源,其最大的风险或许是隐私。如果世界上的每个人都是善良和诚实的,那么我们就没有必要去担心隐私问题了。但不是每个人都是善良和诚实的。事实上,进一步讲,还有很多并不善良和诚实的公司,甚至有的政府机构都不善良和诚实。这使得大数据存在一些潜在的风险。在处理大数据时,必须考虑到隐私问题,否则就无法完全发挥其潜能。如果没有适当的限制,大数据有可能会激发一股抗议风潮,以至于可能会被完全禁止。
1700431119
1700431120
回想一下最近受到广泛关注的一些安全性事件,例如,信用卡卡号和政府机密文件被窃取并发布在网上的泄密事件。因此毫不夸张地说,如果把数据储存在那里,总会有人试图去偷取它。一旦坏人拿到了这些数据,他们一定会利用这些数据去做坏事。已经有过几起倍受瞩目的案件,一些大公司由于其含糊不明的隐私政策而陷入麻烦之中。由于数据是以一种顾客不知情、不支持的方式被使用的,因此会产生冲突。随着大数据的爆炸式增长,必须同时对其使用自我约束和施加法律约束。
1700431121
1700431122
自我约束非常关键,毕竟它表明了行业对隐私保护的关注程度。每个行业都应该对自身进行约束,并且制定一些所有人都要遵守的法则。自愿接受的法则通常要比政府机构参与制定的法规效果更好一些,但约束力要更差一些,这是因为行业并不善于约束自身。
1700431123
1700431124
隐私是大数据的一个大问题
1700431125
1700431126
在大数据源的众多敏感特性中,隐私一直是一个焦点。一旦数据放在那里,总有些不诚实的人会在未得到你授权的情况下,试图以未经你批准的方式使用它们。对于大数据的处理、存储和应用,需要有相应的政策和协议与当前的分析能力匹配。确保在制订公司的隐私策略时考虑周全,以保证你的做法完全清白和透明。
1700431127
1700431128
人们已经开始担忧他们的网页浏览历史是如何被跟踪到的。同样还有很多担忧是关于通过手机应用和GPS系统跟踪个人位置和操作行为的。恶意使用大数据是完全有可能的,而一旦其成为可能,便总会有人去尝试。因此,需要采取必要措施以防止这种事情的发生。企业需要澄清它们是如何保证数据安全的,并且如果用户同意其数据被收集和分析,它们将如何使用这些数据。
1700431129
[
上一页 ]
[ :1.70043108e+09 ]
[
下一页 ]