打字猴:1.700431119e+09
1700431119
1700431120 回想一下最近受到广泛关注的一些安全性事件,例如,信用卡卡号和政府机密文件被窃取并发布在网上的泄密事件。因此毫不夸张地说,如果把数据储存在那里,总会有人试图去偷取它。一旦坏人拿到了这些数据,他们一定会利用这些数据去做坏事。已经有过几起倍受瞩目的案件,一些大公司由于其含糊不明的隐私政策而陷入麻烦之中。由于数据是以一种顾客不知情、不支持的方式被使用的,因此会产生冲突。随着大数据的爆炸式增长,必须同时对其使用自我约束和施加法律约束。
1700431121
1700431122 自我约束非常关键,毕竟它表明了行业对隐私保护的关注程度。每个行业都应该对自身进行约束,并且制定一些所有人都要遵守的法则。自愿接受的法则通常要比政府机构参与制定的法规效果更好一些,但约束力要更差一些,这是因为行业并不善于约束自身。
1700431123
1700431124 隐私是大数据的一个大问题
1700431125
1700431126 在大数据源的众多敏感特性中,隐私一直是一个焦点。一旦数据放在那里,总有些不诚实的人会在未得到你授权的情况下,试图以未经你批准的方式使用它们。对于大数据的处理、存储和应用,需要有相应的政策和协议与当前的分析能力匹配。确保在制订公司的隐私策略时考虑周全,以保证你的做法完全清白和透明。
1700431127
1700431128 人们已经开始担忧他们的网页浏览历史是如何被跟踪到的。同样还有很多担忧是关于通过手机应用和GPS系统跟踪个人位置和操作行为的。恶意使用大数据是完全有可能的,而一旦其成为可能,便总会有人去尝试。因此,需要采取必要措施以防止这种事情的发生。企业需要澄清它们是如何保证数据安全的,并且如果用户同意其数据被收集和分析,它们将如何使用这些数据。
1700431129
1700431130 驾驭大数据 [:1700430521]
1700431131 1.6 你为什么需要驾驭大数据
1700431132
1700431133 目前为止,很多企业在大数据上所做的事情还非常少。幸运的是,在2012年,如果你的企业还没重视大数据,你们落后得还不算很远,除非你是在电子商务这样的行业(在这些行业中,大数据分析已经被标准化了)。然而,随着势头的飞快增长,这种情况会很快改变。迄今为止,大部分企业所错过的仅仅是做领导者的机会。事实上,这对于很多企业来说并不是什么问题。今天,它们仍有机会迎头赶上。然而再过几年,如果一家企业还没有分析大数据,那么它在这场游戏中将很难再赶上别的企业。驾驭大数据最好的时机正是现在!
1700431134
1700431135 一家企业完全可以借助新的数据源来获取业务价值,而其竞争对手却没有做同样的事情,这种情况并不常见。这是如今大数据所带来的巨大商机,你将有机会超过你的竞争对手并击败它们。在未来几年内,我们将会继续看到通过大数据分析进行成功业务转型的案例。你将会从很多案例分析中看到,竞争对手是如何被猝不及防地抛进历史的尘埃中。在很多文章、会议以及其他的讨论中,已经有很多此类案例引人瞩目。一些案例正是来自于行业中那些迟钝、落后以及守旧的企业。在电子商务这样新兴而火爆的行业中,情况则完全两样。在第2章和第3章中,我们将会看到很多如何使用大数据的案例。
1700431136
1700431137 现在正是时候!
1700431138
1700431139 你的企业需要从现在开始驾驭大数据。如果迄今为止,你一直都在忽视大数据,那么你所错过的只是当领导者的机会,你仍有机会可以迎头赶上。再过几年,如果你还在袖手旁观,那么你将会被淘汰。如果你的企业已经开始着手收集数据,并通过分析进行决策,那么对于你们来说,跟上大数据的步伐并不是一件夸张的事情。处理大数据仅仅是你现在所做事情的简单延伸。
1700431140
1700431141 事实上,下决心开始驾驭大数据并不是一件困难的事情。大多数企业已经开始着手收集和分析数据,并将其作为其战略的核心部分。数据仓库、报表和分析已经开始普及。一家企业一旦开始认识到数据的价值,那么驾驭和分析大数据仅仅是它们现有工作的扩展和延伸。不要轻信怀疑论者的言论:大数据不值得探索,它们没有得到验证,它们风险太大等。在过去的几十年里,这些同样的借口一直在阻挠着数据分析的进步。对于那些对大数据感到不确定或是不安的人,要让他们明白大数据仅仅是企业现在所做事情的简单延伸。大数据并没有任何翻天覆地的变化,大数据没有什么让我们可畏惧的。
1700431142
1700431143 驾驭大数据 [:1700430522]
1700431144 1.7 大数据的结构
1700431145
1700431146 当你阅读大数据的相关文章时,你可能会遇到很多关于以下概念的讨论,数据如何被结构化、非结构化、半结构化,甚至多结构化。大数据通常被描述为非结构化的,而传统数据则是结构化的。然而它们之间的界限并不像这些标签所划分的那么清楚。让我们以非专家的视角来探讨这3种数据类型,更高深的技术细节超出了本书讨论的范畴。
1700431147
1700431148 绝大多数传统数据都是完全结构化的。这意味着传统数据源会以明确的、预先规范好所有细节的格式呈现。每时每刻所产生的新数据,都不会违背这些预先定义好的格式。对于股票交易,其交易信息的第一部分应该是格式为月份/日期/年份的时间信息,接下来的是12位账户数字,而下面紧跟的是由3到5位字母表示的股票代码等。每条信息事先都已很明确了,以规范好的格式和顺序给出,这使得它们很容易被处理。
1700431149
1700431150 对于非结构化的数据,你没有或几乎没有控制权,你所做的只能是接收它们。文本数据、视频数据、音频数据都属于这个范畴。每幅图像都是由独立像素通过特定的排列方式组合而成的,但是像素组合成图像的方式却可能千变万化、大相径庭。确实有很多这样完全非结构化的数据。然而,对于大部分数据来说,至少都是半结构化的。
1700431151
1700431152 半结构化的数据具有可被理解的逻辑流程和格式,但这些格式并不是用户友好的。有时,半结构化数据也被称为多结构化数据。在这类数据里,有价值的信息参杂在大量噪声和无用的数据中。理解和分析半结构化数据,要比理解和分析规范好文件格式的数据困难。要理解半结构化的数据,必须要有一套复杂的规则,在读到每条信息后,能够动态地决定随后的处理方法。
1700431153
1700431154 网络日志是半结构化数据的最好例子。当你看到网络日志时,你会觉得它们非常丑陋;但是,其中每一条信息都有其特定的用处。网络日志是否提供了对你有用的信息则是另外一回事。图1-1给出了一个原始网络日志的例子。
1700431155
1700431156
1700431157
1700431158
1700431159 图1-1 原始网络日志的例子
1700431160
1700431161 你的大数据具有怎样的结构?
1700431162
1700431163 事实上,很多大数据源都是半结构化或多结构化的,而不是非结构化的。这些数据具有可被理解的逻辑流程,因此可以从它们中提取出用于分析的信息。处理这类数据不像处理传统结构化数据那么简单。要驾驭半结构化数据,需要花费很多时间,并且要努力才能找出处理它们的最好方法。
1700431164
1700431165 网络日志中的信息都有一定的逻辑,尽管第一眼看上去可能并不那么明显。日志中有不同的字段和分隔符,就像结构化的数据一样,其中也蕴含着价值。然而,这些元素并没有按照固定的方式紧密地联系在一起。点击一个网站所产生的日志文本比起一分钟前点击另一个网页产生的日志文本,可能更长,也可能更短。最后,一定要理解半结构化的数据都具有其内在的逻辑,在它的各部分之间建立联系是完全可能的。要做到这一点,需要比处理结构化数据付出更多的努力。
1700431166
1700431167 对分析专家来说,完全非结构化的数据要比半结构化数据更加恐怖。想要征服半结构化数据,他们可能需要付出一番努力,但是他们确实可以做到。分析专家们可以将半结构化数据重新组织得非常结构化,并将其运用到他们的分析流程中。然而,征服完全非结构化的数据要困难得多,即使企业已经征服了半结构化的数据,征服非结构化的数据对他们来说,仍将是一个巨大的挑战。
1700431168
[ 上一页 ]  [ :1.700431119e+09 ]  [ 下一页 ]