打字猴:1.700431111e+09
1700431111 驾驭大数据 [:1700430520]
1700431112 1.5 大数据的风险
1700431113
1700431114 大数据会带来一些风险。其中一个风险是企业可能会被大数据压得不堪重负,从而停滞不前。正如我们将在第8章中讨论的,关键是要有合适的掌舵人来保证这些不会发生。你需要这些掌舵人去征服大数据,并处理各种问题。有了他们来处理问题,企业可以避免陷入泥沼而无法前行。
1700431115
1700431116 另一个风险是当收集如此庞大的大数据时,其成本的增长速度会快到令企业措手不及。和处理其他事物的方法一样,避免这种情况出现的方法是要保证以适当的步伐前进,使得企业能够及时跟上。没有必要从明天开始行动,一条不漏地收集所有的新数据。而应当立即去做的是,开始收集一些新数据源的样本并试图了解它们。可以使用这些初始样本进行一些实验分析,从而弄清楚数据源中哪些数据是重要的,以及如何使用它们。以样本数据为基础,企业已经做好了有效地处理更大规模数据源的准备。
1700431117
1700431118 对于很多大数据源,其最大的风险或许是隐私。如果世界上的每个人都是善良和诚实的,那么我们就没有必要去担心隐私问题了。但不是每个人都是善良和诚实的。事实上,进一步讲,还有很多并不善良和诚实的公司,甚至有的政府机构都不善良和诚实。这使得大数据存在一些潜在的风险。在处理大数据时,必须考虑到隐私问题,否则就无法完全发挥其潜能。如果没有适当的限制,大数据有可能会激发一股抗议风潮,以至于可能会被完全禁止。
1700431119
1700431120 回想一下最近受到广泛关注的一些安全性事件,例如,信用卡卡号和政府机密文件被窃取并发布在网上的泄密事件。因此毫不夸张地说,如果把数据储存在那里,总会有人试图去偷取它。一旦坏人拿到了这些数据,他们一定会利用这些数据去做坏事。已经有过几起倍受瞩目的案件,一些大公司由于其含糊不明的隐私政策而陷入麻烦之中。由于数据是以一种顾客不知情、不支持的方式被使用的,因此会产生冲突。随着大数据的爆炸式增长,必须同时对其使用自我约束和施加法律约束。
1700431121
1700431122 自我约束非常关键,毕竟它表明了行业对隐私保护的关注程度。每个行业都应该对自身进行约束,并且制定一些所有人都要遵守的法则。自愿接受的法则通常要比政府机构参与制定的法规效果更好一些,但约束力要更差一些,这是因为行业并不善于约束自身。
1700431123
1700431124 隐私是大数据的一个大问题
1700431125
1700431126 在大数据源的众多敏感特性中,隐私一直是一个焦点。一旦数据放在那里,总有些不诚实的人会在未得到你授权的情况下,试图以未经你批准的方式使用它们。对于大数据的处理、存储和应用,需要有相应的政策和协议与当前的分析能力匹配。确保在制订公司的隐私策略时考虑周全,以保证你的做法完全清白和透明。
1700431127
1700431128 人们已经开始担忧他们的网页浏览历史是如何被跟踪到的。同样还有很多担忧是关于通过手机应用和GPS系统跟踪个人位置和操作行为的。恶意使用大数据是完全有可能的,而一旦其成为可能,便总会有人去尝试。因此,需要采取必要措施以防止这种事情的发生。企业需要澄清它们是如何保证数据安全的,并且如果用户同意其数据被收集和分析,它们将如何使用这些数据。
1700431129
1700431130 驾驭大数据 [:1700430521]
1700431131 1.6 你为什么需要驾驭大数据
1700431132
1700431133 目前为止,很多企业在大数据上所做的事情还非常少。幸运的是,在2012年,如果你的企业还没重视大数据,你们落后得还不算很远,除非你是在电子商务这样的行业(在这些行业中,大数据分析已经被标准化了)。然而,随着势头的飞快增长,这种情况会很快改变。迄今为止,大部分企业所错过的仅仅是做领导者的机会。事实上,这对于很多企业来说并不是什么问题。今天,它们仍有机会迎头赶上。然而再过几年,如果一家企业还没有分析大数据,那么它在这场游戏中将很难再赶上别的企业。驾驭大数据最好的时机正是现在!
1700431134
1700431135 一家企业完全可以借助新的数据源来获取业务价值,而其竞争对手却没有做同样的事情,这种情况并不常见。这是如今大数据所带来的巨大商机,你将有机会超过你的竞争对手并击败它们。在未来几年内,我们将会继续看到通过大数据分析进行成功业务转型的案例。你将会从很多案例分析中看到,竞争对手是如何被猝不及防地抛进历史的尘埃中。在很多文章、会议以及其他的讨论中,已经有很多此类案例引人瞩目。一些案例正是来自于行业中那些迟钝、落后以及守旧的企业。在电子商务这样新兴而火爆的行业中,情况则完全两样。在第2章和第3章中,我们将会看到很多如何使用大数据的案例。
1700431136
1700431137 现在正是时候!
1700431138
1700431139 你的企业需要从现在开始驾驭大数据。如果迄今为止,你一直都在忽视大数据,那么你所错过的只是当领导者的机会,你仍有机会可以迎头赶上。再过几年,如果你还在袖手旁观,那么你将会被淘汰。如果你的企业已经开始着手收集数据,并通过分析进行决策,那么对于你们来说,跟上大数据的步伐并不是一件夸张的事情。处理大数据仅仅是你现在所做事情的简单延伸。
1700431140
1700431141 事实上,下决心开始驾驭大数据并不是一件困难的事情。大多数企业已经开始着手收集和分析数据,并将其作为其战略的核心部分。数据仓库、报表和分析已经开始普及。一家企业一旦开始认识到数据的价值,那么驾驭和分析大数据仅仅是它们现有工作的扩展和延伸。不要轻信怀疑论者的言论:大数据不值得探索,它们没有得到验证,它们风险太大等。在过去的几十年里,这些同样的借口一直在阻挠着数据分析的进步。对于那些对大数据感到不确定或是不安的人,要让他们明白大数据仅仅是企业现在所做事情的简单延伸。大数据并没有任何翻天覆地的变化,大数据没有什么让我们可畏惧的。
1700431142
1700431143 驾驭大数据 [:1700430522]
1700431144 1.7 大数据的结构
1700431145
1700431146 当你阅读大数据的相关文章时,你可能会遇到很多关于以下概念的讨论,数据如何被结构化、非结构化、半结构化,甚至多结构化。大数据通常被描述为非结构化的,而传统数据则是结构化的。然而它们之间的界限并不像这些标签所划分的那么清楚。让我们以非专家的视角来探讨这3种数据类型,更高深的技术细节超出了本书讨论的范畴。
1700431147
1700431148 绝大多数传统数据都是完全结构化的。这意味着传统数据源会以明确的、预先规范好所有细节的格式呈现。每时每刻所产生的新数据,都不会违背这些预先定义好的格式。对于股票交易,其交易信息的第一部分应该是格式为月份/日期/年份的时间信息,接下来的是12位账户数字,而下面紧跟的是由3到5位字母表示的股票代码等。每条信息事先都已很明确了,以规范好的格式和顺序给出,这使得它们很容易被处理。
1700431149
1700431150 对于非结构化的数据,你没有或几乎没有控制权,你所做的只能是接收它们。文本数据、视频数据、音频数据都属于这个范畴。每幅图像都是由独立像素通过特定的排列方式组合而成的,但是像素组合成图像的方式却可能千变万化、大相径庭。确实有很多这样完全非结构化的数据。然而,对于大部分数据来说,至少都是半结构化的。
1700431151
1700431152 半结构化的数据具有可被理解的逻辑流程和格式,但这些格式并不是用户友好的。有时,半结构化数据也被称为多结构化数据。在这类数据里,有价值的信息参杂在大量噪声和无用的数据中。理解和分析半结构化数据,要比理解和分析规范好文件格式的数据困难。要理解半结构化的数据,必须要有一套复杂的规则,在读到每条信息后,能够动态地决定随后的处理方法。
1700431153
1700431154 网络日志是半结构化数据的最好例子。当你看到网络日志时,你会觉得它们非常丑陋;但是,其中每一条信息都有其特定的用处。网络日志是否提供了对你有用的信息则是另外一回事。图1-1给出了一个原始网络日志的例子。
1700431155
1700431156
1700431157
1700431158
1700431159 图1-1 原始网络日志的例子
1700431160
[ 上一页 ]  [ :1.700431111e+09 ]  [ 下一页 ]