打字猴:1.700431261e+09
1700431261 正如我们在本章最开始所讨论的,大数据被公认的定义多少还有一些模糊。没有一个明确和广泛的定义,什么样的数据可以被视为大数据。相反地,大数据的定义是相对于当前可用的技术和资源而言的。结果,某一个企业或行业所认为的大数据,可能对于另一个企业或行业就不再是大数据。对于大的电子商务企业,它们眼里的大数据要比小厂商眼里的大数据“大”得多。
1700431262
1700431263 更重要的是,随着时间的推移,处理数据的工具和技术、原始存储空间和处理能力都会不断演进,大数据的界定也必然会发生变化。10年或20年之前,几百个领域,几百万个顾客的年家庭人口档案是非常庞大并难以管理的。而如今,这些数据可以存入一个U盘中,并可以使用低端的笔记本电脑对其进行分析。对大容量、高速度、高复杂度的界定会一直演变,对大数据也同样如此。
1700431264
1700431265 “大”会变化
1700431266
1700431267 今天的大数据明天可能不再被认为是大数据,就像10年前的大数据在如今看来什么都不是一样。大数据会继续演进下去。如今,在数据容量、速度、多样性、复杂度等方面被认为是不可能的或无法想象的事情,几年过后情况会完全不同。这是一个多年不变的定律,在大数据时代也同样适用。
1700431268
1700431269 10年以前,零售业、电信业以及金融业的交易数据非常庞大,并且难以处理。事实上,在20世纪90年代后期之前,对于很多企业,这些数据都没有被用在分析和报表中。如今,这些数据已被认为是一项必要且基本的资产。事实上每一家公司,不论大小,都会使用到这些数据。
1700431270
1700431271 类似地,我们今天所惧怕的事情,几年之后将不会再如此可怕。来自网页的点击流数据也许在10年内便可以成为标准化的、易于处理的数据源。对于大多数企业,积极地处理每封电子邮件、每次顾客服务谈话、每条社交媒体评论都可能成为标准化的实践行为。每秒钟在搜索引擎中跟踪几百个指标对任何人来说都不再是什么费力的事情。
1700431272
1700431273 在我们正在驾驭这一代大数据的同时,其他一些更大的数据源正在逐渐登上历史舞台。它们会是什么样子?如今还没有人可以完全回答这个问题。然而,以下是一些关于当前数据源如何迅速升级到更大量级的观点。
1700431274
1700431275 ■ 想象一下网络浏览数据会从网页点击数据扩展到毫秒级的眼动和鼠标移动数据,因此用户上网冲浪的每一个微小细节都能够被捕捉到,而不只是点击数据。这是大数据的另一个层次。
1700431276
1700431277 ■ 想象一下视频游戏遥感数据将会升级到不仅仅只包含按键和移动数据。想象一下它同样会包括玩家的眼动、身体移动以及游戏场景中涉及的每个对象的位置和状态,而不仅仅是直接交互的对象。这使得数据变得非常庞大。
1700431278
1700431279 ■ 想象一下全球每家商店、分销商以及制造工厂中的每一件商品都拥有可用的RFID信息。想象一下那些可以每秒钟收集几十个指标,例如,温度、湿度、速度、加速度、压强等信息的芯片。这类数据的体积在今天看来是无法想象的。
1700431280
1700431281 ■ 想象一下将顾客服务或电话销售的每一次谈话都记录并转译为文本。再加上所有相关的电子邮件、在线聊天,以及社交网站或产品点评网站上的评论。现在,去解析、整合并分析所有这些文本吧,你的大脑是不是已经要爆炸了?
1700431282
1700431283 大数据会一直存在下去。尽管几年之后,今天我们觉得恐怖的大数据会变得不再那么吓人,但总会有令人恐怖的新数据源出现。企业需要持续地调整它们的方法和目标,以适应企业所涉及数据的变化。然而,如果企业还不具备处理大数据的能力,也便谈不上对数据处理方法的调整和升级。所以,你需要现在开始!
1700431284
1700431285 驾驭大数据 [:1700430529]
1700431286 1.14 本章小结
1700431287
1700431288 以下是本章的重点内容。
1700431289
1700431290 ■ 大数据通常定义为,超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理能力的数据。
1700431291
1700431292 ■ 大数据的“大”不仅体现在容量上,还体现在多样性、速度及复杂度等方面。
1700431293
1700431294 ■ 大数据的威力体现在你所做的分析和所采取的行动上,而不是体现在“大”或“数据”这两个方面。
1700431295
1700431296 ■ 大数据通常由某类机器自动地生成,而且其格式通常并不是用户友好的。默认的做法是先收集所有能收集到的数据,然后再考虑其中哪些是重要的。
1700431297
1700431298 ■ 大数据是下一波新的、更大的、推动当前极限的浪潮。从分析的角度看,它和过去的数据源并没有什么区别。它们在第一次出现时,都显得庞大而难以处理。
1700431299
1700431300 ■ 大数据会改变分析专家所使用的分析策略和工具,但它不会从根本上改变分析的动机,以及从分析中可获取的价值。
1700431301
1700431302 ■ 很多大数据源是半结构化的。半结构化的数据源有一定的逻辑,但是可能并不漂亮。大数据也可以是非结构化的。在某些情况下,它甚至和传统数据源的结构相同。
1700431303
1700431304 ■ 大数据最大的风险是某些数据源可能涉及隐私纠纷。在使用大数据的过程中,自我约束和法律约束都是必需的。
1700431305
1700431306 ■ 征服大数据并不意味着要控制所有的数据,它就像从吸管中吸水一样,仅仅吸取那些重要的部分就可以了。
1700431307
1700431308 ■ 大数据最令人激动的部分是,当它和其他数据结合以后所带来的业务价值。
1700431309
1700431310 ■ 大数据和传统数据都是整体数据和分析策略的一部分。不要制订严格区分于传统数据策略的大数据策略。
[ 上一页 ]  [ :1.700431261e+09 ]  [ 下一页 ]