打字猴:1.700431226e+09
1700431226 驾驭大数据 [:1700430526]
1700431227 1.11 将大数据和传统数据混合
1700431228
1700431229 大数据最令人激动的部分并不是它本身能为企业做什么,而是当它和企业的其他数据结合后,能为企业做什么。
1700431230
1700431231 例如,浏览历史是非常强大的信息源。如果将其用于更大的环境中,就能够知道每个顾客的价值,知道顾客在过去通过各种渠道所购买的商品,这些将使得网络数据的威力变得更强大。我们将在第2章中对其进行更详细的探讨。
1700431232
1700431233 智能电网数据对于电力公司非常有用。将其用于更大的环境中,如果能够知道顾客的历史计费模式、住宅类型,以及其他一些因素,将会使从智能电表上读来的数据更加有用。我们将在第3章中对其进行探讨。
1700431234
1700431235 顾客在线聊天和电子邮件中获得的文本数据非常有用。将其用于更大的环境中,如果能够知道所讨论产品的具体规格,关于这些产品的销售数据,以及以往的产品缺陷信息将会使这些文本数据的效力剧增。我们将在第3章和第6章从不同的视角对其进行探讨。
1700431236
1700431237 企业数据仓库(EDW)已经成为被广泛使用的企业工具,其主要原因并不是为了将海量数据集中起来以节省硬件和软件成本。EDW允许不同的数据源相互混合,彼此增强,从而创造价值。通过EDW,可以将对用户和雇员信息一起进行分析,因为这两种信息联系紧密,且不再被分开分析。例如,某些雇员是否通过其个人影响比其他雇员创造了更多的顾客价值?如果将数据结合起来放在一起,这些问题将更容易回答。大数据的加入使得越来越多的数据类型可以结合在一起,以增添新的视角和处理环境,从而推动解决更多和更大规模的问题。
1700431238
1700431239 将它们混合起来
1700431240
1700431241 大数据最大的价值在于它们可以和其他企业数据结合起来。将大数据里找出的东西放到更大的处理环境中,新的洞察的数量和质量都会呈指数级增长。这也解释了为什么需要制定大数据和其他数据相结合的整体数据战略,而不是独立的大数据战略。
1700431242
1700431243 这就是企业不制定严格区别于传统数据战略的大数据战略的关键原因。这样做会导致失败。大数据和传统数据都是整体战略的一部分。要想成功,企业需要发展凝聚性的战略,大数据在该战略中并不是被严格区分的独立概念。相反地,大数据必须只是企业数据战略的一个方面。从一开始,企业所必须考虑和计划的就不仅仅是如何收集和分析大数据本身,还包括如何将其和其他企业数据结合起来,并将其作为企业数据整体方案的一部分。
1700431244
1700431245 驾驭大数据 [:1700430527]
1700431246 1.12 对大数据标准的需求
1700431247
1700431248 大数据会继续以狂野西部式的风格,以及无限制及缺乏定义的数据流格式存在吗?或许不会。随着时间推移,会有一些标准被制定出来。一些半格式化的数据源会逐渐变得更加格式化,而且一些独立的组织会微调它们的大数据流,使之对分析更加友好。然而更重要的是,发展行业标准是大势所趋。尽管诸如电子邮件和社交媒体评论之类的文本数据无法在其输入端施加很多控制,然而标准化解释这些数据并用于分析的方法却是可行的。事实上,这些变化已经开始发生了。
1700431249
1700431250 例如,哪些词是“好”的,哪些词是“坏”的?对于哪些状况默认的规则会失效?哪些电子邮件值得一字不漏地解析和分析,而哪些可以被很快地处理?产生大数据的方法,以及处理和分析大数据的过程,都会被制定标准。输入端和输出端都会被涉及。结果,征服大数据的任务将会变得更加容易。这个过程还需要一些时间,而且,这些被制定的标准更像是一些被从业人员普遍接受的实践法则,而不是由官方标准化组织正式声明的规则或政策。不管如何,标准会越来越多。
1700431251
1700431252 标准化所有可能的范围
1700431253
1700431254 尽管类似于电子邮件的文本数据无法在其输入端施加很多控制,然而解析这些数据并用于分析的方法是可以被标准化的。你并没有能力将大数据的一切都标准化,但是通过部分标准化,已经足以让任务变得更简单。应当把注意力集中在使用大数据和标准化大数据流输入上。
1700431255
1700431256 能够迅速切入大数据领域的企业具有制定标准和影响标准发展的能力,从而保证它们的特殊需求可以被满足。某些行业甚至可以遥遥领先。对于电力公司行业,在具备收集数据的能力之前,已经有相当多的工作用于定义智能电网数据的参数。当项目以一般定义和规则启动时,如果每家电力公司都以它们自己的方式创造数据,而没有事先与它们的同行共同商议,那么智能电网数据将更加难以管理。
1700431257
1700431258 驾驭大数据 [:1700430528]
1700431259 1.13 今天的大数据将不再是明天的大数据
1700431260
1700431261 正如我们在本章最开始所讨论的,大数据被公认的定义多少还有一些模糊。没有一个明确和广泛的定义,什么样的数据可以被视为大数据。相反地,大数据的定义是相对于当前可用的技术和资源而言的。结果,某一个企业或行业所认为的大数据,可能对于另一个企业或行业就不再是大数据。对于大的电子商务企业,它们眼里的大数据要比小厂商眼里的大数据“大”得多。
1700431262
1700431263 更重要的是,随着时间的推移,处理数据的工具和技术、原始存储空间和处理能力都会不断演进,大数据的界定也必然会发生变化。10年或20年之前,几百个领域,几百万个顾客的年家庭人口档案是非常庞大并难以管理的。而如今,这些数据可以存入一个U盘中,并可以使用低端的笔记本电脑对其进行分析。对大容量、高速度、高复杂度的界定会一直演变,对大数据也同样如此。
1700431264
1700431265 “大”会变化
1700431266
1700431267 今天的大数据明天可能不再被认为是大数据,就像10年前的大数据在如今看来什么都不是一样。大数据会继续演进下去。如今,在数据容量、速度、多样性、复杂度等方面被认为是不可能的或无法想象的事情,几年过后情况会完全不同。这是一个多年不变的定律,在大数据时代也同样适用。
1700431268
1700431269 10年以前,零售业、电信业以及金融业的交易数据非常庞大,并且难以处理。事实上,在20世纪90年代后期之前,对于很多企业,这些数据都没有被用在分析和报表中。如今,这些数据已被认为是一项必要且基本的资产。事实上每一家公司,不论大小,都会使用到这些数据。
1700431270
1700431271 类似地,我们今天所惧怕的事情,几年之后将不会再如此可怕。来自网页的点击流数据也许在10年内便可以成为标准化的、易于处理的数据源。对于大多数企业,积极地处理每封电子邮件、每次顾客服务谈话、每条社交媒体评论都可能成为标准化的实践行为。每秒钟在搜索引擎中跟踪几百个指标对任何人来说都不再是什么费力的事情。
1700431272
1700431273 在我们正在驾驭这一代大数据的同时,其他一些更大的数据源正在逐渐登上历史舞台。它们会是什么样子?如今还没有人可以完全回答这个问题。然而,以下是一些关于当前数据源如何迅速升级到更大量级的观点。
1700431274
1700431275 ■ 想象一下网络浏览数据会从网页点击数据扩展到毫秒级的眼动和鼠标移动数据,因此用户上网冲浪的每一个微小细节都能够被捕捉到,而不只是点击数据。这是大数据的另一个层次。
[ 上一页 ]  [ :1.700431226e+09 ]  [ 下一页 ]