1704265030
■情感分析。它是最为软性的分析,是通过非结构化的通讯信息流来尝试找出客户、员工和合作伙伴对于某个主题、产品或其他被分析的项目所持的观点和情绪。情感分析应用自然语言处理流程(让计算机来理解人类语言)以及其他分析技术来处理大批量文本材料,包括博客和其他社交媒体,从而提取出其中的主观信息。这种分析先以简单的关键词定位开始(例如,在某篇博客中提到“好”这个词,这或许表示某件事情是好的),并由此扩展(假如用户发表的资料中提到企业造成了“好大一场灾难”,这就麻烦了,你得使用更复杂的方式处理了)。所谓的碎语分析器能够尝试识别出写作过程中,对于一款产品或活动的情感。这些技术能够检测出信息量中所包含的情感类型——积极、消极或者中性。而更高级的分析器能够试图找出情感的强烈程度。“波顿公司这款新型的滑雪板实在太了不起了”这句话会传递出一个强烈的情感信号,尤其当这句话在互联网上疯传的时候。消费市场分析师通常使用情感分析来判断不同的客户群对其产品或市场活动的反应。同样地,企业内部交流中显示出的强大而积极的情感也暗示着员工之间的凝聚力。
1704265031
1704265032
■数据流处理。它指的是对不同数据源所产生的数据进行持续且实时的分析。数据流处理和上述各项技术共同工作,实时修正用户的反应体验,从而依据用户行为、所处地点、背景环境以及其他变量提供量身定制的交互方式。实时的欺诈检测以及基于算法的高频安全交易[1]便是数据流处理应用的典型案例。在第4章中,我们将看到这同样被称为“游戏化”。
1704265033
1704265034
■异常检测和相似性搜索。在欺诈检测、临床试验、投票活动和制造缺陷等场景中,你通常都希望能找出异常点,标准的偏离值。这些异常点能帮你找出问题症结所在,将有助于你的产品设计或者揭露不良的行为。通过将来自不同数据源的大数据输入有处理能力的机器识别系统,能够找出其中的关联系数,而这种异常点是人工分析永远无法识别和揭示的。反过来,大数据中的数据还能够找出与所关注对象极其相似的其他对象,例如,“找出和这些鞋看上去差不多的其他鞋子”、“找出有同类症状的其他患者”以及“找出和这首歌听上去差不多的歌曲”。
1704265035
1704265036
■定群分析。定群分析是指对在某段时间内有着某种共同特性的人群所进行的分析。将用户分割成不同的群组,并从商业的角度来比较各组之间不同的价值。在线上零售业务中,顾客来源就是一种群组,例如“从谷歌搜索链接而来的所有客户”、“从Twitter链接而来的所有客户”、“被推荐而来的所有客户”等。结合每个客户的分组以及他们的消费数据,零售商现在可以找出从哪里能够获取到最有价值的客户,并且根据这些信息优化市场营销方面的支出,将钱花在最值得的地方。
1704265037
1704265038
企业经常使用的另一种定群分析还有顾客获取日期(“2012年12月加入的顾客”,“2013年1月加入的顾客”等)。通过比较所有客户的消费总额,企业能够看出他们的客户质量是在上升还是下降。除此以外,如果企业改变其产品、服务或客户体验,还可以通过这种基于时间的定群分析进行同类比较,判断这些改变是否会对业务成功产生实质性的影响。
1704265039
1704265040
在任何时候,全球都有数百万台家用和工作用的计算机处于闲置状态,只是等待人们前来使用而不进行任何操作。想象一下,假如能够驾驭所有这些闲置计算机,你能够做什么?如果你有庞大的计算工作量要处理,原先你只能借助超级计算机来运行,而现在你可以将其切割成百万块碎片,分配给上述这些个人计算机,让其处理各个碎块后,再将结果反馈给你。这使你能够比以前更快速、更高效并以更低的成本价格处理海量数据。
1704265041
1704265042
1704265043
1704265044
1704265045
这个创意是由外星球文明研究所(SETI)的工作人员提出的。在他们的外星球生命探索过程中,他们使用射电天文望远镜监听来自太空的无线电信号。而要处理SETI搜集的所有无线电信号数据,需要极其强大的计算处理能力。SETI并没有尝试去采购庞大的超级计算机(当然也没有这么多的经费)来完成计算处理工作,而是创建了家庭SETI项目,参与项目的志愿者会被要求在其计算机上运行一项屏幕保护程序。当他们的计算机处于“闲置”状态时,该屏幕保护程序会抓取一小部分数据进行处理,并将结果上传送回SETI。通过计算能力的众包模式以及让人们参与到重大项目中来的创新途径,家庭SETI项目所能够处理的大数据总量是前所未有的,并且他们自己无需为此额外地花费任何费用。
1704265046
1704265047
你是否想要将你的计算机的空置时间贡献到疾病治愈、全球变暖的研究项目,或是探索新的脉冲星之中?抑或你希望建立自己的“网格计算”项目来解决大数据业务问题?如果答案是肯定的话,你可以登录到加州大学伯克利分校的伯克利开放式网络计算项目(BOINC),其提供的开源软件就是用来做这个的。
1704265048
1704265049
[1] 高频交易是指从那些人们无法利用的极为短暂的市场变化中寻求获利的计算机化交易,由于其中缺少人为检测、控制、干预,因此存在极大的风险;高频安全交易则是通过智能分析,通过安全阈值控制,减少风险的一种手段。——译者注
1704265050
1704265051
1704265052
1704265053
1704265055
忠诚度革命:用大数据、游戏化重构企业黏性 推敲数字
1704265056
1704265057
随着对大数据领域的探索,你会接触到一系列的大数据存储、分割、可视化工具。这些工具中有相对简单的商务智能工具,提供查询、报告和数字图表功能,也有高级的数据挖掘工具(数据挖掘是一个涵盖性术语,泛指某一类用于检索海量数据的统计分析工具)。很多工具只能用于企业内部、结构化的数据库或数据仓库,而非那种大型的、目前正不断产生的非结构化数据集,因此并不适合于今天许多可海量延伸的网络业务。为了解决该问题,高科技领域创建了一系列新型的大规模处理系统,处理从大量性质不同的、区域分散的且通常是非结构化的数据源产生的高度分散的数据。以下是其中一些著名的技术。
1704265058
1704265059
■SQL之外(非关系型数据库)。这一概括性术语代表着新兴的现代化、网络化规模的数据库,能够处理海量的数据。结构化查询语言(SQL)是一种标准化的、用于将信息从数据库中输出或输入的程序语言。传统的SQL关系型数据库中的某些特性多年来一直为开发者所使用,例如,使用的关系模型中包括ACID(原子性、一致性、隔离性和持久性这一系列特性确保了数据库交易处理的可靠性)以及固定的架构。这些特性确
1704265060
1704265061
保了你的信用卡公司和证券经纪公司能够在运行其关键业务系统的同时,保障数据不会丢失,并保持最新状态以及持续性,而且能够全天候在全球范围使用。
1704265062
1704265063
对于今天拥有庞大客户数量的互联网网站而言,比如Facebook和Twitter并不需要这些适用于关键业务的特性。相反,他们所需要的系统能够简易地扩展,以处理其海量的大数据,同时能够运行在商用标准的硬件之上,于是,非关系型数据库便应运而生。今天的绝大多数企业会根据各自对每一种特定应用的需要,同时运行着关系型和非关系型数据库。一些耳熟能详的非关系型系统有Cassandra(由Facebook为其收件箱检索所设计)、Voldemort(LinkedIn设计),Dynamo(亚马逊设计)、MongoDB以及HBase。其中许多系统都是开源产品,许多活跃的开发者社区不断对其进行强化升级。
1704265064
1704265065
■Hadoop分布式计算。Hadoop的创建者之一道格·卡丁(Doug Cutting)
1704265066
1704265067
用家中一头玩具象的名字命名了Hadoop,如今它已成为通过分布式硬件系统处理海量数据集的免费开源软件框架。Hadoop的开发过程受益于谷歌——这位网络规模数据处理的先驱者之一开发了MapReduce以及谷歌文件系统(GFS)等工具,并将其用于数据处理和存储。Hadoop目前在雅虎、Facebook及其他同类网站中被大量使用。如果你想尝试着使用Hadoop来作数据分析,你可以在自己专属的设备上建立相应的环境,或者使用“基础架构”的服务供应商,比如亚马逊的EC2在云端部署。同时,也有一些新兴的企业捕捉到了这方面的市场机会,他们能够帮助企业快速收集、运行并分析数据,比如Birst、Cloudera、Platfora、Hadapt、MapR和Hortonworks等。
1704265068
1704265069
除了这些数据处理工具(市场上还有很多其他技术),还有一类可视化工具对大数据的用户而言也颇有用处。可视化工具能够让用户理解大数据的含义,鉴别出模式,得出某些见解,并从中推导出所应采取的行动或者某项业务的方向。数据科学家和工程师通常会使用诸如统计计算和图像语言R语言来分析绘制数据;而商务用户可以直接使用可视化软件,例如Tableau软件所提供的操作界面和展示设计(详见图3-2)。
1704265070
1704265071
1704265072
1704265073
1704265074
图3-2 Tableau软件提供的数据可视化界面
1704265075
1704265076
资料来源:Tableau软件公司©2013
1704265077
1704265078
1704265079
[
上一页 ]
[ :1.70426503e+09 ]
[
下一页 ]