1704265000
1704265001
1704265002
1704265003
1704265004
通常在谈到大数据时,你可以对其规模有这样的理解:有人估计沃尔玛的数据库容量在2.5个PB(拍字节)——相当于美国国会图书馆藏书量的167倍。1PB等同于1000000GB(十亿字节),大约等于两千万个文件柜中所能包含的文档上的字数。而对于在线商业大亨易趣公司来说,用户每天在其站点检索、购买和浏览的过程中则会产生50PB的数据量。
1704265005
1704265006
如果将这些全都算上,我们现在每一天新产生的数据总量高达2.5EB(艾字节),这是沃尔玛数据仓库的1000倍。事实上,绝大多数企业今天所存储的数据量都已超过了美国国会图书馆的藏书量。另一组数据或许更能说明问题,今天全球所有企业的商业数据量预计每1.2年就会翻番,即每年的新数据产生速度高达40%。根据谷歌公司主席埃里克·施密特的讲述,自人类文明创始至2003年,我们一共创建的信息总量为5EB,而这只等于现在我们在两天内产生的数据量。
1704265007
1704265008
目前市场上的各种应用软件数量众多,且种类各异,有做精准定位广告的,有提供卖场布局优化的,还有用于电子邮件市场营销以及改善成交转化率的。大数据的应用已经成为企业运营的核心,帮助企业管理产品研发、生产制造、供应链和其他各类商业活动。而正如我们即将看到的,大数据在凝聚企业和员工、企业和合作伙伴的关系方面,也将发挥巨大的作用。当然,一个很明显的问题是如何做到这一点。大数据在这些方面将如何帮助到我们?
1704265009
1704265010
在目前阶段,长篇累牍叙述大数据如何产生作用或是分析其原理并无多大意义,我们还是将其留给IT专家、数据科学家以及经过认证的数值计算研究机。相反,我们将会综述性地介绍一些大数据的分析方式和其产出的结论种类,同时对那些出类拔萃的大数据处理工具作一个简要概述。同样,我们的目的只是认识大数据这个词汇并了解大数据的相关问题,而不是让你成为专家。
1704265011
1704265012
下面列出了一些重要的大数据收集和分析形式。
1704265013
1704265014
■聚类分析。聚类分析就是将不同类型的对象分成各个小组,从而使得同一组中的对象相比其他组中的对象而言彼此之间更为相似。关键是,这种分组或相似性是事前未知的。举例来说,随机询问一组人对于科幻小说的兴趣,评分从–5(厌恶)到+5(喜爱)不等。同时也以相同的评分方式询问同一组人对于巧克力的喜好。将他们的回复绘制成图表,将同时喜欢科幻小说和巧克力的人放在右上角,而把对两者都反感的放在左下角。这些答复在图表中是否均匀分布,你是否能找出同类群?每组同类群代表着一组对科幻小说和巧克力均抱有兴趣的个体,在今天,这类信息能够用于企业和消费者的互动之中,并获取他们的积极响应。以零售行业的场景为例,假如在上述案例中有特定人群同时喜欢科幻小说和巧克力,在他们购买《星球大战》的DVD时,你或许应当同时向他们推销巧克力。
1704265015
1704265016
■A/B测试(亦称对比测试)。在这类实验中,通过对比测试组A和测试组B,来判断何种处理(改变)方式能够改善特定的对象,比如一次市场营销的反馈或参与率(通常也称为转化率)。假设你想要判断是否应当推出某款产品,产品推出的时间,甚至是在网站上的呈现方式是否有效,通过A/B测试,你可以尝试不同的方式,来找出哪一种能够达到最高的转化率,也就是你所期望的效果。不论是用户注册、发生采购还是只是简单地点击按钮进入下一步流程,高转化率在任何情况下都是商业成功的必要条件。A/B测试还可以演变为多变量测试,即在同一时间对业务进行多项A/B测试。样本容量(测试数量)取决于被测对象的可变数量及所应具备的准确性。
1704265017
1704265018
在互联网站点建设方面,企业通常会通过A/B测试来验证素材内容、放置位置、颜色以及“期望点击”按钮大小,比如那些标有“现在加入”、“马上购买”或者“了解更多”字样的按钮,来找出哪一种类型可以获得的点击次数(转化率)最多。虽然人们对这类问题的答案都有大致的估计猜测,但A/B测试也有助于更为客观地获得最优化的解决方案。
1704265019
1704265020
■众包模式。众包模式是指将工作外包给一群分散且彼此互不相识的人,即所谓的“大众”。有很多种形式的群众外包,而且通常取决于所外包的工作性质——观点看法、计件制的工作、计算能力、想法意见甚至是资金经费。一些比较著名的案例有:
1704265021
1704265022
●无线T恤(Threadless)。自从2000年起,无线T恤就成了由百万名T恤设计师组成的在线社区。最有趣的是,每周社区成员会提交成百上千款T恤衫设计,同时对他人的作品投票并作出评论。在每周结束之前,无线T恤的员工会根据得分和用户反馈,审查排名最高的作品,并从中选择10款设计,将其打印在T恤和其他衣物上,通过网站和其位于芝加哥的零售商店进行销售。作品被打印出的作者则会收到现金支票和无线T恤送出的礼品卡作为报酬。由此你可以看到这家公司的产品(设计)源于众包模式、产品推出经由众包模式完成(用户投票和评论)、销售预测依赖众包模型(同样通过投票和评论),甚至市场营销中也使用了众包模型(胜出的设计师会主动传播消息,让别人去购买他们的作品)。
1704265023
1704265024
●花海公司(CrowdFlower)。花海公司帮助企业将工作任务众包给全球数百万名劳动者。这类可以众包的小块工作包括影像调节(图片中是否有瑕疵)、语境分析(这条Twitter信息中所指的内容是正面的还是负面的)、内容分类(这部影片属于什么类型)以及内容创建(写一篇有关忠诚度的短文)。对于数据日益增长、需要人工处理的企业而言(例如Facebook有数百万张有待修饰的图片),花海所提供的服务能够帮助其灵活地应对各种繁杂的工作量。通过花海汇聚起大量人力资源的另一项好处在于,它可以让不同的人完成同一件工作,并通过共识“投票”来决定最佳答案(例如,只有当三个人中有两个人认为这张图片令人不快时,你才会这样标记)。此外随着时间的推移,参考各位工作人员是否能准时完成任务以及工作质量(通过公众投票)的数据,你可以为每个人建立一份“信用档案”,以决定是否给他提供更多更好的机会。
1704265025
1704265026
●证券市场。证券价格是一个风向标,反映出市场对企业未来发展的共识。它由无数个交易员在他们的实际交易的每毫秒之内所反映出的观点组成的。IBM目前的股票价格是否合理?没有哪个单独的个体能够判断,但是“市场大众”知道。证券市场的赢家往往是那位能够处理反映市场环境的大数据(例如,经济、政策、新闻、顾客情绪等),并对处理结果做出最快速反应的人。
1704265027
1704265028
■预测建模。预测建模是指对已创建的一组数据建模的技巧,它能最准确地预测某个结局,并且比聚类分析更为深入。它不仅能分析出一组人相似的行为或特性,并且还能基于过往事件和数据,预测该组成员在特定环境下必然会采取的行为。举例来说,预测模型可以从各种直接或间接的因素中,分析出某特定区域的天气。在消费领域,预测模型能够预估客户加入、持续参与或者退出某项活动的可能性。和天气预报类似,这种分析基于大量的直接和间接因素,以及与其他行为的关联。这些模型同样能够用于预测跨交叉销售或增售的可能性。企业也可以通过使用建模来协助预测员工的流动性,甚至是预估员工可能出现的最佳或最差表现。
1704265029
1704265030
■情感分析。它是最为软性的分析,是通过非结构化的通讯信息流来尝试找出客户、员工和合作伙伴对于某个主题、产品或其他被分析的项目所持的观点和情绪。情感分析应用自然语言处理流程(让计算机来理解人类语言)以及其他分析技术来处理大批量文本材料,包括博客和其他社交媒体,从而提取出其中的主观信息。这种分析先以简单的关键词定位开始(例如,在某篇博客中提到“好”这个词,这或许表示某件事情是好的),并由此扩展(假如用户发表的资料中提到企业造成了“好大一场灾难”,这就麻烦了,你得使用更复杂的方式处理了)。所谓的碎语分析器能够尝试识别出写作过程中,对于一款产品或活动的情感。这些技术能够检测出信息量中所包含的情感类型——积极、消极或者中性。而更高级的分析器能够试图找出情感的强烈程度。“波顿公司这款新型的滑雪板实在太了不起了”这句话会传递出一个强烈的情感信号,尤其当这句话在互联网上疯传的时候。消费市场分析师通常使用情感分析来判断不同的客户群对其产品或市场活动的反应。同样地,企业内部交流中显示出的强大而积极的情感也暗示着员工之间的凝聚力。
1704265031
1704265032
■数据流处理。它指的是对不同数据源所产生的数据进行持续且实时的分析。数据流处理和上述各项技术共同工作,实时修正用户的反应体验,从而依据用户行为、所处地点、背景环境以及其他变量提供量身定制的交互方式。实时的欺诈检测以及基于算法的高频安全交易[1]便是数据流处理应用的典型案例。在第4章中,我们将看到这同样被称为“游戏化”。
1704265033
1704265034
■异常检测和相似性搜索。在欺诈检测、临床试验、投票活动和制造缺陷等场景中,你通常都希望能找出异常点,标准的偏离值。这些异常点能帮你找出问题症结所在,将有助于你的产品设计或者揭露不良的行为。通过将来自不同数据源的大数据输入有处理能力的机器识别系统,能够找出其中的关联系数,而这种异常点是人工分析永远无法识别和揭示的。反过来,大数据中的数据还能够找出与所关注对象极其相似的其他对象,例如,“找出和这些鞋看上去差不多的其他鞋子”、“找出有同类症状的其他患者”以及“找出和这首歌听上去差不多的歌曲”。
1704265035
1704265036
■定群分析。定群分析是指对在某段时间内有着某种共同特性的人群所进行的分析。将用户分割成不同的群组,并从商业的角度来比较各组之间不同的价值。在线上零售业务中,顾客来源就是一种群组,例如“从谷歌搜索链接而来的所有客户”、“从Twitter链接而来的所有客户”、“被推荐而来的所有客户”等。结合每个客户的分组以及他们的消费数据,零售商现在可以找出从哪里能够获取到最有价值的客户,并且根据这些信息优化市场营销方面的支出,将钱花在最值得的地方。
1704265037
1704265038
企业经常使用的另一种定群分析还有顾客获取日期(“2012年12月加入的顾客”,“2013年1月加入的顾客”等)。通过比较所有客户的消费总额,企业能够看出他们的客户质量是在上升还是下降。除此以外,如果企业改变其产品、服务或客户体验,还可以通过这种基于时间的定群分析进行同类比较,判断这些改变是否会对业务成功产生实质性的影响。
1704265039
1704265040
在任何时候,全球都有数百万台家用和工作用的计算机处于闲置状态,只是等待人们前来使用而不进行任何操作。想象一下,假如能够驾驭所有这些闲置计算机,你能够做什么?如果你有庞大的计算工作量要处理,原先你只能借助超级计算机来运行,而现在你可以将其切割成百万块碎片,分配给上述这些个人计算机,让其处理各个碎块后,再将结果反馈给你。这使你能够比以前更快速、更高效并以更低的成本价格处理海量数据。
1704265041
1704265042
1704265043
1704265044
1704265045
这个创意是由外星球文明研究所(SETI)的工作人员提出的。在他们的外星球生命探索过程中,他们使用射电天文望远镜监听来自太空的无线电信号。而要处理SETI搜集的所有无线电信号数据,需要极其强大的计算处理能力。SETI并没有尝试去采购庞大的超级计算机(当然也没有这么多的经费)来完成计算处理工作,而是创建了家庭SETI项目,参与项目的志愿者会被要求在其计算机上运行一项屏幕保护程序。当他们的计算机处于“闲置”状态时,该屏幕保护程序会抓取一小部分数据进行处理,并将结果上传送回SETI。通过计算能力的众包模式以及让人们参与到重大项目中来的创新途径,家庭SETI项目所能够处理的大数据总量是前所未有的,并且他们自己无需为此额外地花费任何费用。
1704265046
1704265047
你是否想要将你的计算机的空置时间贡献到疾病治愈、全球变暖的研究项目,或是探索新的脉冲星之中?抑或你希望建立自己的“网格计算”项目来解决大数据业务问题?如果答案是肯定的话,你可以登录到加州大学伯克利分校的伯克利开放式网络计算项目(BOINC),其提供的开源软件就是用来做这个的。
1704265048
1704265049
[1] 高频交易是指从那些人们无法利用的极为短暂的市场变化中寻求获利的计算机化交易,由于其中缺少人为检测、控制、干预,因此存在极大的风险;高频安全交易则是通过智能分析,通过安全阈值控制,减少风险的一种手段。——译者注
[
上一页 ]
[ :1.704265e+09 ]
[
下一页 ]