1704272657
智能数据:如何挖掘高价值数据 第3章 智能数据冠军——选择正确的数据是成功的基础
1704272658
1704272659
“每天,我们每秒制造出的数据量相当于美国国会图书馆全部馆藏的3倍。但是,它们大多数是像YouTube上的影片,或是像13岁小孩之间谈论下一部《暮光》系列影片的短信一样。
1704272660
1704272661
——纳特·西尔弗
1704272662
1704272663
聪明的数据使用者
1704272664
1704272665
亚马逊首席技术官沃纳·威格尔(Werner Vogels)宣称:“我们从来都不嫌信息太多,信息越多越好。”从理论上讲,这有一定道理,但从实践上来看,这完全是个谬论。
1704272666
1704272667
很多企业的IT系统都是满负荷运行。这些系统自然不是可任意延展的。给系统扩容往往会比预计的情况花费更长的时间和更多的费用。将数据和应用转移至“云端”,从技术上看同样也是很艰难的,而且基本上,花费也总是超预算。与此同时,还要考虑系统安全和数据保护问题。
1704272668
1704272669
纳特·西尔弗(Nate Silver)是统计学家和知名博主。2008年美国大选之前,他所掌握的数据量肯定远比手握大量预算的美国选情机构少。他在自己用虚拟名字申请开设的个人网页FiveThirtyEight.com上发表了他关于奥巴马将会获得第一次总统竞选胜利的预测。他准确的预测使电视上德高望重且手握大量数据的媒体评论员们显得十分落寞。实际上,美国50个州的投票结果被纳特预测对了49个,只有印第安纳州的投票结果错了。在2012年奥巴马第二次参选美国总统的时候,纳特准确预测了全部50个州的投票结果,其中包括了“摇摆州”和哥伦比亚特区。
1704272670
1704272671
如果世界上存在一种像诺贝尔奖一样的奖项,用于表彰过去一年中最聪明的数据使用者的话,那么纳特·西尔弗绝对是最具竞争力的候选人。评奖委员会可以在颁奖词中做如下描述:
1704272672
1704272673
纳特·西尔弗在经初步研究后提出了正确的假设,而后又根据这一假设挑选出了正确的数据。他遵循“试错法”来不断优化他本来已经很简洁的预测算法,使整个预测系统具备了自我学习功能。在与假设的不断比较中,他反复问自己:从人为估算角度来看,哪些关联是真正重要的?哪些关联只是出于预测系统统计方面的需要,才看起来显得重要?
1704272674
1704272675
对纳特来说,只有数据量少,他才能真正地利用这些数据。这位来自密歇根州不惹眼的统计学家的大数据分析成功事迹的迷人之处在于:事后再去审视,他对于选情的研究与人类基本常识相比,是一种变异形式。所谓的人类基本常识是这样的,一个小男孩跟他的父亲说,刚刚看到前面路上有5元钱,他的父亲回答道:“孩子,那现在肯定没有了,早就有人把它捡走了。”
1704272676
1704272677
纳特·西尔弗创造性地优化了选举结果预测,基本思路很简单,那就是群体智慧优于某一个专家的个人智慧。之前是因为令人难以相信,所以没人真正利用这一点。来源于多个选情预测机构的分析手段肯定比其中某一个机构的分析更能够给出接近真相的预测结果。如果将这种大数据分析理念移植到商业层面,那么我们可以得出这样的假设,即大数据分析的“硕果”藏得很隐蔽。
1704272678
1704272679
在这个移植过程中自然会有一些注意事项,而且也很难想象,大多数行业的数据挖掘者会像选情研究人员那样错过真正重要的信息。但从过去10年我们的项目研究经验来看,基本上都证明了:
1704272680
1704272681
超多的超级“硕果”都隐藏得超级深!
1704272682
1704272683
只有当我们抛开了那些时髦话和与之相关的、看似具有说服力的观点时,我们才能真正收获这些“硕果”。换句话说就是,我们必须运用正确的方法,系统地去寻找真正有用的信息。
1704272684
1704272685
找对数据比拥有超多数据更有用
1704272686
1704272687
如果想收获“数据果实”,我们必须注意以下几点:
1704272688
1704272689
☆正确的数据
1704272690
1704272691
起决定性作用的不是数据量,而是具有多样性的有用数据。目前,很多企业拥有的数据量已经超出他们的使用能力。有用数据是指重要数据。当然,即便是最好的数据分析科学家也不可能提前就准确地知道,哪些数据对促进市场营销或者提升经营水平来说是重要的。但是如果能够提前知道,就可以大大降低成本,极大地提高数据研究项目的效用,所以项目负责人都会愿意在选取重要数据方面投入大量的时间和资源。经常出现的情况是,掌握的数据太具有同质性了。在大部分的数据应用领域,多样性都是最重要的数据筛选标准。对于结果的质量来说,数据量往往是第二位的。此外,非结构化数据,例如来源于脸谱网、博客和论坛上的数据信息,它们的价值被过分高估了。非结构化的数据信息来源于与企业主营业务关联性较小的一部分人,他们遗留的信息相对来说重要性较小。然而,依据我们的项目经验,在客户资料库中有很多数据宝藏,它们的数量和价值反而常常被低估。
1704272692
1704272693
☆正确的假设
1704272694
1704272695
我们提出假设,这些假设是通过我们系统的思考和实践经验得出来的。想好了再做,这在数据分析方面也同样是有道理的。一些企业所存在的在数字化方面操之过急的行为,就没有遵循这一简单真理。
1704272696
1704272697
☆正确的行动
1704272698
1704272699
提出假设并不意味着一开始就对结果带有倾向性。(客户的)世界不会是像我们预期的那样。用杜克大学经济学家丹·艾瑞里的话来说就是,客户是非理性的。提出假设往往只是系统工作流程的起点。假设会在不断“尝试—修正—再尝试—继续优化”的过程中发生变化。
1704272700
1704272701
☆正确的工具
1704272702
1704272703
能够带来最高增值的并不是最复杂的分析工具,而是最适合的工具。用Excel图表去分析整理区域内直邮业务的盈利情况,相较于利用昂贵的社交媒体数据收集手段去分析“病毒效应”对提升品牌价值的贡献度而言,往往有可能会获得更有价值的认识。同样,有意识地采用“面包黄油方法”,即有规律地抽样控制(统计干扰),可以规避一些错误决策带来的损害,这些错误的决策有可能是由错误地执行或者解读大数据分析结论导致的。
1704272704
1704272705
☆正确地使用资源
[
上一页 ]
[ :1.704272656e+09 ]
[
下一页 ]