打字猴:1.70427267e+09
1704272670
1704272671 如果世界上存在一种像诺贝尔奖一样的奖项,用于表彰过去一年中最聪明的数据使用者的话,那么纳特·西尔弗绝对是最具竞争力的候选人。评奖委员会可以在颁奖词中做如下描述:
1704272672
1704272673 纳特·西尔弗在经初步研究后提出了正确的假设,而后又根据这一假设挑选出了正确的数据。他遵循“试错法”来不断优化他本来已经很简洁的预测算法,使整个预测系统具备了自我学习功能。在与假设的不断比较中,他反复问自己:从人为估算角度来看,哪些关联是真正重要的?哪些关联只是出于预测系统统计方面的需要,才看起来显得重要?
1704272674
1704272675 对纳特来说,只有数据量少,他才能真正地利用这些数据。这位来自密歇根州不惹眼的统计学家的大数据分析成功事迹的迷人之处在于:事后再去审视,他对于选情的研究与人类基本常识相比,是一种变异形式。所谓的人类基本常识是这样的,一个小男孩跟他的父亲说,刚刚看到前面路上有5元钱,他的父亲回答道:“孩子,那现在肯定没有了,早就有人把它捡走了。”
1704272676
1704272677 纳特·西尔弗创造性地优化了选举结果预测,基本思路很简单,那就是群体智慧优于某一个专家的个人智慧。之前是因为令人难以相信,所以没人真正利用这一点。来源于多个选情预测机构的分析手段肯定比其中某一个机构的分析更能够给出接近真相的预测结果。如果将这种大数据分析理念移植到商业层面,那么我们可以得出这样的假设,即大数据分析的“硕果”藏得很隐蔽。
1704272678
1704272679 在这个移植过程中自然会有一些注意事项,而且也很难想象,大多数行业的数据挖掘者会像选情研究人员那样错过真正重要的信息。但从过去10年我们的项目研究经验来看,基本上都证明了:
1704272680
1704272681 超多的超级“硕果”都隐藏得超级深!
1704272682
1704272683 只有当我们抛开了那些时髦话和与之相关的、看似具有说服力的观点时,我们才能真正收获这些“硕果”。换句话说就是,我们必须运用正确的方法,系统地去寻找真正有用的信息。
1704272684
1704272685 找对数据比拥有超多数据更有用
1704272686
1704272687 如果想收获“数据果实”,我们必须注意以下几点:
1704272688
1704272689 ☆正确的数据
1704272690
1704272691 起决定性作用的不是数据量,而是具有多样性的有用数据。目前,很多企业拥有的数据量已经超出他们的使用能力。有用数据是指重要数据。当然,即便是最好的数据分析科学家也不可能提前就准确地知道,哪些数据对促进市场营销或者提升经营水平来说是重要的。但是如果能够提前知道,就可以大大降低成本,极大地提高数据研究项目的效用,所以项目负责人都会愿意在选取重要数据方面投入大量的时间和资源。经常出现的情况是,掌握的数据太具有同质性了。在大部分的数据应用领域,多样性都是最重要的数据筛选标准。对于结果的质量来说,数据量往往是第二位的。此外,非结构化数据,例如来源于脸谱网、博客和论坛上的数据信息,它们的价值被过分高估了。非结构化的数据信息来源于与企业主营业务关联性较小的一部分人,他们遗留的信息相对来说重要性较小。然而,依据我们的项目经验,在客户资料库中有很多数据宝藏,它们的数量和价值反而常常被低估。
1704272692
1704272693 ☆正确的假设
1704272694
1704272695 我们提出假设,这些假设是通过我们系统的思考和实践经验得出来的。想好了再做,这在数据分析方面也同样是有道理的。一些企业所存在的在数字化方面操之过急的行为,就没有遵循这一简单真理。
1704272696
1704272697 ☆正确的行动
1704272698
1704272699 提出假设并不意味着一开始就对结果带有倾向性。(客户的)世界不会是像我们预期的那样。用杜克大学经济学家丹·艾瑞里的话来说就是,客户是非理性的。提出假设往往只是系统工作流程的起点。假设会在不断“尝试—修正—再尝试—继续优化”的过程中发生变化。
1704272700
1704272701 ☆正确的工具
1704272702
1704272703 能够带来最高增值的并不是最复杂的分析工具,而是最适合的工具。用Excel图表去分析整理区域内直邮业务的盈利情况,相较于利用昂贵的社交媒体数据收集手段去分析“病毒效应”对提升品牌价值的贡献度而言,往往有可能会获得更有价值的认识。同样,有意识地采用“面包黄油方法”,即有规律地抽样控制(统计干扰),可以规避一些错误决策带来的损害,这些错误的决策有可能是由错误地执行或者解读大数据分析结论导致的。
1704272704
1704272705 ☆正确地使用资源
1704272706
1704272707 结果说明一切。在市场和销售行业的智能数据应用范畴内,要时常记住这句话。原因是,人们(尤其是德国企业的决策者)总是痴迷于探寻事物之间的关联性。在每一次系统地大数据分析之后,我们往往只是知道了其中某一特定的相互作用机制,比如在C范围内,目标客户群体A是如何通过盲目购物对B的促销行为做出反应的。然而,我们却没有考虑清楚我们为什么要这么做。过分探寻事物相互作用的原因会使整个部门都感到疲累,就像我们一再体会到的那样。聪明的数据使用者应该知道如何配置分析资源与精力。
1704272708
1704272709 基于上述对数据分析的认识和态度,首先在市场营销和产品销售领域,我们给出了我们的“智能数据方法论”:
1704272710
1704272711
1704272712
1704272713
1704272714 ☆智能数据涵盖了有计划的、重点突出的数据分析方法和流程,目的之一是降低成本,其二是在既有或是新的商业领域、商业模式中获得额外收入。这些方法和流程将实践知识、理论模型与统计学分析方法、机器的自学习功能(机器学习算法)结合在了一起。
1704272715
1704272716 ☆大数据流程是去搜集尽可能多的数据,然后尝试通过运用存储、计算、分析技术,推导出开放式因果关系。与大数据不同,智能数据是以提出假设为基础,原则上使用的数据量较小,但是具有多样性。
1704272717
1704272718 ☆绝大部分智能数据项目是结果导向型的,同时节省资源。投入使用的IT设备必须持续性地证明它们的有用性。结果导向型以执行能力为先决条件。智能数据项目的规模不会给企业造成经济上或人力上的负担。
1704272719
[ 上一页 ]  [ :1.70427267e+09 ]  [ 下一页 ]