1703947754
1703947755
在大数据时代来临前很久,相关关系就已经被证明大有用途。这个观点是1888年查尔斯·达尔文的表弟弗朗西斯·高尔顿爵士(Francis Galton)提出的,因为他注意到人的身高和前臂的长度有关系。相关关系背后的数学计算是直接而又有活力的,这是相关关系的本质特征,也是让相关关系成为最广泛应用的统计计量方法的原因。但是在大数据时代之前,相关关系的应用很少。因为数据很少而且收集数据很费时费力,所以统计学家们喜欢找到一个关联物,然后收集与之相关的数据进行相关关系分析来评测这个关联物的优劣。那么,如何寻找这个关联物呢?
1703947756
1703947757
除了仅仅依靠相关关系,专家们还会使用一些建立在理论基础上的假想来指导自己选择适当的关联物。这些理论就是一些抽象的观点,关于事物是怎样运作的。然后收集与关联物相关的数据来进行相关关系分析,以证明这个关联物是否真的合适。如果不合适,人们通常会固执地再次尝试,因为担心可能是数据收集的错误,而最终却不得不承认一开始的假想甚至假想建立的基础都是有缺陷和必须修改的。这种对假想的反复试验促进了学科的发展。但是这种发展非常缓慢,因为个人以及团体的偏见会蒙蔽我们的双眼,导致我们在设立假想、应用假想和选择关联物的过程中犯错误。总之,这是一个烦琐的过程,只适用于小数据时代。
1703947758
1703947759
在大数据时代,通过建立在人的偏见基础上的关联物监测法已经不再可行,因为数据库太大而且需要考虑的领域太复杂。幸运的是,许多迫使我们选择假想分析法的限制条件也逐渐消失了。我们现在拥有如此多的数据,这么好的机器计算能力,因而不再需要人工选择一个关联物或者一小部分相似数据来逐一分析了。复杂的机器分析能为我们辨认出谁是最好的代理,就像在谷歌流感趋势中,计算机把检索词条在5亿个数学模型上进行测试之后,准确地找出了哪些是与流感传播最相关的词条。
1703947760
1703947761
我们理解世界不再需要建立在假设的基础上,这个假设是指针对现象建立的有关其产生机制和内在机理的假设。因此,我们也不需要建立这样一个假设,关于哪些词条可以表示流感在何时何地传播;我们不需要了解航空公司怎样给机票定价;我们不需要知道沃尔玛的顾客的烹饪喜好。取而代之的是,我们可以对大数据进行相关关系分析,从而知道哪些检索词条是最能显示流感的传播的,飞机票的价格是否会飞涨,哪些食物是飓风期间待在家里的人最想吃的。我们用数据驱动的关于大数据的相关关系分析法,取代了基于假想的易出错的方法。大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。
1703947762
1703947763
建立在相关关系分析法基础上的预测是大数据的核心。这种预测发生的频率非常高,以至于我们经常忽略了它的创新性。当然,它的应用会越来越多。
1703947764
1703947765
大数据先锋
1703947766
1703947767
FICO,“我们知道你明天会做什么”
1703947768
1703947769
一个人的信用常被用来预测他/她的个人行为。美国个人消费信用评估公司,也被称为FICO,在20世纪50年代发明了信用分。2011年,FICO提出了“遵从医嘱评分”——它分析一系列的变量来确定这个人是否会按时吃药,包括一些看起来有点怪异的变量。比方说,一个人在某地居住了多久,这个人结婚了没有,他多久换一个工作以及他是否有私家车。这个评分会帮助医疗机构节省开支,因为它们会知道哪些人需要得到它们的用药提醒。有私家车和使用抗生素并没有因果关系,这只是一种相关关系。但是这就足够激发FICO的首席执行官扬言,“我们知道你明天会做什么。”这是他在2011年的投资人大会上说的。
1703947770
1703947771
另一个征信机构,益百利(Experian)有一种服务,可以根据个人的信用卡交易记录预测个人的收入情况。通过分析公司拥有的信用卡历史记录数据库和美国国税局的匿名税收数据,益百利能够得出评分结果。
1703947772
1703947773
大数据的力量
1703947774
1703947775
证明一个人的收入状况要花费10美元左右,但是益百利的预测结果售价不足1美元。
1703947776
1703947777
所以有时候,通过代理取得数据信息比自己去操作烦琐的程序要便宜得多。同时还有另一个征信机构出售“支付能力指数”和“可支配支出指数”,这些指数是用来预测一个人的支付能力的。
1703947778
1703947779
相关关系的运用更加广泛了。中英人寿保险有限公司(Aviva)是一家大型保险公司,他们想利用信用报告和顾客市场分析数据来作为部分申请人的血液和尿液分析的关联物。这些分析结果被用来找出更有可能患高血压、糖尿病和抑郁症的人。其中用来分析的数据包括好几百种生活方式的数据,比如爱好、常浏览的网站、常看的节目、收入估计等。
1703947780
1703947781
Aviva的预测模型是由德勤咨询公司发明的,公司觉得这可以用来发现健康隐患。其他保险公司如英国保诚保险有限公司(Prudentia)和美国国际集团(AIG)都承认它们也在考虑类似的方法。好处就是,申请者不再需要提供血液和尿液样本了,因为大家都不太喜欢做这个事情。
1703947782
1703947783
大数据的力量
1703947784
1703947785
通过利用相关关系,保险公司可以在每人身上节省125美元,然而这个纯数据分析法只需要花费5美元。
1703947786
1703947787
有些人可能会觉得这种方法听起来很恐怖,这些公司似乎可以利用任何网络上的信息。这会让人们下次登陆极限运动网站和坐到电视机前观看幽默情景剧前三思而后行,因为不想因此支付更多的保险费用。让我们在接触任何信息的时候(同时也产生可能被分析的数据)都胆战心惊是一件非常糟糕的事情。但另一方面,这个系统有助于更多的人得到保险,这对于社会和保险公司都是有好处的。
1703947788
1703947789
大数据先锋
1703947790
1703947791
美国折扣零售商塔吉特与怀孕预测
1703947792
1703947793
大数据相关关系分析的极致,非美国折扣零售商塔吉特(Target)莫属了。该公司使用大数据的相关关系分析已经有多年。《纽约时报》的记者查尔斯·杜西格(Charles Duhigg)就在一份报道中阐述了塔吉特公司怎样在完全不和准妈妈对话的前提下预测一个女性会在什么时候怀孕。基本上来说,就是收集一个人可以收集到的所有数据,然后通过相关关系分析得出事情的真实状况。
1703947794
1703947795
对于零售商来说,知道一个顾客是否怀孕是非常重要的。因为这是一对夫妻改变消费观念的开始,也是一对夫妻生活的分水岭。他们会开始光顾以前不会去的商店,渐渐对新的品牌建立忠诚。塔吉特公司的市场专员们向分析部求助,看是否有什么办法能够通过一个人的购物方式发现她是否怀孕。
1703947796
1703947797
公司的分析团队首先查看了签署婴儿礼物登记簿的女性的消费记录。塔吉特公司注意到,登记簿上的妇女会在怀孕大概第三个月的时候买很多无香乳液。几个月之后,她们会买一些营养品,比如镁、钙、锌。公司最终找出了大概20多种关联物,这些关联物可以给顾客进行“怀孕趋势”评分。这些相关关系甚至使得零售商能够比较准确地预测预产期,这样就能够在孕期的每个阶段给客户寄送相应的优惠券,这才是塔吉特公司的目的。
1703947798
1703947799
杜西格在《习惯的力量》(The Power of Habit)一书中讲到了接下来发生的事情。一天,一个男人冲进了一家位于明尼阿波利斯市郊的塔吉特商店,要求经理出来见他。他气愤地说:“我女儿还是高中生,你们却给她邮寄婴儿服和婴儿床的优惠券,你们是在鼓励她怀孕吗?”而当几天后,经理打电话向这个男人致歉时,这个男人的语气变得平和起来。他说:“我跟我的女儿谈过了,她的预产期是8月份,是我完全没有意识到这个事情的发生,应该说抱歉的人是我。”
1703947800
1703947801
在社会环境下寻找关联物只是大数据分析法采取的一种方式。同样有用的一种方法是,通过找出新种类数据之间的相互联系来解决日常需要。比方说,一种称为预测分析法的方法就被广泛地应用于商业领域,它可以预测事件的发生。这可以指一个能发现可能的流行歌曲的算法系统——音乐界广泛采用这种方法来确保它们看好的歌曲真的会流行;也可以指那些用来防止机器失效和建筑倒塌的方法。现在,在机器、发动机和桥梁等基础设施上放置传感器变得越来越平常了,这些传感器被用来记录散发的热量、振幅、承压和发出的声音等。
1703947802
1703947803
一个东西要出故障,不会是瞬间的,而是慢慢地出问题的。通过收集所有的数据,我们可以预先捕捉到事物要出故障的信号,比方说发动机的嗡嗡声、引擎过热都说明它们可能要出故障了。系统把这些异常情况与正常情况进行对比,就会知道什么地方出了毛病。通过尽早地发现异常,系统可以提醒我们在故障之前更换零件或者修复问题。通过找出一个关联物并监控它,我们就能预测未来。
[
上一页 ]
[ :1.703947754e+09 ]
[
下一页 ]