1701071150
1701071151
1701071152
1701071154
人类2.0:在硅谷探索科技未来 寻找大数据领域“杀手级”应用
1701071155
1701071156
要解决大的问题,仍然需要一种跨学科的方法,需要一种不仅仅只有“数据分析”的应用。中国唐宋时期的思维方法毫不过时,如今中国在大数据时代寻求一种全新的“大数据思维”时不妨回溯历史,重新发现自己独有的处理复杂社会问题的方法。
1701071157
1701071158
“杀手级”应用还未出现
1701071159
1701071160
全球范围内都在掀起一股大数据应用的热潮。如今的硅谷应该被重新命名为“数据谷”。权威机构预测,到2020年将存在200亿~300亿个网络连接装置,这意味着我们每年都会产生比之前20万年还多的数据。在硅谷,人们将数据称为新的“石油”,石油可以产出汽油和电力,而“数据石油”一旦提炼出来,将会产生无人驾驶汽车[运用GPS(全球定位系统)数据和交通数据]、无人机、可穿戴设备等。石油和数据之间的不同在于,石油的产品无法再产出更多石油,而数据的产品(无人驾驶汽车、无人机和可穿戴设备等)能产出更多的数据。
1701071161
1701071162
然而,颇令人失望的是,我们并不知道该拿这些正在“大爆炸”的数据怎么办。大多数情况下我们会做“数据分析”,但数据分析至少从20世纪60年代就开始了,这有什么新鲜呢?不过是通过对数据的分析试图发现事物之间隐藏的规律性或潜在的问题,然后优化整个流程,最终赚更多的钱而已。
1701071163
1701071164
让人汗颜的是,自计算机问世以来,数据分析最主要的应用还是使大公司利润最大化。比如,大家提到大数据最有名的应用案例时都会提到亚马逊和阿里巴巴的“推荐引擎”,即通过分析其他消费者的数据来建议你该买什么;再比如,被频繁提到的关于大数据的故事还有美国最大零售连锁店之一的塔吉特(Target),它让一个父亲意外地发现自己还是高中生的女儿怀孕了,这曾一度让大数据声名显赫。事实上,塔吉特的算法识别购买系统特别关注准妈妈们,唯一的原因就是想要给她们推送特别促销广告,这难道就是我们能用大数据对孕妇做的所有事情?
1701071165
1701071166
如今中国很多中小企业也在积极构建自己的大数据系统,比如服装企业用数据分析实现个性化生产和销售,比如制造水杯的企业考虑将杯子内置传感器,再增加一个APP(计算机应用程序),将其变成智能水杯。
1701071167
1701071168
但这些商家用数据分析也只是为了销售更多的产品,或者用来决定到底该发布哪种广告。这就是我们能用海量数据做的所有事情?未免太有限了吧?可以说,大数据真正的“杀手级”应用还没有被发明出来。
1701071169
1701071170
我们先来看下大数据的现状。谁在产生大部分数据?机器。又是谁在阅读大数据?不管你相信与否,网上大约30%的“读者”都是机器人而非人类,甚至连大多数世界新闻都是被机器人阅读的。
1701071171
1701071172
未来,数据的主要读者将是机器人。大数据世界的真实图景是:机器产生数据,机器阅读数据,并构造一个以机器为中心的数据世界。这也是为什么迄今为止大数据唯一有用的应用是数据分析,因为机器最擅长数学和统计,却不擅长理解人类世界。我们还没有大数据领域真正伟大的“杀手级”应用,正是因为是机器,而非人类在“阅读”这些数据。
1701071173
1701071174
大数据时代需要的不仅是“数据分析”
1701071175
1701071176
最近几年来,很多制造业企业纷纷建立了智能工厂,由于机器与机器的连接产生并收集了大量的数据,但到底能用这些数据做什么,到底如何挖掘数据的价值还让很多人困惑。很多人还是寄希望于数据分析,认为足够精巧的数据分析应该可以带来很大改变。
1701071177
1701071178
确实,大数据时代必然要求数据分析能力不断提高。如今,在很多大学,计算和统计方法、可视化分析方法等都在不断改善和提升。但这些复杂的方法只是为了达到一个简单的目的,即让快速计算变得更廉价,因为大数据分析通常费用昂贵。
1701071179
1701071180
数据分析能力的快速提升确实让人惊叹,起初人们破译人类基因组需要花上10年时间,现在却有创业者在不到一天的时间里就能完成。这种能力也受到越来越多的重视,比如,斯坦福大学最受计算机系本科生欢迎的教材是《大规模数据挖掘》。也就是说,任何人都可以使用书中的方法来分析大数据。
1701071181
1701071182
但是,一种新的数学方法并不能给我们带来更有用的大数据应用,最多只能带来更便宜的数据分析。原因很简单:数学家们并不了解世界上的重大问题。要解决大的问题,仍然需要一种跨学科的方法,需要一种不仅仅只有“数据分析”的应用。
1701071183
1701071184
比如,大数据分析比较典型的方法是寻找数据之间的相关性。典型的逻辑是,如果你跟许多拖欠信用卡贷款的人拥有几乎一样的购买记录,很可能你也会跟他们一样拖欠贷款。在技术层面,数据分析会试图将这种关联性建立模型。不过我们也就又回到了大多数的数据都是被机器阅读和分析这个话题中。
1701071185
1701071186
数据分析会存在哪些问题呢?数个世纪以来,我们早就发现“假设—形成”这个方法有一个弱点:在大量数据中发现相关性并不难,难的是理解其中的因果关系。比如,如果有人发现,昨天在意大利都灵所有患上流感的人都穿着黑白相间的T恤衫,这并不意味着是这种T恤衫引起了流感,或者卖这种T恤衫的人就是传染源,这很有可能意味着这些患上流感的人都是尤文图斯足球俱乐部的球迷,因为这个俱乐部的官方球服就是黑白相间的T恤衫。
1701071187
1701071188
都灵一半的人口都是尤文图斯足球俱乐部的球迷,从来不踢足球也对足球毫不了解的数学家们很可能会得出错误的结论,一个对足球一无所知的机器分析出来的结果很可能错得更离谱。相反,一位了解都灵的人会很快意识到这种数据上的相关性并不直接包含因果关系,而会推测这场流感是在尤文图斯球队昨天踢球的体育场爆发的。
1701071189
1701071190
这种数据之间因果关系难以判定的问题在统计学诞生之初就存在了,然而,当我们面临的数据量特别大的时候,这个问题就显得尤其棘手,因为大量数据中的数据偶然相关性也是巨大的。
1701071191
1701071192
大数据时代我们当然需要更好的数学家,但我们同样需要来自各个学科的学者们。毕竟,解决人类社会的问题并不是一场数学竞赛。
1701071193
1701071194
大数据在生物医药领域尤其有用
1701071195
1701071196
大数据应该关注和解决哪些“大问题”?大数据可以应用得更广泛,最让人津津乐道的是预测未来。比如,可以用大数据预测大气污染什么时候会到达一个危险的水平,我们可以在那之前就采取措施;可以预测犯罪活动最有可能在哪里、在什么时候集中爆发,我们可以提前部署警力;已经有不少银行在使用一种类似大数据分析的系统来决定是否要给顾客贷款。
1701071197
1701071198
总的来说,我认为,大数据预测在医药生物领域用途特别广泛。因为这个领域的数据实际上是无穷尽的,可惜的是我们甚至都没能将已有的数据储存下来。人类基因组包含数十亿碱基对,我们目前对这些碱基对到底在人类基因中发挥什么作用,又是如何相互作用导致了疾病实在是所知甚少。又比如存在于人体内对人体的机能(如消化)发挥着重要作用的细菌微生物,其基因更比人的碱基对多百倍。我们不知道这些碱基对的作用,但是,我们有80亿人生活在这个星球上,这是一个巨大的潜在数据库。大数据预测可以帮助我们找到哪些基因组合会带来疾病,而哪些组合又会提高强大的免疫力。比如,有些人对疟疾免疫,我们就可以专门研究这些人体内基因组中的碱基对的分布情况,找出其中的奥秘。
1701071199
[
上一页 ]
[ :1.70107115e+09 ]
[
下一页 ]