1704804601
要利用大数据,必须深刻理解大数据的特征。
1704804602
1704804603
除了数据量巨大(一千万个数据算小数据)这个特征,大数据还有两个重要特征:多维度和完备性。接下来我们通过案例来理解这两个特征。
1704804604
1704804605
气象局会结合空气湿度、气压信息、云图信息来预测天气,这就是我们所说的多维度。
1704804606
1704804607
2013年,百度从“百度知道”的7700万条和吃有关的问题里“挖掘”出来一些有趣的结论,发布了《中国十大“吃货”省市排行榜》。百度发现,东南省份的网友很关心什么虫子能吃;西北地区的网友最关心“蘑菇能吃吗”;江苏、上海、北京等地的网友最经常问“什么的皮能不能吃”;在缺少江河湖泊滋润的宁夏,网友最关心的是“螃蟹能吃吗”;历史浏览量最高的问题是“看电影吃爆米花的习惯是从何时形成的”,有863万网友热切关注。
1704804608
1704804609
百度研究的这批大数据的维度很多,比如食物的做法、吃法、成分、营养价值、价格,问题的来源地域和时间,提问者所用的电脑或手机的型号、浏览器和操作系统的类型(从中可以推测出提问者的收入高低)。百度如果深入分析,可以通过提问统计出不同生活习惯的人(比如正常作息的、夜猫子们、经常出差的或者不爱运动的等)的饮食习惯,还可以统计出不同年龄、性别和文化背景的人的饮食习惯,还可以根据不同年份所提问题的变化,看出不同地区人饮食习惯的变化。
1704804610
1704804611
从百度这个例子可以看出,大数据的不同维度之间有着天然的(而非人为的)联系,因此我们可以从不同角度挖掘出很多有意思的结论。
1704804612
1704804613
如果人工智能了解一个美国人的出身背景、朋友、家庭以及他读的书、看的电影,它就能从这些维度的数据中,推断出他在联邦选举中的投票行为。
1704804614
1704804615
未来农业领域会是依靠多维数据进行决策的。水果蔬菜每天的生长数据、未来的气象数据、新增的订单数据、目标市场的人口变化数据、大宗商品交易行情……智能机器通过分析各种维度的数据,就可以精准决策未来的种植。
1704804616
1704804617
多维数据在医疗领域也大有用武之地。饮食习惯、运动习惯、使用手机的习惯、父母的健康情况、经济情况都可以影响一个人的身心健康,未来这些多元化的数据都能被收集到,并被相应的人工智能算法处理,从而得出更科学的诊断结果。
1704804618
1704804619
顺便说一句,每个维度都需要不少数据,这意味着数据量必须很大——大数据的第二个特征和第一个特征是分不开的。
1704804620
1704804621
大数据还有完备性这个特征。
1704804622
1704804623
完备的数据蕴藏着巨大的威力。比如中国的公安部门把近14亿中国人的面孔或指纹全部收集齐就是典型的完备数据,信息越完备,不确定性就越小,这对于安检工作有很大意义。1997年IBM的深蓝计算机之所以能战胜国际象棋大师卡斯帕罗夫,除了计算力强大,还因为它具备了数据的完备性。它全面收集了卡斯帕罗夫以及世界上其他高手过去的棋局数据,并进行了深入分析。
1704804624
1704804625
再来看美国的一个著名案例。2012年,统计学家纳特·西尔弗用大数据对美国总统大选进行预测,他预测了共和党和民主党分别会在哪些州占优,结果100%准确,这是一个空前的记录。70年来,全球知名的民意测验机构盖普洛一直对美国的总统选举结果进行预测,它对大选最终结果的预测还比较准确,但具体到每一个州,是共和党总统候选人赢还是民主党总统候选人赢,它的预测结果就经常出错了。这说明抽样调查做得再好,也会有疏漏之处。
1704804626
1704804627
为什么纳特·西尔弗单枪匹马就能胜过盖普洛?他搜集了所有能搜集的数据,比如所有的民调结果、博客、微博、Twitter、Facebook、当地新闻等,他就是靠完备的大数据创造了民意预测的神话。
1704804628
1704804629
如果纳特·西尔弗能统计到每个人投票前一天的想法,他的预测就会更加精准。这是有可能做到的,因为移动互联网让人们时刻在线,这使得数据的完备性获得空前的提升。
1704804630
1704804631
完备的大数据有极其广阔的应用空间,比如谷歌无人驾驶汽车就是靠完备的空间大数据来“眼观六路,耳听八方”的。
1704804632
1704804633
开车绝对是个技术活,司机要全盘考虑迎面而来的车辆、交通信号灯、广告牌、树木、交警等一系列因素,判断每一个目标的大小和位置,以及哪一个目标是危险的。因此直至2004年,经济学家们还认为司机是计算机难以取代的。按照传统思路开发的自动驾驶汽车表现得确实很糟糕,在第一届无人驾驶汽车陆地挑战赛中,排第一的悍马只跑了不到20公里,而且时速只有8公里,比自行车还慢。
1704804634
1704804635
但谷歌却在短短几年内就真正实现了汽车的自动驾驶。谷歌同样是把自动驾驶问题变成了一个大数据问题。
1704804636
1704804637
谷歌的街景项目积累了大量空间数据,它的自动驾驶汽车行驶到这些“扫过街”的地方时,对路况是很熟悉的,包括马路道牙的高度、十字路口的宽口、红绿灯的高度、路旁消防栓的位置与高度,甚至弯道的曲线等。相比于那些每到一处都要临时识别目标的自动驾驶汽车,谷歌的自动驾驶汽车具有数据完备的优势,让人感觉它相当聪明。
1704804638
1704804639
此外,基于收集的海量数据,谷歌通过计算机模拟不同的路况条件,也能实现让自动驾驶汽车学习驾驶技能的效果。谷歌自动驾驶汽车每天模拟行驶的里程高达480多万公里,这样的疯狂练习是人类无法比拟的,因此其无人驾驶汽车很快超越了技术精湛的老司机。
1704804640
1704804641
从2009年项目启动到2016年5月31日,谷歌各类自动驾驶汽车已经在自动模式下累计行驶了260万公里,虽然发生了共计12起各种事故,但是谷歌方面表示没有一起事故是由自动驾驶汽车引起的,都是别人的车撞它,没有它撞别人的。谷歌分析认为其自动驾驶软件的驾驶水平相当于一个拥有90年驾龄的人类。
1704804642
1704804643
过去十年间,基于大数据的人工智能已经在各个领域崭露头角,除了前面提到的语音识别、机器翻译、自动回答问题和无人驾驶外,还包括在线广告的精准投放、搜索引擎个性化网页排序、电商的个性化商品推荐、社交网络的好友建议等。未来十年,离钱最近、产生用户最多、产生价值最大的金融、法律、医疗、教育等拥有大数据的行业,也将被人工智能深度再造。
1704804644
1704804645
深度学习算法从大数据中发现“套路”
1704804646
1704804647
在大数据时代,如何有效利用、发掘数据成了关键问题。迄今为止,人工智能领域最先进、应用最广泛的技术解决方案是深度学习算法。
1704804648
1704804649
大数据好比是原材料,深度学习则是原材料加工厂。
1704804650
[
上一页 ]
[ :1.704804601e+09 ]
[
下一页 ]