打字猴:1.70480458e+09
1704804580
1704804581 知识可以细分成四类:数据、信息、知识和智慧。数据经过整理变成信息,从信息中可以总结出知识,比如开普勒总结出行星运动的三大定律,知识通过反复实践融会贯通就是智慧。
1704804582
1704804583 两千多年前,人类只能利用竹简和羊皮等笨重或贵重载体,因此只能把最重要的东西书写下来,比如四书五经、《老子》《庄子》《伤寒杂病论》这样的智慧结晶与核心知识。
1704804584
1704804585 进入工业社会,造纸术和印刷术高度发达,各种各样重要或不重要的知识都得以被书本记载和传承,重要的信息也能通过报刊来普及,这对于人类的经济发展和文化繁荣起到了重要作用。
1704804586
1704804587 在信息社会,从国家大事到明星八卦,从企业动态到家长里短,从股票交易到网络购物,所有种类的信息漫天飞舞。虽然很多人在抱怨“信息过剩”“信息过载”,但与此同时经济的繁荣却更上一层楼。
1704804588
1704804589 从上述历史可以看到,从智慧到知识,从知识到信息,随着知识普及层级的一步步降低,经济社会的发展一步步升高。
1704804590
1704804591 今天我们进入了大数据时代,进入知识层级的底层,这显然意味着一个巨大历史机遇的到来。
1704804592
1704804593 数据是一种资产,是一种待挖掘的资源。数字化增加了人类对这个世界的了解,提高了预测的准确性,让科学研究更加畅通。比如《第二次机器革命》的作者埃里克曾创建一个简单的数据模型,这个模型把搜索词语的变化和随后的房产销量和房价的变化联系在一起做预测。它比美国房地产经纪人协会的预测专家们的预测结果还要准确23.6%。
1704804594
1704804595 大数据已经成为许多公司的核心资产,马云曾表示,“我们是通过卖东西收集数据,数据是阿里最值钱的财富”。
1704804596
1704804597 但目前的大数据并没有实现全面流通。政府、银行、通信运营商、医疗机构都拥有庞大的含金量很高的数据,但缺乏一种安全有效的办法把它们开放出来,无法在众多领域发挥出价值。
1704804598
1704804599 目前制约人工智能领域很多重大突破的关键,是缺乏高质量的数据集。这一问题已经得到包括中国政府在内的各国政府的重视。随着这些数据在未来获得安全有效的开放,人工智能将依托大数据了解每一个人的生活,了解社会的每一个细节。
1704804600
1704804601 要利用大数据,必须深刻理解大数据的特征。
1704804602
1704804603 除了数据量巨大(一千万个数据算小数据)这个特征,大数据还有两个重要特征:多维度和完备性。接下来我们通过案例来理解这两个特征。
1704804604
1704804605 气象局会结合空气湿度、气压信息、云图信息来预测天气,这就是我们所说的多维度。
1704804606
1704804607 2013年,百度从“百度知道”的7700万条和吃有关的问题里“挖掘”出来一些有趣的结论,发布了《中国十大“吃货”省市排行榜》。百度发现,东南省份的网友很关心什么虫子能吃;西北地区的网友最关心“蘑菇能吃吗”;江苏、上海、北京等地的网友最经常问“什么的皮能不能吃”;在缺少江河湖泊滋润的宁夏,网友最关心的是“螃蟹能吃吗”;历史浏览量最高的问题是“看电影吃爆米花的习惯是从何时形成的”,有863万网友热切关注。
1704804608
1704804609 百度研究的这批大数据的维度很多,比如食物的做法、吃法、成分、营养价值、价格,问题的来源地域和时间,提问者所用的电脑或手机的型号、浏览器和操作系统的类型(从中可以推测出提问者的收入高低)。百度如果深入分析,可以通过提问统计出不同生活习惯的人(比如正常作息的、夜猫子们、经常出差的或者不爱运动的等)的饮食习惯,还可以统计出不同年龄、性别和文化背景的人的饮食习惯,还可以根据不同年份所提问题的变化,看出不同地区人饮食习惯的变化。
1704804610
1704804611 从百度这个例子可以看出,大数据的不同维度之间有着天然的(而非人为的)联系,因此我们可以从不同角度挖掘出很多有意思的结论。
1704804612
1704804613 如果人工智能了解一个美国人的出身背景、朋友、家庭以及他读的书、看的电影,它就能从这些维度的数据中,推断出他在联邦选举中的投票行为。
1704804614
1704804615 未来农业领域会是依靠多维数据进行决策的。水果蔬菜每天的生长数据、未来的气象数据、新增的订单数据、目标市场的人口变化数据、大宗商品交易行情……智能机器通过分析各种维度的数据,就可以精准决策未来的种植。
1704804616
1704804617 多维数据在医疗领域也大有用武之地。饮食习惯、运动习惯、使用手机的习惯、父母的健康情况、经济情况都可以影响一个人的身心健康,未来这些多元化的数据都能被收集到,并被相应的人工智能算法处理,从而得出更科学的诊断结果。
1704804618
1704804619 顺便说一句,每个维度都需要不少数据,这意味着数据量必须很大——大数据的第二个特征和第一个特征是分不开的。
1704804620
1704804621 大数据还有完备性这个特征。
1704804622
1704804623 完备的数据蕴藏着巨大的威力。比如中国的公安部门把近14亿中国人的面孔或指纹全部收集齐就是典型的完备数据,信息越完备,不确定性就越小,这对于安检工作有很大意义。1997年IBM的深蓝计算机之所以能战胜国际象棋大师卡斯帕罗夫,除了计算力强大,还因为它具备了数据的完备性。它全面收集了卡斯帕罗夫以及世界上其他高手过去的棋局数据,并进行了深入分析。
1704804624
1704804625 再来看美国的一个著名案例。2012年,统计学家纳特·西尔弗用大数据对美国总统大选进行预测,他预测了共和党和民主党分别会在哪些州占优,结果100%准确,这是一个空前的记录。70年来,全球知名的民意测验机构盖普洛一直对美国的总统选举结果进行预测,它对大选最终结果的预测还比较准确,但具体到每一个州,是共和党总统候选人赢还是民主党总统候选人赢,它的预测结果就经常出错了。这说明抽样调查做得再好,也会有疏漏之处。
1704804626
1704804627 为什么纳特·西尔弗单枪匹马就能胜过盖普洛?他搜集了所有能搜集的数据,比如所有的民调结果、博客、微博、Twitter、Facebook、当地新闻等,他就是靠完备的大数据创造了民意预测的神话。
1704804628
1704804629 如果纳特·西尔弗能统计到每个人投票前一天的想法,他的预测就会更加精准。这是有可能做到的,因为移动互联网让人们时刻在线,这使得数据的完备性获得空前的提升。
[ 上一页 ]  [ :1.70480458e+09 ]  [ 下一页 ]