1704804551
贾里尼克的新思路被称为数据驱动,这种方法有个很大的好处:随着数据量的积累和计算能力的增强,系统的表现会越来越好。很多其他方法的改进需要靠理论的突破,改进的周期会很长,其效率不如数据驱动方法。此后人工智能专家们把智能问题变成了大数据问题,可以说“人工智能”就是“数据科学”。
1704804552
1704804553
数据驱动的威力还体现在谷歌在机器翻译领域的巨大成功。2005年,美国国家标准与技术研究院对全世界各机构的机器翻译系统进行评测。在阿拉伯语到英语翻译的封闭集测试中,谷歌系统的评分为51.31%,领先第二名将近5%,而提高这五个百分点在过去需要研究7~10年;在开放集的测试中,谷歌51.37%的得分比第二名领先了17%,大约领先了一代人的水平。谷歌的机器翻译系统只研发了半年多的时间,并没有创造更高明的方法,但它使用的数据量比其他机构高出了近万倍,大数据就是它大幅提高机器翻译智能的方法。
1704804554
1704804555
前面提到,机器智能面临三大考验,除了语音识别和机器翻译,还有“自动回答问题”。《浪潮之巅》和《智能时代》的作者吴军曾负责谷歌的机器问答项目,解决了30%左右的问题,这远远超过了学术界同类研究的水平。除了依托谷歌世界领先的自然语言处理等基础算法,吴军成功的关键在于转换了思路,把这个过去认为是纯粹自然语言理解的问题,变成了一个大数据问题。
1704804556
1704804557
由于谷歌有完备的大数据,用户在互联网上问的各种问题,有80%左右可以在前十条自然搜索结果中找到答案(去掉广告、图片和视频等搜索结果)。因此,机器自动问答这个难题可以转换成在大数据中寻找答案的摘要问题。谷歌先用算法把问题和网页中的每一句话一一匹配,挑出那些可能是答案的片段,接下来是用自然语言处理算法把摘录的文字片段进行拼凑,组成符合语法而且读起来通顺的自然语言。
1704804558
1704804559
总之,大数据是人工智能的第一块基石。机器的学习过程和人类是不一样的。一个小孩见到几只猫从自己眼前走过,妈妈告诉他这是猫,他下次见到别的猫就能知道这是猫。而要教一台机器来识别猫的话,可能需要给它提供超过100万张猫的图片来学习。所以说有大数据才有人工智能。
1704804560
1704804561
大数据究竟有多大?它是怎么来的?
1704804562
1704804563
人类将世界“数据化”的努力已经持续了上万年,从结绳记事到统一度量衡,再到十进制算法和复式记账法的发明,数据化给人类的生产和生活带来了无数便利;现代科学使得气压、电流、温度、磁场等现象被量化,这一轮数据化浪潮使得人类文明又前进了一大步。
1704804564
1704804565
加州大学伯克利分校信息学院的研究者估计,人类在计算机商品化之前的整个历史过程中积累了约12艾字节(Exabyte,1EB=260 字节)的数据,但是到2006年,积累的数据已经达到180艾字节。2010年,全球线上和线下产生的数据量首次超过1泽字节(Zettabyte,1ZB=270 字节)。1泽字节大约等于1万亿GB,大约可以装8000亿部清晰电影,或者相当于1000亿人一辈子说的话——1个人一生大约要说10亿句话。
1704804566
1704804567
可以说人类从2010年开始进入大数据(Big Data)时代。2012年,有人统计了互联网一天产生的数据总量:每天发出的邮件有2940亿封,相当于美国两年的纸质信件数量;发出的博文达200万篇,相当于《时代》杂志770年的文字量;每天有2.5亿张照片上传至Facebook,如果把它们都印出来,摞在一起能有80座埃菲尔铁塔那么高;每天会有1.87亿个小时的音乐在音乐网站Pandora上播放……总之,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD。这还只是大数据时代刚起步时期的数据量。
1704804568
1704804569
大数据一方面来自我们在网络上的各种活动,比如搜索、社交和网购记录等。互联网的快速发展使得数据量井喷,每个人每天的活动都数据化了——邮件、日历、定位、商品和服务的订单、身份识别,用户的行为、喜好、知识以及社交联系都在大数据中显现。
1704804570
1704804571
大数据的另一个来源是廉价传感器的普及,各种智能手机和可穿戴式设备、智能车载设备都有非常精准的传感器,此外监测空气质量、交通流量、海浪高度的传感器也在持续增加。
1704804572
1704804573
今天,我们已经依靠互联网实现了信息和信息、人和人的互联,展望未来,所有物品也将靠廉价传感器连接在一起。每件物品上都将贴上一个售价仅4美分的RFID(这是指甲盖大小的不干胶,可通过无线电讯号识别特定目标并读写相关数据)。纳米物联网尤其值得关注。科学家们已经开始把传感器的尺寸从毫米或微米级缩小到纳米级,小到能在生物体内循环、能直接混合到建筑材料内,这是朝纳米物联网迈出的关键第一步。未来数十亿纳米传感器会为我们提供与城市、房屋、工厂甚至我们身体有关的更详细、更廉价、更新的图像。
1704804574
1704804575
当一切信息、人和物品都连接在一起,每年产生的数据量将会比互联网时代更上一个新台阶。
1704804576
1704804577
温故人类发展史,我们才能深刻理解大数据的意义。
1704804578
1704804579
在农业社会和工业社会,自然资源是经济社会发展的主要动力,比如各种动植物、能源、矿产等。进入信息社会,知识和信息成为经济社会发展的主要资源,知识的力量开始远超金属的力量,正如工业革命期间金属的力量远超身体的力量。
1704804580
1704804581
知识可以细分成四类:数据、信息、知识和智慧。数据经过整理变成信息,从信息中可以总结出知识,比如开普勒总结出行星运动的三大定律,知识通过反复实践融会贯通就是智慧。
1704804582
1704804583
两千多年前,人类只能利用竹简和羊皮等笨重或贵重载体,因此只能把最重要的东西书写下来,比如四书五经、《老子》《庄子》《伤寒杂病论》这样的智慧结晶与核心知识。
1704804584
1704804585
进入工业社会,造纸术和印刷术高度发达,各种各样重要或不重要的知识都得以被书本记载和传承,重要的信息也能通过报刊来普及,这对于人类的经济发展和文化繁荣起到了重要作用。
1704804586
1704804587
在信息社会,从国家大事到明星八卦,从企业动态到家长里短,从股票交易到网络购物,所有种类的信息漫天飞舞。虽然很多人在抱怨“信息过剩”“信息过载”,但与此同时经济的繁荣却更上一层楼。
1704804588
1704804589
从上述历史可以看到,从智慧到知识,从知识到信息,随着知识普及层级的一步步降低,经济社会的发展一步步升高。
1704804590
1704804591
今天我们进入了大数据时代,进入知识层级的底层,这显然意味着一个巨大历史机遇的到来。
1704804592
1704804593
数据是一种资产,是一种待挖掘的资源。数字化增加了人类对这个世界的了解,提高了预测的准确性,让科学研究更加畅通。比如《第二次机器革命》的作者埃里克曾创建一个简单的数据模型,这个模型把搜索词语的变化和随后的房产销量和房价的变化联系在一起做预测。它比美国房地产经纪人协会的预测专家们的预测结果还要准确23.6%。
1704804594
1704804595
大数据已经成为许多公司的核心资产,马云曾表示,“我们是通过卖东西收集数据,数据是阿里最值钱的财富”。
1704804596
1704804597
但目前的大数据并没有实现全面流通。政府、银行、通信运营商、医疗机构都拥有庞大的含金量很高的数据,但缺乏一种安全有效的办法把它们开放出来,无法在众多领域发挥出价值。
1704804598
1704804599
目前制约人工智能领域很多重大突破的关键,是缺乏高质量的数据集。这一问题已经得到包括中国政府在内的各国政府的重视。随着这些数据在未来获得安全有效的开放,人工智能将依托大数据了解每一个人的生活,了解社会的每一个细节。
1704804600
[
上一页 ]
[ :1.704804551e+09 ]
[
下一页 ]