打字猴:1.70480453e+09
1704804530
1704804531 2016年3月20日,清华大学语音与语言实验中心网站宣布,它们的作诗机器人“薇薇”通过社科院等唐诗专家评定,通过了“图灵测试”——“薇薇”创作的诗词中有31%被认为是人创作的,超过了30%这个合格标准。
1704804532
1704804533 什么是图灵测试?图灵测试的核心是“计算机能否在智力行为上表现得和人无法区分”。我们在墙后放一台计算机,放一个人,然后问一些问题,比如为什么会出现父系社会?计算机和人都给出一些解释,当我们无法判断哪个解释是计算机给出来的,哪个解释是人给出来的时候,就可以认为这个计算机和这个人有同等的智慧。
1704804534
1704804535 图灵测试大会的具体规则是,如果在一系列时长为5分钟的键盘对话中,某台计算机被误认为是人类的比例超过30%,那么这台计算机就被认为通过了图灵测试。2014年的图灵测试大会共有5个聊天机器人参与,其中俄罗斯科学家开发的“尤金·古斯特曼”成功地被33%的评委判定为人类,它模拟的是一个13岁乌克兰男孩。在这次测试中,对话是不受限制的,而真正的图灵测试正是不预设问题或主题的。因此可以说这是人工智能在聊天领域首次通过图灵测试。
1704804536
1704804537 随着越来越多的机构宣称自己设计的智能程序通过了图灵测试,人工智能拥有与人类同等的智能成为人们必须正视的现实。正如发明家们不是靠模仿鸟类发明飞机,从而实现“人工飞行”;也不是靠模仿鱼类发明潜艇,从而实现“人工深潜”;人工智能也没有完全模仿人类大脑思考的生物过程,却能在越来越多的领域实现与人类智能相同的结果,而且速度更快、效果更好、成本更低。
1704804538
1704804539 阿尔法狗是当今人工智能的先进代表,它排名世界第一的围棋棋力来自于30万张人类高手对弈棋谱以及3000万次自我对弈,其思考能力来自“大数据(来自互联网、物联网)+深度学习(优秀算法)+云计算”。
1704804540
1704804541 大数据、深度学习和强算力(云计算)是当今人工智能技术的三大基石。
1704804542
1704804543 把智能问题变成大数据问题
1704804544
1704804545 20世纪中叶,很多计算机科学家认为,如果计算机实现了下面几件事情中的一件,就可以认为它有智能:1.语音识别;2.机器翻译;3.自动回答问题。
1704804546
1704804547 1972年,康奈尔大学教授弗莱德里克·贾里尼克来到IBM沃森实验室进行学术休假,应邀挑选了一个他认为最有可能突破的智能课题——语音识别。
1704804548
1704804549 贾里尼克的专长是信息论和通信,因此他看待语音识别问题的角度不同于人工智能的专家们。他把语音识别看成是一个典型的通信问题:人的大脑是信息源,想到一件事并说出来,是一个编码的过程;这句话经过空气或者电话线传到听众耳朵里,是一个经过信道的信息传播问题;信源有信源编码,信道有信道编码,整个是一个编码过程,最后听众把这句话听懂,是一个解码的过程。既然语音识别是通信问题,就可以用解决通信问题的方法来解决。贾里尼克先用两个马尔可夫模型分别描述信源和信道,然后用IBM积累的大量数据训练和使用这两个模型。这个方法让IBM将语音识别率从当时的70%左右提高到90%以上,已经基本能让人们理解语音内容了;同时语音识别的词汇量从两三百个单词上升到两万多个单词,足以走向实际应用。
1704804550
1704804551 贾里尼克的新思路被称为数据驱动,这种方法有个很大的好处:随着数据量的积累和计算能力的增强,系统的表现会越来越好。很多其他方法的改进需要靠理论的突破,改进的周期会很长,其效率不如数据驱动方法。此后人工智能专家们把智能问题变成了大数据问题,可以说“人工智能”就是“数据科学”。
1704804552
1704804553 数据驱动的威力还体现在谷歌在机器翻译领域的巨大成功。2005年,美国国家标准与技术研究院对全世界各机构的机器翻译系统进行评测。在阿拉伯语到英语翻译的封闭集测试中,谷歌系统的评分为51.31%,领先第二名将近5%,而提高这五个百分点在过去需要研究7~10年;在开放集的测试中,谷歌51.37%的得分比第二名领先了17%,大约领先了一代人的水平。谷歌的机器翻译系统只研发了半年多的时间,并没有创造更高明的方法,但它使用的数据量比其他机构高出了近万倍,大数据就是它大幅提高机器翻译智能的方法。
1704804554
1704804555 前面提到,机器智能面临三大考验,除了语音识别和机器翻译,还有“自动回答问题”。《浪潮之巅》和《智能时代》的作者吴军曾负责谷歌的机器问答项目,解决了30%左右的问题,这远远超过了学术界同类研究的水平。除了依托谷歌世界领先的自然语言处理等基础算法,吴军成功的关键在于转换了思路,把这个过去认为是纯粹自然语言理解的问题,变成了一个大数据问题。
1704804556
1704804557 由于谷歌有完备的大数据,用户在互联网上问的各种问题,有80%左右可以在前十条自然搜索结果中找到答案(去掉广告、图片和视频等搜索结果)。因此,机器自动问答这个难题可以转换成在大数据中寻找答案的摘要问题。谷歌先用算法把问题和网页中的每一句话一一匹配,挑出那些可能是答案的片段,接下来是用自然语言处理算法把摘录的文字片段进行拼凑,组成符合语法而且读起来通顺的自然语言。
1704804558
1704804559 总之,大数据是人工智能的第一块基石。机器的学习过程和人类是不一样的。一个小孩见到几只猫从自己眼前走过,妈妈告诉他这是猫,他下次见到别的猫就能知道这是猫。而要教一台机器来识别猫的话,可能需要给它提供超过100万张猫的图片来学习。所以说有大数据才有人工智能。
1704804560
1704804561 大数据究竟有多大?它是怎么来的?
1704804562
1704804563 人类将世界“数据化”的努力已经持续了上万年,从结绳记事到统一度量衡,再到十进制算法和复式记账法的发明,数据化给人类的生产和生活带来了无数便利;现代科学使得气压、电流、温度、磁场等现象被量化,这一轮数据化浪潮使得人类文明又前进了一大步。
1704804564
1704804565 加州大学伯克利分校信息学院的研究者估计,人类在计算机商品化之前的整个历史过程中积累了约12艾字节(Exabyte,1EB=260 字节)的数据,但是到2006年,积累的数据已经达到180艾字节。2010年,全球线上和线下产生的数据量首次超过1泽字节(Zettabyte,1ZB=270 字节)。1泽字节大约等于1万亿GB,大约可以装8000亿部清晰电影,或者相当于1000亿人一辈子说的话——1个人一生大约要说10亿句话。
1704804566
1704804567 可以说人类从2010年开始进入大数据(Big Data)时代。2012年,有人统计了互联网一天产生的数据总量:每天发出的邮件有2940亿封,相当于美国两年的纸质信件数量;发出的博文达200万篇,相当于《时代》杂志770年的文字量;每天有2.5亿张照片上传至Facebook,如果把它们都印出来,摞在一起能有80座埃菲尔铁塔那么高;每天会有1.87亿个小时的音乐在音乐网站Pandora上播放……总之,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD。这还只是大数据时代刚起步时期的数据量。
1704804568
1704804569 大数据一方面来自我们在网络上的各种活动,比如搜索、社交和网购记录等。互联网的快速发展使得数据量井喷,每个人每天的活动都数据化了——邮件、日历、定位、商品和服务的订单、身份识别,用户的行为、喜好、知识以及社交联系都在大数据中显现。
1704804570
1704804571 大数据的另一个来源是廉价传感器的普及,各种智能手机和可穿戴式设备、智能车载设备都有非常精准的传感器,此外监测空气质量、交通流量、海浪高度的传感器也在持续增加。
1704804572
1704804573 今天,我们已经依靠互联网实现了信息和信息、人和人的互联,展望未来,所有物品也将靠廉价传感器连接在一起。每件物品上都将贴上一个售价仅4美分的RFID(这是指甲盖大小的不干胶,可通过无线电讯号识别特定目标并读写相关数据)。纳米物联网尤其值得关注。科学家们已经开始把传感器的尺寸从毫米或微米级缩小到纳米级,小到能在生物体内循环、能直接混合到建筑材料内,这是朝纳米物联网迈出的关键第一步。未来数十亿纳米传感器会为我们提供与城市、房屋、工厂甚至我们身体有关的更详细、更廉价、更新的图像。
1704804574
1704804575 当一切信息、人和物品都连接在一起,每年产生的数据量将会比互联网时代更上一个新台阶。
1704804576
1704804577 温故人类发展史,我们才能深刻理解大数据的意义。
1704804578
1704804579 在农业社会和工业社会,自然资源是经济社会发展的主要动力,比如各种动植物、能源、矿产等。进入信息社会,知识和信息成为经济社会发展的主要资源,知识的力量开始远超金属的力量,正如工业革命期间金属的力量远超身体的力量。
[ 上一页 ]  [ :1.70480453e+09 ]  [ 下一页 ]