1704804630
1704804631
完备的大数据有极其广阔的应用空间,比如谷歌无人驾驶汽车就是靠完备的空间大数据来“眼观六路,耳听八方”的。
1704804632
1704804633
开车绝对是个技术活,司机要全盘考虑迎面而来的车辆、交通信号灯、广告牌、树木、交警等一系列因素,判断每一个目标的大小和位置,以及哪一个目标是危险的。因此直至2004年,经济学家们还认为司机是计算机难以取代的。按照传统思路开发的自动驾驶汽车表现得确实很糟糕,在第一届无人驾驶汽车陆地挑战赛中,排第一的悍马只跑了不到20公里,而且时速只有8公里,比自行车还慢。
1704804634
1704804635
但谷歌却在短短几年内就真正实现了汽车的自动驾驶。谷歌同样是把自动驾驶问题变成了一个大数据问题。
1704804636
1704804637
谷歌的街景项目积累了大量空间数据,它的自动驾驶汽车行驶到这些“扫过街”的地方时,对路况是很熟悉的,包括马路道牙的高度、十字路口的宽口、红绿灯的高度、路旁消防栓的位置与高度,甚至弯道的曲线等。相比于那些每到一处都要临时识别目标的自动驾驶汽车,谷歌的自动驾驶汽车具有数据完备的优势,让人感觉它相当聪明。
1704804638
1704804639
此外,基于收集的海量数据,谷歌通过计算机模拟不同的路况条件,也能实现让自动驾驶汽车学习驾驶技能的效果。谷歌自动驾驶汽车每天模拟行驶的里程高达480多万公里,这样的疯狂练习是人类无法比拟的,因此其无人驾驶汽车很快超越了技术精湛的老司机。
1704804640
1704804641
从2009年项目启动到2016年5月31日,谷歌各类自动驾驶汽车已经在自动模式下累计行驶了260万公里,虽然发生了共计12起各种事故,但是谷歌方面表示没有一起事故是由自动驾驶汽车引起的,都是别人的车撞它,没有它撞别人的。谷歌分析认为其自动驾驶软件的驾驶水平相当于一个拥有90年驾龄的人类。
1704804642
1704804643
过去十年间,基于大数据的人工智能已经在各个领域崭露头角,除了前面提到的语音识别、机器翻译、自动回答问题和无人驾驶外,还包括在线广告的精准投放、搜索引擎个性化网页排序、电商的个性化商品推荐、社交网络的好友建议等。未来十年,离钱最近、产生用户最多、产生价值最大的金融、法律、医疗、教育等拥有大数据的行业,也将被人工智能深度再造。
1704804644
1704804645
深度学习算法从大数据中发现“套路”
1704804646
1704804647
在大数据时代,如何有效利用、发掘数据成了关键问题。迄今为止,人工智能领域最先进、应用最广泛的技术解决方案是深度学习算法。
1704804648
1704804649
大数据好比是原材料,深度学习则是原材料加工厂。
1704804650
1704804651
深度学习不再需要人类专家去煞费苦心地提炼模型,机器自己就能从大数据中寻找特征、发现规则、总结模型。通俗点说,深度学习是擅长“发现套路”的行家里手。
1704804652
1704804653
普通人会针对每个具体问题寻找不同的解决方案,费时又费力,而高手擅长看到不同问题的相通之处,可以用同一个套路来处理。
1704804654
1704804655
比如做品牌文案的从业者大多是凭感觉,靠灵感。知名营销专家李叫兽则告诉大家,只要掌握了科学的营销方法,写文案就像做数学题一样套用公式就可以推导出来。掌握了套路,就能始终保持高效率和高质量的输出。
1704804656
1704804657
由于深度学习能处理的数据量远超人类,它发现的“套路”可能比人类更高明。阿尔法狗的好多次非常规落子,都让许多专业棋手表示“看不懂”。阿尔法狗早就不依赖看过的棋谱来决策落子的选择,它对人类的棋局资料进行了一个全新的“分析和总结”,发现了新的“套路”。
1704804658
1704804659
不仅很多体力工作是套路化的,其实很多知识性工作也是套路化的:能否给一个企业提供贷款可以被归结为一种规则,计算机因此能够用于对贷款申请的批准;商业新闻记者和经常做一堆数字分析的体育记者也是按套路写作的。
1704804660
1704804661
一旦发现了某种工作的套路,人工智能的判断力就能持续保持高水平。来看两个例子。
1704804662
1704804663
谷歌在Gmail上推出的智能自动回复功能Smart Reply,能对海量邮件里的场景、邮件写作风格和写作语气进行分析,从而帮助用户筛选适合语境的回复短句。
1704804664
1704804665
在2015年某国家级英语考试阅卷中,科大讯飞的产品在翻译题和作文题中的评分比大多数专家老师的评分准确度还要高,同时科大讯飞的评阅系统可以指出具体语法错误、格式错误和错词等。语文作文的评分相对难一些,因为要评判作文的立意和整个篇章的结构,不像英文更多的是看有没有字词拼写和句子结构错误。但是科大讯飞语文作文的评阅系统也通过了验证,相关性、分差上表现得也比专家要好。它还能写作文评语,找出文章立意和篇章结构上的错误,区分出议论文的引论句、立论句和论点,可以方便学生查找自己薄弱的地方。
1704804666
1704804667
传统计算机需要专家传授套路,人工智能则能够自己发现套路。
1704804668
1704804669
大约半个世纪前,机器就能完成一些高难度的认知任务,但机器能处理的是一些经过预先手工编程的任务,或者进行一些预设程序的计算,它们并没有自学能力。比如要训练一台计算机来识别银行交易中的诈骗交易,必须由专家预先准确地告诉它所需要查找的内容。如果没有人能解释完成一个任务时的所有步骤,那么也就没有程序员能将这些规则嵌入到软件中,这个领域的问题就无法被机器处理。
1704804670
1704804671
深度学习跨越了这个巨大障碍,即使没有人类教导,机器也能学习了。还是以识别诈骗交易为例,我们只需将一些标记上“欺骗性的”和“非欺骗性的”数据交给计算机,然后计算机依靠算法就能学会应该去查找哪些内容,告诉你是否存在欺诈行为。
1704804672
1704804673
判断某个基因会不会发生病变,需要运用通过参考医学论文而得来的推理规则,人工智能可以吸收许多医学论文,明确地制作出疾病预测的推理规则。人类在漫长的抗癌过程当中写了大量文件,进行了大量分析,有2300万个相关的文件和医学研究文章。IBM估计,仅做到和相关的医学信息及资料保持同步,一位人类医生每星期就要把160个小时花在阅读上,这显然不现实。未来的医疗进步离不开人工智能的分析能力。
1704804674
1704804675
再以图片识别为例。传统算法认猫,是靠人类标注猫的各种特征,然后让机器去学习这些规则,比如猫有大眼睛,有胡子,有花纹,有尾巴。但人制定的种种规则是有缺陷的,有时候机器会分辨不出猫和老虎,或者分不出狗和猫。深度学习算法是直接给机器几百万张图片,告诉它这里有猫,同时再给机器上百万张图片,说这里没猫。人工智能通过深度学习自己去学猫的特征。
1704804676
1704804677
深度学习与人的认知过程相似,大致分成两个步骤:首先是分层,把要认识的事物特征分成若干层次,比如把猫的识别分成轮廓识别、颜色识别、毛发识别、五官识别、行动方式识别等层次来分别进行辨认和比对。其次是针对每个层次分别进行数据收集,比如看大量各种轮廓的猫、各种颜色的猫、各种毛发的猫、各种五官的猫、各种行动方式的猫,形成一个综合认知。之后把目标物(比如一张新的小猫照片)根据分层进行拆解并与之前总结的各层特征分别进行比对和打分,最后兼顾各层进行综合评分。
1704804678
1704804679
再以人脸识别为例。当我们的眼睛极其靠近一张人脸图片进行观察时,只能看到人脸上的像素级别点;当我们把距离一点点拉开,就可以观察到人脸的线条→图案→局部→人脸,这是一步步获得高层特征的过程。深度学习与此相似,通过逐层训练的方法降低了判断的难度:底层网络学习出点、直线、曲线、拐角等初级特征,中层网络在此基础上学习出眼睛、鼻子、嘴等器官特征,高层网络则进一步组合这些器官特征,判断出图片是否包含人脸。
[
上一页 ]
[ :1.70480463e+09 ]
[
下一页 ]