打字猴:1.70480468e+09
1704804680
1704804681 深度学习的另一个重要机制是外部反馈。
1704804682
1704804683 比如智能机器的语言能力要提高,必须有大量的外部反馈,就像孩子通过父母的不断反馈快速提高自身语言水平。微软曾在2015年推出对话机器人Tay。它能够学习、模仿用户的语言,在大量用户无数粗俗对话的刺激下,Tay在一天之后就满口脏话了,就像一个学坏了的不良少女。截至2016年5月,伴侣虚拟机器人“微软小冰”已和多个国家的数千万人类进行了超过200亿次对话,平均对话长度达到23轮,而图像等多感官的对话也已超过2亿次。频繁的外部反馈让“微软小冰”的对话能力突飞猛进。这两个例子说明了频繁对话在机器人语言学习中的威力。
1704804684
1704804685 谷歌和Facebook也都在利用广大用户的频繁互动,锻炼自己的人工智能的语言能力,让它知道什么样的句子是好的,什么样的表达方式是对的,最终掌握人类语言。
1704804686
1704804687 深度学习作为一种先进的算法,引起业界广泛重视是在2012年,那年的ImageNet挑战赛展现了深度学习的巨大威力。
1704804688
1704804689 ImageNet是一个拥有数百万张各类图片的在线数据库,所有图片都有人工做的标签,比如“台灯”或“网球”。
1704804690
1704804691 每年的ImageNet竞赛主要用来衡量各种图像识别系统的进展。这些系统首先使用被正确标记的图片集进行训练,然后挑战标记之前没见过的测试图片。
1704804692
1704804693 2010年获胜的系统可以正确标记72%的图片;2012年,多伦多大学的Geoff Hinton带领的团队凭借新技术“深度学习”实现了85%的准确率;在2015年的ImageNet竞赛上,一个深度学习系统以96%的图像识别准确率第一次超过了人类——人类平均有95%的准确率。
1704804694
1704804695 深度学习源于人工神经网络(ANN)的研究。一个简单的ANN网络有一个输入层,在这里数据被输送进网络中;还有一个输出层,这里会输出结果;输入层和输出层中间可能还会有两三个隐藏层对信息进行处理。ANN曾在识别手写数字等少数任务上实现了成功应用,但在完成更为复杂的任务上陷入了困境,因为真正达到实用所需要的数据和计算能力都不具备。
1704804696
1704804697 进入21世纪,数据和计算能力问题都得到了解决。一方面是多种多样的数据大量出现;另一方面,到2009年左右,几个人工智能研究团体发现,个人计算机和视频游戏机上用于生成精致画面的GPU也同样适用于运行深度学习算法,并且能够几百倍地加速深度学习系统。这样训练一个四层的神经网络就变得很快了,由之前需要花费几周的时间变成了不到一天时间。
1704804698
1704804699 依托于成熟的深度学习技术,2012年ImageNet挑战赛的优异成绩震动了科技界,此后更多机构投入开发深度学习系统中。二三十层的网络变得很常见,微软的研究人员曾建立过152层的网络,因为更深层的网络能进行更高水平的抽象并产生更好的结果。
1704804700
1704804701 这些机构的投入取得了哪些成果?深度学习是仿人类大脑神经感知外部世界的算法,而最直接的外部自然信号莫过于图像(包括人脸)、声音和文字(非语义),深度学习首先在这几个领域取得了重大进展。
1704804702
1704804703 人工智能的人脸识别能力已经超过人类。2014年,香港中文大学的团队开发了名为DeepID的深度学习模型,在LFW(Labeled Faces in the Wild,人脸识别使用非常广泛的测试基准)数据库上获得了99.15%的识别率,而人用肉眼在LFW上的识别率为97.52%,这是深度学习在人脸识别领域的重大突破。
1704804704
1704804705 图像识别的一个重要应用领域是协助医疗诊断。有一家公司出了一种胶囊摄像头。胶囊吃进去后,它能在你的消化道每隔5秒就拍一幅图,然后再排出人体,这样就能将所有关于肠道胃部的问题全部完整记录。这个技术可以代替痛苦的胃镜检查,但同时带来一个问题,医生光把那些图看完,就需要5个小时。这个问题的解决方案是深度学习。他们将8000多例图片数据灌进去,让机器自学诊断规则,提高了诊断精确率,减少了医生的漏诊问题。
1704804706
1704804707 传统的语音识别算法,在噪音的环境下达不到可用的级别。深度学习使得识别错误率在以往最好的基础上相对下降30%以上,达到了商业可用的水平。最近几年语音识别得到了极大的提高,科大讯飞的很多产品能达到95%以上的识别准确率。
1704804708
1704804709 在文字识别领域,谷歌在垃圾邮件过滤器中引入了深度学习。这一技术能够通过分析大量计算机上的电子邮件学习识别垃圾邮件和钓鱼邮件,其垃圾邮件拦截率提高到了99.9%。
1704804710
1704804711 深度学习算法在商业领域的运用已经非常深入。我们来看来自阿里集团执行副总裁曾鸣介绍的一个典型案例:依托淘宝网的大数据,蚂蚁小贷能做到在几秒钟内决定是否给小商家们发放贷款。
1704804712
1704804713 淘宝卖家正在卖哪些商品、生意好不好,卖家经营店铺是否勤快、之前是否有过不诚信的行为……这些淘宝网分享给蚂蚁小贷的数据的丰富度、准确度远高于传统银行能采集到的贷款者的信息。
1704804714
1704804715 在“全面了解客户”这点上,蚂蚁小贷拥有了非常关键的数据优势。接下来算法工程师们建立了一套算法模型来处理这些海量数据,给每位客户的信用水平打分,根据分数决定是否贷款。
1704804716
1704804717 基于在线数据和算法的模型是实时迭代的,这和传统数据分析有着本质区别。
1704804718
1704804719 一方面,随着新数据的不断涌入,这个信用分会随之变动。根据客户的每一单交易、每一次旺旺上线、每一次还款,蚂蚁小贷会每天更新一次客户的信用分,这样的更新频率是传统银行绝对做不到的。
1704804720
1704804721 另一方面,客户的还款行为实时检验着蚂蚁小贷“算”得“准不准”,算法模型也据此实时优化。检验算法优劣的核心标准就是一条——“客户后来还款了吗”,或许一个被打了很低信用分的客户及时还款了,一个高分客户反而卷款跑路了,算法必须根据预测和实际结果的差别进行调优。哪些维度的指标应当被纳入到或清除出模型、客户的哪些行为特质应该被赋予更高的权重、在不同的情形下哪些算法模型有更高的准确度,蚂蚁小贷的算法模型会每周更新迭代,而传统金融的效率再高,一次更新也往往需要6个月。
1704804722
1704804723 蚂蚁小贷决定“贷多少”“收多少利息”这两个问题也是类似的过程。比如算法工程师们测算出每家店铺的主打商品的生命周期(是新品正在攒口碑、是正在热销、还是即将打折清仓)、每家店铺的毛利率等等数据指标,加入更多的卖家社会关系数据(因为人以群分),以精准确定贷款额度。
1704804724
1704804725 在这个过程中,客户的数据越来越丰富,算法模型也越来越靠谱,贷款风险控制的成本越来越低,贷款者的体验也越来越赞,覆盖的贷款用户也越来越广。正如我们在蚂蚁小贷这个典型案例中看到的,智能商业的效能相对于传统商业是质的飞跃,是全面超越。
1704804726
1704804727 处理大数据需要强算力
1704804728
1704804729 海量的数据给深度学习提供了足够多的素材,而大数据的处理需要强算力。
[ 上一页 ]  [ :1.70480468e+09 ]  [ 下一页 ]