打字猴:1.700496192e+09
1700496192 算法之美:指导工作与生活的算法 [:1700494167]
1700496193 算法之美:指导工作与生活的算法 数据崇拜
1700496194
1700496195 如果我们现有的丰富数据是一个完全有代表性的样本,完全没有错误,并完全代表我们正试图评估的对象的话,那么使用最复杂的模型确实是最好的方法。但如果我们试图找到完全适合我们的模型数据时,只要有一个因素不符合以上条件,我们就不能将模型完美地拟合于数据之上,就会有过度拟合的风险。
1700496196
1700496197 换句话说,当我们处理经常遇到的数据噪声或估算不准时,过度拟合就会随时构成危险。例如在数据收集或被报道过程中可能出现错误。有时被调查的现象,如人类的幸福,是很难进行定义的,更不用说测量了。由于其灵活性,我们可用的最复杂的模型可适用于数据中出现的任何模式,但这意味着即使这些模式在噪声的掩护下仅仅是魔怪和幻影,他们也必须这么做。
1700496198
1700496199 纵观历史,宗教教义都警告他们的追随者要反对偶像崇拜,例如崇拜雕像、绘画、文物和其他有形的文物,以及代替那些有形之物所代表的无形的神。例如第一条诫命就是警告不许膜拜“任何偶像或任何类似的在天堂存在的东西”。在《列王纪》中,一条奉上帝之令出现的青铜蛇成为人们崇拜和敬香的对象,而不是上帝本身。(上帝有些不高兴。)从根本上说,过度拟合就是对数据的一种偶像崇拜,产生的原因是将重心放在我们能够测量的数据而不是真正重要的问题上。
1700496200
1700496201 我们所拥有的数据和我们想要的预测之间的差距几乎无处不在。当做出重大决定时,我们只能通过考虑现在对我们重要的因素来猜测什么会让我们稍后更愉悦。(正如哈佛大学的丹尼尔·吉尔伯特所说,未来的我们往往会“支付大价钱来去除自己曾经花了大价钱文在身上的文身”)。当我们做财务预测时,我们只能看过去的股票价格,而不是未来的价格。即使在日常的小事中,这种模式仍然存在:写电子邮件时,我们会自己通读一遍,以预测收件人读到的效果。因此,在公共调查中,我们自己生活中的数据也总是嘈杂纷乱的,充其量是我们真正关心的一种间接测定的方法。
1700496202
1700496203 因此,考虑越来越多的因素和在模型分析上花费的更多努力,会导致我们进入将错误的事物最优化的误区。正如上文提到的,向青铜蛇而不是其身后蕴含的更大力量祈祷。
1700496204
1700496205
1700496206
1700496207
1700496208 算法之美:指导工作与生活的算法 [:1700494168]
1700496209 算法之美:指导工作与生活的算法 过度拟合无处不在
1700496210
1700496211 一旦你了解了过度拟合,你就会发现它随处可见。
1700496212
1700496213 例如,过度拟合解释了我们具有讽刺意味的味觉。如果按照进化论来说,味蕾的整个功能都是为了防止我们吃坏掉的东西,那么为什么我们最喜欢吃的食物都被认为是对我们的健康有害的呢?
1700496214
1700496215 答案是,味觉是我们身体的健康指标。脂肪、糖和盐是重要的营养物质,在长达几十万年的时间里,食用含有这些物质的食物是持续性饮食的一个合理方法。
1700496216
1700496217 但当我们能够改善所食用的食物时,这种关系就被打破了。我们现在可以把脂肪和糖添加到食物中去,但这些食物的量已经超出我们身体可承受的健康范围,但是我们还是只喜欢吃那些食物,而不是吃蔬菜、谷物和肉类这些构成人类正常饮食习惯的食物。换句话说,我们可以过度拟合食物的味道。我们越能熟练地操纵食物(我们的生活方式和祖先的生活方式就越不一样),只有一种度量之下的味道就越不完美。人类因此变成诅咒,使我们能够拥有我们想要的东西成为一种危险,即使这些可能并不是我们真正想要的正确的东西。
1700496218
1700496219 注意:当你去健身房减掉由于吃糖带来的多余的体重时,你也可能会对健身过度拟合。明显的身体健康的表征,例如低脂肪和高肌肉量,很容易测量,它们也可以降低心脏病和其他疾病的风险。但它们也是一种不完善的间接测定方法。对表征过度拟合——采用极端的饮食来降低身体脂肪以及服用类固醇来增强肌肉,也许会让你的身体状况看起来非常好,但只是看起来而已。
1700496220
1700496221 过度拟合也表现在运动中。例如,汤姆是一名击剑运动员,从少年时代就一直断断续续地练击剑。击剑运动最初的目标是教人们如何在一场决斗中捍卫自己,故出自“防御”一词。现代击剑用的武器是类似于被用于训练在这种场景中使用的东西。(佩剑尤为如此,不到50年前,佩剑仍然被用在正式的决斗中。)但引进电子计分设备——装在剑顶端的一个按钮,一有碰击便会记录下来,这改变了这项运动的性质,在真正决斗中没什么作用的技术已经成为击剑比赛中的关键技能。现代击剑运动员使用柔性叶片,使他们可以向对手身上的按钮“甩尾”,只要触碰的力量足够就可以被记录下来并得分。结果,他们看起来更像是在甩一个金属鞭子,而不是用剑切或插。它本是一种令人兴奋的运动,但运动员因为奇怪的计分工具而对策略过度拟合,因此灌输真实的剑术技能就变得不那么重要了。
1700496222
1700496223 但是,也许没有哪个领域中存在的过度拟合是和商业世界一样显著的。史蒂夫·乔布斯说:“激励结构是有效的,所以你对激励别人做的事必须非常小心,因为不同的激励结构产生的不同后果是你所不能预料的。”萨姆·阿尔特曼是创业孵化器Y联合机构的总裁,他也认同乔布斯的警告:“公司将按照首席执行官所做的任何估量决策发展。”
1700496224
1700496225 事实上,要想出一些具有某种有悖常理的激励手段或衡量方式十分困难。20世纪50年代,康奈尔大学管理学教授V.F.里奇韦编录了一系列例如“主机性能测量的不良后果”等研究。就业安置公司的工作人员对他们所进行的访谈的数量进行评估,这促使他们要尽可能快地开会,少花时间在开会上实际是帮助他们的客户尽快找到工作。在一个联邦执法机构,每月发放绩效工资的调查人员被发现他们在月底会挑选较容易的案件,而不是最紧迫的案件进行调查。在一家工厂,过度专注于生产指标会导致主管忽视维护和修理,这会带来灾难隐患。这样的问题不能简单地被认为是实现管理目标的失败。相反,是另一方面:对本就错误的事物进行无情和聪明的优化。
1700496226
1700496227 21世纪进入实时分析的转变只会使指标的危险更加激烈。谷歌的数字营销师阿维纳什·考希克曾警告说,试图让网站用户看到更多广告,这就会很自然地发展成将网站塞满广告:“当你按每千次展示费用的基础来支付,激励机制就是试图在每一页尽可能多地塞入广告,(同时)确保访问者看到了网站上最可能的页面……激励机制会将焦点从重要的实体上移除,例如你的客户,并将其放置在次要的实体上,例如你的广告商。”网站可能在短期内获得更多的钱,但塞满广告的文章,缓慢加载的多页幻灯片,以及耸人听闻的标题从长久来说会失去读者。考希克的结论是:“真正的朋友是不会让朋友去测量页面浏览量的,永远都不会。”
1700496228
1700496229 在某些情况下,模型和现实世界之间的区别就是生死问题。在军事领域和执法部门,例如重复的机械训练被认为是灌输火线技能的一个关键手段。我们的目标是演练某些运动和战术要点,使它们成为完全自动的技能。但当过度拟合在此出现时,一切就可能是灾难性的。比如,曾发生这样一个故事,警察发现自己在枪战中竟会花时间将弹壳收在口袋里——这是在射击场上培养起来的良好习惯。作为美国前陆军游骑兵和西点军校心理学教授戴夫·格罗斯曼曾写道:“在许多真实枪战中,当硝烟散去,军官们会震惊地发现自己的口袋里有许多空弹壳,但他们自己完全不记得是如何放到那里的。在一些场合,殉职的警察被发现手中还握着空弹壳,他们死在执行一个渗入他们身体里的行政程序的过程中。”同样,美国联邦调查局被迫改变其训练,因为他们发现有些特工在开完两枪之后会本能地将武器收入枪套中(这是训练的标准程序),无论他们是否击中目标,也无论威胁是否仍然存在。这样的错误在执法和军事领域被称为“训练的伤疤”,这反映了一个事实——人们可能会对自己的准备过程过度拟合。在一个特别戏剧性的案件中,一名军官本能地将枪从攻击者手中抢走,然后又本能地将枪交还给他——就像他在训练中一次又一次地与他的训练者所做的那样。
1700496230
1700496231
1700496232
1700496233
1700496234 算法之美:指导工作与生活的算法 [:1700494169]
1700496235 算法之美:指导工作与生活的算法 检测过度拟合:交叉验证
1700496236
1700496237 因为过度拟合最初作为一种理论是完全符合现有数据的,所以它似乎很难被发现。我们如何能区别一个真正的好模式和一个过度拟合的模式呢?在教学领域,我们如何区分一个擅长所有科目的班级,和一个仅能“通过考试”的班级?在商业世界中,我们怎么能区别一个真正的明星员工和一个过度拟合公司关键绩效指标或老板看法的员工?
1700496238
1700496239 区分这些情况确实具有挑战性,但并非不可能。机器学习的研究已经得出了一些具体的策略以检测过度拟合,而最重要的问题之一就是所谓的交叉验证。
1700496240
1700496241 简单地说,交叉验证意味着不仅要评估模型是否适合给出的数据,还要看它是如何概括没有见过的数据。矛盾的是,这可能要使用更少的数据。在婚姻的例子中,我们可能会在随机的两个点位上“退缩”,使我们的模型适合其他8个点位。然后,我们将采用这两个测试点,并用它们来衡量各种功能是如何概括出他们已经给出的这8个“训练”点位之外的内容。这两个点就像是煤矿中的金丝雀:如果一个复杂的模型重合了那8个点位但又和那两个试验点差距很大,这很可能是过度拟合在产生作用。
[ 上一页 ]  [ :1.700496192e+09 ]  [ 下一页 ]