1700496202
1700496203
因此,考虑越来越多的因素和在模型分析上花费的更多努力,会导致我们进入将错误的事物最优化的误区。正如上文提到的,向青铜蛇而不是其身后蕴含的更大力量祈祷。
1700496204
1700496205
1700496206
1700496207
1700496209
算法之美:指导工作与生活的算法 过度拟合无处不在
1700496210
1700496211
一旦你了解了过度拟合,你就会发现它随处可见。
1700496212
1700496213
例如,过度拟合解释了我们具有讽刺意味的味觉。如果按照进化论来说,味蕾的整个功能都是为了防止我们吃坏掉的东西,那么为什么我们最喜欢吃的食物都被认为是对我们的健康有害的呢?
1700496214
1700496215
答案是,味觉是我们身体的健康指标。脂肪、糖和盐是重要的营养物质,在长达几十万年的时间里,食用含有这些物质的食物是持续性饮食的一个合理方法。
1700496216
1700496217
但当我们能够改善所食用的食物时,这种关系就被打破了。我们现在可以把脂肪和糖添加到食物中去,但这些食物的量已经超出我们身体可承受的健康范围,但是我们还是只喜欢吃那些食物,而不是吃蔬菜、谷物和肉类这些构成人类正常饮食习惯的食物。换句话说,我们可以过度拟合食物的味道。我们越能熟练地操纵食物(我们的生活方式和祖先的生活方式就越不一样),只有一种度量之下的味道就越不完美。人类因此变成诅咒,使我们能够拥有我们想要的东西成为一种危险,即使这些可能并不是我们真正想要的正确的东西。
1700496218
1700496219
注意:当你去健身房减掉由于吃糖带来的多余的体重时,你也可能会对健身过度拟合。明显的身体健康的表征,例如低脂肪和高肌肉量,很容易测量,它们也可以降低心脏病和其他疾病的风险。但它们也是一种不完善的间接测定方法。对表征过度拟合——采用极端的饮食来降低身体脂肪以及服用类固醇来增强肌肉,也许会让你的身体状况看起来非常好,但只是看起来而已。
1700496220
1700496221
过度拟合也表现在运动中。例如,汤姆是一名击剑运动员,从少年时代就一直断断续续地练击剑。击剑运动最初的目标是教人们如何在一场决斗中捍卫自己,故出自“防御”一词。现代击剑用的武器是类似于被用于训练在这种场景中使用的东西。(佩剑尤为如此,不到50年前,佩剑仍然被用在正式的决斗中。)但引进电子计分设备——装在剑顶端的一个按钮,一有碰击便会记录下来,这改变了这项运动的性质,在真正决斗中没什么作用的技术已经成为击剑比赛中的关键技能。现代击剑运动员使用柔性叶片,使他们可以向对手身上的按钮“甩尾”,只要触碰的力量足够就可以被记录下来并得分。结果,他们看起来更像是在甩一个金属鞭子,而不是用剑切或插。它本是一种令人兴奋的运动,但运动员因为奇怪的计分工具而对策略过度拟合,因此灌输真实的剑术技能就变得不那么重要了。
1700496222
1700496223
但是,也许没有哪个领域中存在的过度拟合是和商业世界一样显著的。史蒂夫·乔布斯说:“激励结构是有效的,所以你对激励别人做的事必须非常小心,因为不同的激励结构产生的不同后果是你所不能预料的。”萨姆·阿尔特曼是创业孵化器Y联合机构的总裁,他也认同乔布斯的警告:“公司将按照首席执行官所做的任何估量决策发展。”
1700496224
1700496225
事实上,要想出一些具有某种有悖常理的激励手段或衡量方式十分困难。20世纪50年代,康奈尔大学管理学教授V.F.里奇韦编录了一系列例如“主机性能测量的不良后果”等研究。就业安置公司的工作人员对他们所进行的访谈的数量进行评估,这促使他们要尽可能快地开会,少花时间在开会上实际是帮助他们的客户尽快找到工作。在一个联邦执法机构,每月发放绩效工资的调查人员被发现他们在月底会挑选较容易的案件,而不是最紧迫的案件进行调查。在一家工厂,过度专注于生产指标会导致主管忽视维护和修理,这会带来灾难隐患。这样的问题不能简单地被认为是实现管理目标的失败。相反,是另一方面:对本就错误的事物进行无情和聪明的优化。
1700496226
1700496227
21世纪进入实时分析的转变只会使指标的危险更加激烈。谷歌的数字营销师阿维纳什·考希克曾警告说,试图让网站用户看到更多广告,这就会很自然地发展成将网站塞满广告:“当你按每千次展示费用的基础来支付,激励机制就是试图在每一页尽可能多地塞入广告,(同时)确保访问者看到了网站上最可能的页面……激励机制会将焦点从重要的实体上移除,例如你的客户,并将其放置在次要的实体上,例如你的广告商。”网站可能在短期内获得更多的钱,但塞满广告的文章,缓慢加载的多页幻灯片,以及耸人听闻的标题从长久来说会失去读者。考希克的结论是:“真正的朋友是不会让朋友去测量页面浏览量的,永远都不会。”
1700496228
1700496229
在某些情况下,模型和现实世界之间的区别就是生死问题。在军事领域和执法部门,例如重复的机械训练被认为是灌输火线技能的一个关键手段。我们的目标是演练某些运动和战术要点,使它们成为完全自动的技能。但当过度拟合在此出现时,一切就可能是灾难性的。比如,曾发生这样一个故事,警察发现自己在枪战中竟会花时间将弹壳收在口袋里——这是在射击场上培养起来的良好习惯。作为美国前陆军游骑兵和西点军校心理学教授戴夫·格罗斯曼曾写道:“在许多真实枪战中,当硝烟散去,军官们会震惊地发现自己的口袋里有许多空弹壳,但他们自己完全不记得是如何放到那里的。在一些场合,殉职的警察被发现手中还握着空弹壳,他们死在执行一个渗入他们身体里的行政程序的过程中。”同样,美国联邦调查局被迫改变其训练,因为他们发现有些特工在开完两枪之后会本能地将武器收入枪套中(这是训练的标准程序),无论他们是否击中目标,也无论威胁是否仍然存在。这样的错误在执法和军事领域被称为“训练的伤疤”,这反映了一个事实——人们可能会对自己的准备过程过度拟合。在一个特别戏剧性的案件中,一名军官本能地将枪从攻击者手中抢走,然后又本能地将枪交还给他——就像他在训练中一次又一次地与他的训练者所做的那样。
1700496230
1700496231
1700496232
1700496233
1700496235
算法之美:指导工作与生活的算法 检测过度拟合:交叉验证
1700496236
1700496237
因为过度拟合最初作为一种理论是完全符合现有数据的,所以它似乎很难被发现。我们如何能区别一个真正的好模式和一个过度拟合的模式呢?在教学领域,我们如何区分一个擅长所有科目的班级,和一个仅能“通过考试”的班级?在商业世界中,我们怎么能区别一个真正的明星员工和一个过度拟合公司关键绩效指标或老板看法的员工?
1700496238
1700496239
区分这些情况确实具有挑战性,但并非不可能。机器学习的研究已经得出了一些具体的策略以检测过度拟合,而最重要的问题之一就是所谓的交叉验证。
1700496240
1700496241
简单地说,交叉验证意味着不仅要评估模型是否适合给出的数据,还要看它是如何概括没有见过的数据。矛盾的是,这可能要使用更少的数据。在婚姻的例子中,我们可能会在随机的两个点位上“退缩”,使我们的模型适合其他8个点位。然后,我们将采用这两个测试点,并用它们来衡量各种功能是如何概括出他们已经给出的这8个“训练”点位之外的内容。这两个点就像是煤矿中的金丝雀:如果一个复杂的模型重合了那8个点位但又和那两个试验点差距很大,这很可能是过度拟合在产生作用。
1700496242
1700496243
除了保留一些可用的数据点,也可以考虑测试完全来自其他评价形式的数据模型。正如我们已经看到的,代理指标的使用——可作为营养的代替,或很多情况下作为研究者勤奋的代表加以解决,可能导致过度拟合的情况发生。在这种情况下,我们需要交叉验证我们正在使用的主要性能措施,而不是其他可能的措施。
1700496244
1700496245
例如,在学校里,标准化考试提供了许多好处,包含一种明显的规模经济:学生可以被大批量地、迅速地进行分级。然而,除了这些测试,学校还可以使用不同的评价方法,例如写一篇文章或参加口头考试,以此随机评估一小部分学生,例如一个班中的一名学生,或100个学生中的一个。(因为只有少数学生会以这种方式进行测试,用这种二级评价方法,规模就不是一个大问题。)标准化测试会提供即时的反馈,例如你可以让学生每星期参加一个简短的计算机考试,并用图表实时分析学生的进步。此时,二级数据点就可以被用来进行交叉验证,以确保学生真正获得知识。事实上,标准化测试的目的也是测量这个,而不是让学生简单的考得更好。如果一个学校的标准化考试成绩上升,而其“非标准化”方面的表现却在向相反的方向移动,管理人员便会意识到一个明确的警告——“应试教育”已经出现,学生的技能开始对考试本身这个机制出现过度拟合。
1700496246
1700496247
交叉验证也给执法和军事人员提供了一个建议,希望他们能获得良好的反应能力,而不是养成从训练过程本身被强行注入的习惯。正如写文章和口语考试可以交叉验证标准化测试,偶尔不熟悉的“交叉培训”评估,便可以用来测试反应时间和射击精度是否能适应不熟悉的任务。如果不能,那么这便是一个强烈的信号,表示应该改变原有的训练方案。虽然没有什么能够确保实战万无一失,但这样的演习至少应事先警告“训练疤痕”很可能已经形成。
1700496248
1700496249
1700496250
1700496251
[
上一页 ]
[ :1.700496202e+09 ]
[
下一页 ]