1700494837
算法之美:指导工作与生活的算法 不安分的世界
1700494838
1700494839
一旦你熟悉了多臂老虎机问题,你就会发现这些问题随时会出现在你身边。我们做出的决定往往都不是孤立的,它们会给我们提供一些信息,在未来做其他决定时,我们可以加以利用。因此,我们自然会问,人们在解决这些问题时通常会有什么样的表现。我们在前面遇到最优停止问题时就提出了这样的问题,而心理学家和行为经济学家也已经在实验室里进行了广泛的研究。
1700494840
1700494841
一般而言,人们似乎倾向于过度探索——对新鲜事物的青睐程度超过效果最佳的事物。1966年,阿莫斯·特沃斯基和沃德·爱德华兹在杂志上发表了一个关于这种现象的简单演示。他们先展示了一个盒子,盒子上面有两盏灯。然后,他们告诉实验参与者,每盏灯打开的时间比是固定的,但是没有告诉他们这个比例到底是多少。接着,他们给这些实验参与者1000个机会,让他们观察是哪盏灯打开了,或者在不观察的情况下对结果下注。(与传统老虎机问题的设置不同,在这里,人们无法像“拉动拉把”那样在下赌注的同时就可以观察到结果,而是要等到实验结束,参与者才知道他们是否押中。)这个实验纯粹就是探索与利用之间的对抗,信息的获取与信息的利用正好矛盾。在大多数情况下,参与者都采取了一种明智的策略:先观察一段时间,然后把赌注押在看似最好的结果上,但是他们用来观察的次数总是太多了。到底多了多少?在一次实验中,两盏灯打开的时间比分别是60%和40%,两者之间的差别既不特别明显,也不至于难以察觉。在这种情况下,人们平均会选择观察505次,而其他495次的机会则被用来下注。但数学计算表明,他们只需观察38次,然后就应该开始下注,也就是说,可以留下962个机会,用来赢钱。
1700494842
1700494843
其他研究也得出了类似的结论。20世纪90年代,沃顿商学院的研究人员罗伯特·迈耶和施勇进行了一项研究。他们让人们从两个选择方案中做出选择。一个选择方案的回报概率已知,另一个则未知。具体来说,就是两个航空公司,其中一个名声较响、准点率已知,另一个则是没有记录的新公司。数学给出的最优策略是:为了使一段时间内准点到达的次数达到最大,在刚开始时应该只选择那家新航空公司,除非那家知名公司的准点率明显高于前者。只要那家知名公司的服务明显更好(也就是说,只要新公司的基廷斯指数低于知名公司的准点率),就应该立刻毫不犹豫地选择这家知名公司,而且再也不要回头。(在这种情况下,一旦你不再乘坐那家新公司的飞机,你就无法获得更多关于它的信息,因此它就没有了挽回信誉的机会。)但在实验中,即使新航空公司的服务非常好,选择尝鲜的人仍然很少;当这些尝鲜的人发现新航空公司服务不佳的时候,他们又往往不能及时调整自己的选择。而且,即使他们放弃其中一家航空公司,态度也不是十分坚决,而是继续来回变换自己的选择。在两家航空公司都不准点时,这种表现更加明显。所有这一切都与习惯性过度探索有关。
1700494844
1700494845
最后,心理学家马克·斯蒂维尔思、迈克尔·李和E.J.瓦根梅克斯利用四臂老虎机做了一个实验。在实验中,参与者有连续15次机会,从4个拉把中选择一个进行赌博游戏。然后,他们把参与者可能会使用的策略进行分类。结果表明,30%的策略接近于最优策略,47%的策略与赢留输变策略十分相似,22%的策略似乎是在新的拉把与目前为止成绩最好的拉把之间做出随机选择。研究结果再一次符合过度探索的特征,因为赢留输变以及偶尔随机尝试新拉把这两种行为都会导致人们尝试新鲜事物,即使在游戏快要结束、应该进入纯利用阶段的时候,他们也不愿意选择最佳方案。
1700494846
1700494847
也就是说,我们在招聘秘书时会过早地递出橄榄枝,但是在放弃新航空公司这个方面,我们的决定又往往来得过晚。不过,正如没有秘书帮忙需要我们付出成本,过早地选定一家航空公司也是有代价的,因为这个世界可能会发生变化。
1700494848
1700494849
标准多臂老虎机问题假设各个拉把的回报概率不会随时间发生变化,但是航空公司、餐厅以及需要人们做出重复选择的其他环境未必满足这个条件。如果各个拉把的回报概率随时间发生变化(人们称之为“不安分的老虎机”),问题的难度就会显著提高。(事实上,不安分多臂老虎机问题的难度非常高,目前还无法利用算法四平八稳地彻底解决这个问题。人们认为这样的算法永远也不会出现。)原因之一就是我们再也不能先探索一段时间,然后尽情地利用。既然世界是变化的,那么正确的选择可能就是继续探索。一家餐厅令你失望,于是你再也不愿意去那里用餐,但是过了几年之后,也许你应该再去一次,万一那里换了一名经理呢。
1700494850
1700494851
亨利·大卫·梭罗在他的著名散文《散步》中,说他喜欢在离家近的地方旅行,他从不厌倦周围的环境,并且马萨诸塞州的风光总是能给他一些新奇的发现。他写道:“在方圆十英里或者午后散步所及范围内的景物与七十载人间岁月之间,其实可以发现一种和谐,一种你永远不会觉得非常熟悉的和谐。”
1700494852
1700494853
生活在烦躁不安的世界里,我们也必须有一颗不安分的心。只要事物在不断变化,我们的探索就不能偃旗息鼓。
1700494854
1700494855
不过,即使在一个动荡不安的世界里,针对标准版本多臂老虎机问题精心打造的算法技术仍然可以找到用武之地。基廷斯指数、上限置信区间等策略可以提供相当优秀的近似解决方案及经验法则,在回报概率随时间变化的幅度不大时效果更加明显。今天,世界上很多事件的回报概率变化幅度比以前小得多。地里的果实这一周成熟了,到了下一周就会烂掉,但是,正如安迪·沃霍尔所说的,“一杯可乐就是一杯可乐”。通过进化来调整自己的直觉以适应不断变化的世界,在工业标准化时代未必有用。
1700494856
1700494857
也许最重要的是,考虑有最优解的多臂老虎机问题,不仅可以为我们提供各种算法,还可以让我们得到一些深刻的见解。在经典多臂老虎机问题研究中形成的一些语汇,诸如探索与利用的矛盾、剩余时间的重要性,0-0选择方案的高价值和最小遗憾值等,它们不仅可以帮助我们以全新的方式理解眼前的具体问题,还可以帮助我们以全新的视角看待整个人类生活。
1700494858
1700494859
1700494860
1700494861
1700494863
算法之美:指导工作与生活的算法 探索——孜孜不倦
1700494864
1700494865
虽然实验室研究具有启发性,但是在人们面对的许多重要问题中,剩余时间都非常长,无法在实验室中加以研究。学习了解周围世界的组织结构、建立持久的社会关系都是伴随我们一生的任务。因此,了解早期探索、后期利用的一般模式可以给我们启发。
1700494866
1700494867
所有发展心理学家都渴望理解和解释关于人类的一个奇怪现象:我们培养能力与自主性的过程往往需要持续好多年。北美驯鹿和瞪羚自出生之日起,就必须做好拼命奔跑以逃脱捕食者的准备,但是人类需要一年多的时间才能迈出自己的第一步。加州大学伯克利分校发展心理学教授、《摇篮里的科学家》一书的作者艾莉森·高普尼克在解释为什么人类有如此长的依赖期时说:“它让你学会以发展的方式来解决探索与利用之间的取舍。”我们已经看到,教我们玩多臂老虎机的优秀算法往往在刚开始的时候倾向于探索,在后期则倾向于对所获取的知识加以利用。但是正如高普尼克指出的:“这种做法有一个缺点——在探索阶段,你无法获得充分的回报。”因此,童年是人生的探索阶段。“在童年时期,你可以尽情探索各种可能性,而不必担心回报的问题,因为爸爸、妈妈、奶奶和保姆会帮你处理好。”
1700494868
1700494869
把童年看作是人生算法中短暂的探索阶段,可能会让学龄前儿童的父母感受到一些安慰。(汤姆有两个热衷于探索的学龄前女儿,他希望算法可以指引她们的人生,让她们感到遗憾的次数降至最低。)同时,也让我们对儿童的理性有了新的深刻认识。高普尼克指出:“仔细研究长期以来人们对孩子的看法,就会发现成人通常会认为孩子在认知上有各种各样的缺陷,因为孩子们在某个方面的表现有些糟糕。他们不会系鞋带,他们不擅长长期规划,他们不擅长集中注意力。孩子们在这些方面表现得非常差。”但是,随意按动按钮、对新玩具非常感兴趣、思维跳跃性强,这些都是孩子们的特点。如果他们的目标是探索,这些就正是他们应该做的事情。如果你是一个婴儿,那么你抓到家里所有东西都会往嘴里放的行为,与赌徒在赌场里小心翼翼地拉动老虎机拉把的行为并没有本质上的不同。
1700494870
1700494871
一般而言,我们对理性的直觉认识常常来源于利用,而不是探索。当我们谈论决策过程时,我们通常只关注某个决定的即时回报——如果你把每一个决定都当作人生的最后一个决定,那么只有利用才是有意义的。但在一生中,你会做出很多决定。实际上,在做很多决定时,理性的做法是强调探索的重要性,重视新的东西而不是最好的东西,重视令人为之兴奋的东西,而不是一味追求安全,重视随机选择,而不是深思熟虑的决定。在人生早期,更应该如此。
1700494872
1700494873
孩子们的有些想法,在我们看来是任性,但是实际上,可能比我们想象的更明智。
1700494874
1700494875
1700494876
1700494877
1700494879
算法之美:指导工作与生活的算法 走出探索和利用的两难困境
1700494880
1700494881
莉迪娅·戴维斯
1700494882
1700494883
我的阅读生涯已经走到了一个十字路口,有过类似经历的人都熟悉我现在面临的难题:在我余下的时光里,我是应该不停地阅读新书,还是应该停止这种徒劳的行为(之所以徒劳,是因为新书永远读不完),然后重读那些曾经令我无比愉悦的书呢?
1700494884
1700494885
与学步的孩童相对应的另一个极端是已步入垂暮之年的老人。从探索与利用这个两难困境的角度去思考老年生活,也会为我们带来一些令人吃惊的洞见,让我们学会随着时间的推移调整我们对生活的期望。
[
上一页 ]
[ :1.700494836e+09 ]
[
下一页 ]