1700494718
1700494719
注:在回报以99%的比例递减时的情况。
1700494720
1700494721
因此,基廷斯指数为我们指出了一个轻而易举地解决多臂老虎机问题的方法。但是,这并不是说这个难题已经彻底得到解决,也不意味着基廷斯指数可以帮助我们处理日常生活中所有探索与利用的取舍问题。原因之一是基廷斯指数只有在某些强假设条件下才是最优策略。各种各样的行为经济学与行为心理学实验都不建议人们对未来奖励实行几何贴现(即每次拉动拉把的价值都是上一次的分数倍)的做法。此外,如果不同方案之间的转换需要付出成本,那么基廷斯指数就不再是最有效的策略。(邻居家的草地看起来可能真的更绿一些,但这并不是我们翻过篱笆的理由,更不用说通过二次抵押贷款把邻居家的房子买下来了。)更重要的是,在匆忙之间很难计算出基廷斯指数。如果随身携带一张指数表,你可以找到晚餐的最佳选择,但是你得到的好处可能还不足以弥补你需要付出的时间和精力。(“等一等,我可以解决这个问题。这家餐厅的好评率是29/35,另一家的好评是13/16,因此它们的基廷斯指数分别是……嘿,人呢?”)
1700494722
1700494723
正是因为考虑到这些因素,从基廷斯指数被提出之日起,计算机科学家和统计学家就已经在寻找可以更方便、更灵活地解决多臂老虎机问题的方法。这些新的策略不仅可以比较好地满足需要,而且人(及机器)在一系列情境下应用这些方法时,难度比用基廷斯指数计算最优方案小。同时,它们还可以用来解决最令人害怕的一类问题,帮助我们在面对机会时做出正确的选择。
1700494724
1700494725
[1]尽管基廷斯指数有效,但还是远离赌场为妙。
1700494726
1700494727
1700494728
1700494729
1700494731
算法之美:指导工作与生活的算法 遗憾与乐观
1700494732
1700494733
弗兰克·辛纳屈
1700494734
1700494735
遗憾?我曾经有过,但是算不上太多,不值得一提。
1700494736
1700494737
温斯顿·丘吉尔
1700494738
1700494739
我本人是个乐观主义者,因为不乐观的话,似乎也于事无补。
1700494740
1700494741
如果你认为基廷斯指数太复杂,或者你所处的情况并没有表现出几何贴现的特征,那么你还有另一个选择——关注遗憾。当我们选择吃饭地点、伙伴或者居住城市时,遗憾常常会笼罩在我们心头——面对一堆好的可选方案,结果却做出了一个错误的选择,我们往往难以原谅自己。令我们遗憾不已的常常是我们没有做的事情,或者是从来没有尝试过的选择方案。用管理理论学家切斯特·巴纳德的话来说就是:“尝试后即使遭遇失败,也至少是一个学习的过程;如果不去尝试,就会与机会失之交臂,造成无可估量的损失。”
1700494742
1700494743
遗憾也可能给人以巨大的动力。在杰夫·贝佐斯决定创办亚马逊网站之前,他在纽约投资公司德劭集团的工作非常安稳,待遇也十分丰厚。在西雅图创办网上书店,这个步子迈得有点儿大,因此他的老板(也就是戴维·肖)劝他要小心。贝佐斯说:
1700494744
1700494745
我找到一个可以帮助我轻松做出重大决定的框架,并把它称作“遗憾最少化框架”(一个书呆子气十足的名称)。我把自己想象成80岁的模样,然后开始思考:“现在回望我的一生,我要把遗憾之事的数量降到最低。”我知道在我80岁时,我不会因这次尝试而后悔,我不会后悔参与到互联网这项我认为非常重要的事业中来。我知道,哪怕我失败了,我也不会遗憾,而我可能会因为没有尝试而感到遗憾,而且这种遗憾之情将永远萦绕在我的心头。想到这里,这个决定就变得非常容易了。
1700494746
1700494747
计算机科学也不可能让你一辈子没有遗憾,但是它有可能帮助你实现贝佐斯追求的目标:把人生当中的遗憾降到最少。
1700494748
1700494749
遗憾是将我们的实际行为与事后认定的最佳行为进行比较后得到的产物。在多臂老虎机问题中,巴纳德说的“无可估量的损失”其实是可以精确测量的,遗憾也可以被赋予一个数值:采用某个策略后获取的回报总额与每次都选对最有利拉把时(如果我们从一开始就知道拉下哪个拉把能赢钱,该有多好啊),所获取的回报总额理论值之间的差。我们可以针对不同策略计算出这个差值,然后找出差值最小的那些策略。
1700494750
1700494751
1985年,赫伯特·罗宾斯第二次尝试破解多臂老虎机问题,此时,距离他提出赢留输变策略已经有30年了。他和同事、哥伦比亚大学数学家黎子良合作,提出了与遗憾有关的几个重要特点。第一,假设你不是全知全能,那么让你感到遗憾的事情可能就会不断增加,永远无法停止,即使你选择的是最有效策略,这是因为,即使最有效策略也不一定每次都是完美无缺的。第二,如果你选择的是最有效策略,那么遗憾增加的速度就会比你选择其他策略时的速度慢一些,在采用好的策略时,遗憾增加的速度将越来越慢,因为你对问题的了解程度在加深,做出更明智选择的能力在加强。第三,同时也是最具体的一个特点,数量最少的遗憾(同样需要假定你不是全知全能)就是每次拉下老虎机把手时遗憾的数量以对数速率增加。
1700494752
1700494753
遗憾以对数速率增加,意味着前10次拉动老虎机拉把与后面90次所造成的遗憾同样多,意味着在10年时间里,第一年留下的遗憾数量等于其余9年留下的遗憾总和。(同理,在100年时间里,前10年犯下的错误等于后90年的错误总和。)这种情况让我们多少可以找到一点儿安慰。总的来说,我们不可能指望有朝一日我们将再也没有新的遗憾。但是,如果我们采用一种遗憾最少化算法,就有望减少每年新增的遗憾数量。
1700494754
1700494755
自黎子良、罗宾斯之后,研究人员在过去几十年里一直致力于寻找可以确保遗憾最少化的算法。在他们提出的算法当中,最受欢迎的就是上限置信区间算法。
1700494756
1700494757
直观表现的统计数据通常在数据点上方或下方添加所谓的误差条线,以表明该测量值是不确定的;误差条线表示的是被测量数量真实值所在的合理范围,即“置信区间”。随着我们收集的数据越来越多,置信区间将不断缩小,这说明测量值越来越精准。(例如,有两台老虎机,你在一台老虎机上玩了两次,其中有一次赢钱了,在另一台老虎机上玩了10次,有5次赢钱了。这两台机器的期望值相同,但是前者的置信区间更宽。)上限置信区间算法告诉我们,多臂老虎机问题非常简单,可以直接选择置信区间上限最高的那个方案。
1700494758
1700494759
因此,上限置信区间算法与基廷斯指数一样,也为多臂老虎机的每个拉把赋予了一个数值。在上限置信区间算法中,这个数值就是根据目前掌握的信息,计算该拉把在合理情况下可以产生的最高值。因此,该算法不关心截至目前已经取得最好成绩的是哪个拉把,相反,它会选择在合理情况下未来有可能取得最佳成绩的那个拉把。例如,如果你从未去某家餐厅就餐,那么就你了解的信息看,这家餐厅可能非常棒。即使你已经去过一两次并且品尝了两道菜,你获取的信息也不足以表明这家餐厅一定比不上你经常去的那些餐厅。同基廷斯指数一样,上限置信区间一定大于期望值,但是随着某个方案给我们的体验越来越多,两者之间的差就会越来越小。(只有一次中评的餐厅仍然有可能非常棒,但是收到过几百次中评的餐厅一定不会很好。)上限置信区间算法给出的推荐意见与基廷斯指数的推荐意见应该没有多大区别,但是前者的计算难度小得多,而且无须几何贴现这个前提条件。
1700494760
1700494761
上限置信区间算法所采用的原理有一个绰号——“面对不确定性时的乐观主义”。他们指出这种乐观主义是有充分理由的。这些算法强调通过已知证据推断某个选择方案可能产生的最佳结果,而计算的结果倾向于我们了解程度较低的可能情况。因此,他们自然会在决策过程中增加探索的比重,满怀热情地选择新的事物,因为任何新鲜事物接下来都可能变得非常重要。麻省理工学院的莱斯利·基布灵就曾采用相同的原理,她设计的“乐观机器人”在探索周围空间时,赋予未知地形的值比较高。显然,这个原理对于人类生活同样有所启示。
1700494762
1700494763
上限置信区间算法的成功,是对怀疑者的一个正式回应。根据这些算法给出的建议,我们应该满怀激情地结识新人,尝试新鲜事物,因为在没有相反证据的时候,我们都应该假定可以取得最好的结果。从长远看,乐观主义是防范遗憾的最有效措施。
1700494764
1700494765
1700494766
1700494767
[
上一页 ]
[ :1.700494718e+09 ]
[
下一页 ]