打字猴:1.7004947e+09
1700494700
1700494701 表2-1 基廷斯指数值与输赢的关系
1700494702
1700494703
1700494704
1700494705
1700494706 注:在回报以90%的比例递减时的情况。
1700494707
1700494708 但是,该表最有意思的地方是左上角的那一格。0-0这个记录(表明我们对这个拉把一无所知)所对应的期望值是0.5000,但是基廷斯指数是0.7029。换句话说,一台你从来没有玩过的机器,比你玩了10次,其中有7次赢钱的机器更有吸引力!沿着对角线向右下方前进,就会发现1-1这个记录对应的指数是0.6346,记录2-2对应的是0.6010,等等。如果这个50%的赢钱率一直保持下去,基廷斯指数最终会驱近于0.5000,而经验证明,这台机器的确没有任何特别的地方,它最终会收走那些刺激我们进一步探索的“奖金”。但是,收敛过程进展非常缓慢,探索奖励的刺激作用非常大。的确,我们可以看到,即使第一次拉下拉把后输了钱,0-1这个记录所对应的基廷斯指数仍然高于50%。
1700494709
1700494710 我们还可以看出改变贴现率后探索与利用会发生什么样的变化。下表列出的内容与前表相同,不过条件是回报递减的比例不是90%,而是99%。在未来与现在的权重几乎相同时,相对于十拿九稳的事情而言,偶然发现的价值上升得更快。从这张表可以看出,从未测试过、记录为0-0的机器可以确保有86.99%的赢钱概率!
1700494711
1700494712 由此可见,基廷斯指数以一种正式、严谨的形式,证明了在有机会对探索结果加以利用时,我们应该倾向于选择未知的新事物。有一句古老的谚语说:“邻家芳草绿。”数学可以告诉我们其中的道理。尽管我们实际上认为未知事物可能差不多,甚至有可能更差,但是它也有可能更好。球队新球员没有经过检验,但是他的价值却高于能力似乎差不多的老手(至少在赛季初如此),原因正是我们对他知之甚少。探索行为本身就有价值,因为尝试新鲜事物可以增加我们发现最佳选择的机会。因此,不仅关注当前,同时还把未来纳入我们视野的做法,可以驱动我们不断尝试新鲜事物。
1700494713
1700494714 表2-2 基廷斯指数值与输赢的关系
1700494715
1700494716
1700494717
1700494718
1700494719 注:在回报以99%的比例递减时的情况。
1700494720
1700494721 因此,基廷斯指数为我们指出了一个轻而易举地解决多臂老虎机问题的方法。但是,这并不是说这个难题已经彻底得到解决,也不意味着基廷斯指数可以帮助我们处理日常生活中所有探索与利用的取舍问题。原因之一是基廷斯指数只有在某些强假设条件下才是最优策略。各种各样的行为经济学与行为心理学实验都不建议人们对未来奖励实行几何贴现(即每次拉动拉把的价值都是上一次的分数倍)的做法。此外,如果不同方案之间的转换需要付出成本,那么基廷斯指数就不再是最有效的策略。(邻居家的草地看起来可能真的更绿一些,但这并不是我们翻过篱笆的理由,更不用说通过二次抵押贷款把邻居家的房子买下来了。)更重要的是,在匆忙之间很难计算出基廷斯指数。如果随身携带一张指数表,你可以找到晚餐的最佳选择,但是你得到的好处可能还不足以弥补你需要付出的时间和精力。(“等一等,我可以解决这个问题。这家餐厅的好评率是29/35,另一家的好评是13/16,因此它们的基廷斯指数分别是……嘿,人呢?”)
1700494722
1700494723 正是因为考虑到这些因素,从基廷斯指数被提出之日起,计算机科学家和统计学家就已经在寻找可以更方便、更灵活地解决多臂老虎机问题的方法。这些新的策略不仅可以比较好地满足需要,而且人(及机器)在一系列情境下应用这些方法时,难度比用基廷斯指数计算最优方案小。同时,它们还可以用来解决最令人害怕的一类问题,帮助我们在面对机会时做出正确的选择。
1700494724
1700494725 [1]尽管基廷斯指数有效,但还是远离赌场为妙。
1700494726
1700494727
1700494728
1700494729
1700494730 算法之美:指导工作与生活的算法 [:1700494116]
1700494731 算法之美:指导工作与生活的算法 遗憾与乐观
1700494732
1700494733 弗兰克·辛纳屈
1700494734
1700494735 遗憾?我曾经有过,但是算不上太多,不值得一提。
1700494736
1700494737 温斯顿·丘吉尔
1700494738
1700494739 我本人是个乐观主义者,因为不乐观的话,似乎也于事无补。
1700494740
1700494741 如果你认为基廷斯指数太复杂,或者你所处的情况并没有表现出几何贴现的特征,那么你还有另一个选择——关注遗憾。当我们选择吃饭地点、伙伴或者居住城市时,遗憾常常会笼罩在我们心头——面对一堆好的可选方案,结果却做出了一个错误的选择,我们往往难以原谅自己。令我们遗憾不已的常常是我们没有做的事情,或者是从来没有尝试过的选择方案。用管理理论学家切斯特·巴纳德的话来说就是:“尝试后即使遭遇失败,也至少是一个学习的过程;如果不去尝试,就会与机会失之交臂,造成无可估量的损失。”
1700494742
1700494743 遗憾也可能给人以巨大的动力。在杰夫·贝佐斯决定创办亚马逊网站之前,他在纽约投资公司德劭集团的工作非常安稳,待遇也十分丰厚。在西雅图创办网上书店,这个步子迈得有点儿大,因此他的老板(也就是戴维·肖)劝他要小心。贝佐斯说:
1700494744
1700494745 我找到一个可以帮助我轻松做出重大决定的框架,并把它称作“遗憾最少化框架”(一个书呆子气十足的名称)。我把自己想象成80岁的模样,然后开始思考:“现在回望我的一生,我要把遗憾之事的数量降到最低。”我知道在我80岁时,我不会因这次尝试而后悔,我不会后悔参与到互联网这项我认为非常重要的事业中来。我知道,哪怕我失败了,我也不会遗憾,而我可能会因为没有尝试而感到遗憾,而且这种遗憾之情将永远萦绕在我的心头。想到这里,这个决定就变得非常容易了。
1700494746
1700494747 计算机科学也不可能让你一辈子没有遗憾,但是它有可能帮助你实现贝佐斯追求的目标:把人生当中的遗憾降到最少。
1700494748
1700494749 遗憾是将我们的实际行为与事后认定的最佳行为进行比较后得到的产物。在多臂老虎机问题中,巴纳德说的“无可估量的损失”其实是可以精确测量的,遗憾也可以被赋予一个数值:采用某个策略后获取的回报总额与每次都选对最有利拉把时(如果我们从一开始就知道拉下哪个拉把能赢钱,该有多好啊),所获取的回报总额理论值之间的差。我们可以针对不同策略计算出这个差值,然后找出差值最小的那些策略。
[ 上一页 ]  [ :1.7004947e+09 ]  [ 下一页 ]