1700494818
1700494819
1982—1984年,巴特莱特和他在密歇根大学的同事对患有呼吸衰竭的新生儿进行了一项研究。研究小组声称,他们知道自己希望解决“拒绝实施未经证实但有可能挽救生命的治疗方法所带来的伦理问题”,并且“不愿意仅仅为了满足传统的随机分配方法的需要,就拒绝为另外一组病人实施可以挽救他们生命的治疗方案”。因此,他们采用了泽伦的算法,并制订了一个试验策略。结果,一名被安排接受“常规”治疗的婴儿病情加重,濒临死亡,而11名接受试验性ECMO治疗的婴儿全部存活了下来。1984年4—11月,在官方研究结束后,另有10名婴儿符合实施ECMO疗法的标准。其中8名患者接受了ECMO治疗,结果8人全部存活。两名患者接受常规治疗,最后均不治而亡。
1700494820
1700494821
这些数字非常引人注目,然而,在密歇根大学对ECMO的研究完成后不久,它就陷入了争论之中。试验中接受常规治疗的患者非常少,这与标准方法有很大的不同,而且这个程序本身具有高度的侵入性和潜在风险。在论文发表后,哈佛大学公共卫生学院生物统计学教授吉姆·维尔和他的卫生学院同事仔细研究了这些数据,并且断定“如果不进行进一步的研究,就无法证明应该将ECMO纳入常规疗法的名单之中”。因此,维尔和同事们设计了第二个临床实验。这一次,他们仍然努力在获取知识和对患者实施有效治疗这两者之间达成平衡,但是选择了使用更温和的设计方案。他们将为患者随机安排ECMO或常规治疗。等到在其中一个组中观察到预先指定的死亡人数之后,就会对所有病人提供更有效的治疗方法。
1700494822
1700494823
在维尔研究的第一阶段,接受常规治疗的10名婴儿中有4人死亡,而接受ECMO治疗的9名婴儿全部存活。这4名婴儿的死亡足以促使研究进入第二阶段,于是全部20名患者都接受了ECMO治疗。最终,19人得以幸存。维尔和同事们终于信服了,并且断言“如果继续随机安排治疗方法,在伦理道义上是无法辩解的”。
1700494824
1700494825
但是,在维尔实施这项研究之前,就已经有人完成了类似研究,并明确提出了相同的观点。批评者包括唐·贝瑞——世界上研究多臂老虎机问题的主要专家之一。贝瑞在发表于《统计科学》杂志上的一篇评论文章中写道:“像维尔研究那样为病人随机安排ECMO以外的治疗方法,是不道德的……在我看来,维尔当初就不应该实施那项研究。”
1700494826
1700494827
然而,即使维尔的研究也没有让医学界的所有人都信服。20世纪90年代,有人又在英国招募了近200名婴儿,进行了另一项ECMO研究。他们没有采用自适应算法,而是遵循传统的方法,将这些婴儿随机分为人数相等的两个小组。研究人员称ECMO的有效性“是有争议的,因为现有证据有不同的解释”。结果,关于这两种治疗方法之间的差别,英国人宣布的结果与美国人在两项研究中得出的结论并不相同,但是英国人仍然宣称他们的研究结果“与先前的初步成果是一致的,即利用ECMO提供支持的治疗方案可以降低死亡风险”。为获取这些知识,他们付出了多大代价!“常规”组婴儿死亡人数比接受ECMO治疗的小组多24人!
1700494828
1700494829
自适应临床试验的结果遭到了普遍抵制,这似乎是一个令人费解的现象。但是,我们可以想一想在20世纪初刚刚出现的统计学对医学产生的影响。本来,每次出现一个新疗法,医生们都需要说服其他医生接受该疗法。但是统计学出现之后,哪些证据可信、哪些证据不可信,就有了明确的标准。修改已经被广为接受的标准统计方法有可能打破这种平衡,至少会暂时打破平衡。
1700494830
1700494831
在ECMO引发的争议平息之后,唐·贝瑞离开了明尼苏达大学的统计学系,来到位于休斯敦的MD安德森癌症中心,利用他在研究多臂老虎机问题时提出的方法,为各种癌症治疗法设计临床试验。他仍然会直言不讳地批评随机临床试验,而且跟他一样的批评者大有人在。近年来,他一直为之奋斗的理念终于逐渐变成一种主流观点。2010年2月,美国食品及药品管理局发布了一份《药物和生物制剂的自适应设计临床试验》的“指导”文件,这表明他们终于愿意探索其他选择了(尽管长期以来,他们一直坚持他们所信任的选择方案)。
1700494832
1700494833
1700494834
1700494835
1700494837
算法之美:指导工作与生活的算法 不安分的世界
1700494838
1700494839
一旦你熟悉了多臂老虎机问题,你就会发现这些问题随时会出现在你身边。我们做出的决定往往都不是孤立的,它们会给我们提供一些信息,在未来做其他决定时,我们可以加以利用。因此,我们自然会问,人们在解决这些问题时通常会有什么样的表现。我们在前面遇到最优停止问题时就提出了这样的问题,而心理学家和行为经济学家也已经在实验室里进行了广泛的研究。
1700494840
1700494841
一般而言,人们似乎倾向于过度探索——对新鲜事物的青睐程度超过效果最佳的事物。1966年,阿莫斯·特沃斯基和沃德·爱德华兹在杂志上发表了一个关于这种现象的简单演示。他们先展示了一个盒子,盒子上面有两盏灯。然后,他们告诉实验参与者,每盏灯打开的时间比是固定的,但是没有告诉他们这个比例到底是多少。接着,他们给这些实验参与者1000个机会,让他们观察是哪盏灯打开了,或者在不观察的情况下对结果下注。(与传统老虎机问题的设置不同,在这里,人们无法像“拉动拉把”那样在下赌注的同时就可以观察到结果,而是要等到实验结束,参与者才知道他们是否押中。)这个实验纯粹就是探索与利用之间的对抗,信息的获取与信息的利用正好矛盾。在大多数情况下,参与者都采取了一种明智的策略:先观察一段时间,然后把赌注押在看似最好的结果上,但是他们用来观察的次数总是太多了。到底多了多少?在一次实验中,两盏灯打开的时间比分别是60%和40%,两者之间的差别既不特别明显,也不至于难以察觉。在这种情况下,人们平均会选择观察505次,而其他495次的机会则被用来下注。但数学计算表明,他们只需观察38次,然后就应该开始下注,也就是说,可以留下962个机会,用来赢钱。
1700494842
1700494843
其他研究也得出了类似的结论。20世纪90年代,沃顿商学院的研究人员罗伯特·迈耶和施勇进行了一项研究。他们让人们从两个选择方案中做出选择。一个选择方案的回报概率已知,另一个则未知。具体来说,就是两个航空公司,其中一个名声较响、准点率已知,另一个则是没有记录的新公司。数学给出的最优策略是:为了使一段时间内准点到达的次数达到最大,在刚开始时应该只选择那家新航空公司,除非那家知名公司的准点率明显高于前者。只要那家知名公司的服务明显更好(也就是说,只要新公司的基廷斯指数低于知名公司的准点率),就应该立刻毫不犹豫地选择这家知名公司,而且再也不要回头。(在这种情况下,一旦你不再乘坐那家新公司的飞机,你就无法获得更多关于它的信息,因此它就没有了挽回信誉的机会。)但在实验中,即使新航空公司的服务非常好,选择尝鲜的人仍然很少;当这些尝鲜的人发现新航空公司服务不佳的时候,他们又往往不能及时调整自己的选择。而且,即使他们放弃其中一家航空公司,态度也不是十分坚决,而是继续来回变换自己的选择。在两家航空公司都不准点时,这种表现更加明显。所有这一切都与习惯性过度探索有关。
1700494844
1700494845
最后,心理学家马克·斯蒂维尔思、迈克尔·李和E.J.瓦根梅克斯利用四臂老虎机做了一个实验。在实验中,参与者有连续15次机会,从4个拉把中选择一个进行赌博游戏。然后,他们把参与者可能会使用的策略进行分类。结果表明,30%的策略接近于最优策略,47%的策略与赢留输变策略十分相似,22%的策略似乎是在新的拉把与目前为止成绩最好的拉把之间做出随机选择。研究结果再一次符合过度探索的特征,因为赢留输变以及偶尔随机尝试新拉把这两种行为都会导致人们尝试新鲜事物,即使在游戏快要结束、应该进入纯利用阶段的时候,他们也不愿意选择最佳方案。
1700494846
1700494847
也就是说,我们在招聘秘书时会过早地递出橄榄枝,但是在放弃新航空公司这个方面,我们的决定又往往来得过晚。不过,正如没有秘书帮忙需要我们付出成本,过早地选定一家航空公司也是有代价的,因为这个世界可能会发生变化。
1700494848
1700494849
标准多臂老虎机问题假设各个拉把的回报概率不会随时间发生变化,但是航空公司、餐厅以及需要人们做出重复选择的其他环境未必满足这个条件。如果各个拉把的回报概率随时间发生变化(人们称之为“不安分的老虎机”),问题的难度就会显著提高。(事实上,不安分多臂老虎机问题的难度非常高,目前还无法利用算法四平八稳地彻底解决这个问题。人们认为这样的算法永远也不会出现。)原因之一就是我们再也不能先探索一段时间,然后尽情地利用。既然世界是变化的,那么正确的选择可能就是继续探索。一家餐厅令你失望,于是你再也不愿意去那里用餐,但是过了几年之后,也许你应该再去一次,万一那里换了一名经理呢。
1700494850
1700494851
亨利·大卫·梭罗在他的著名散文《散步》中,说他喜欢在离家近的地方旅行,他从不厌倦周围的环境,并且马萨诸塞州的风光总是能给他一些新奇的发现。他写道:“在方圆十英里或者午后散步所及范围内的景物与七十载人间岁月之间,其实可以发现一种和谐,一种你永远不会觉得非常熟悉的和谐。”
1700494852
1700494853
生活在烦躁不安的世界里,我们也必须有一颗不安分的心。只要事物在不断变化,我们的探索就不能偃旗息鼓。
1700494854
1700494855
不过,即使在一个动荡不安的世界里,针对标准版本多臂老虎机问题精心打造的算法技术仍然可以找到用武之地。基廷斯指数、上限置信区间等策略可以提供相当优秀的近似解决方案及经验法则,在回报概率随时间变化的幅度不大时效果更加明显。今天,世界上很多事件的回报概率变化幅度比以前小得多。地里的果实这一周成熟了,到了下一周就会烂掉,但是,正如安迪·沃霍尔所说的,“一杯可乐就是一杯可乐”。通过进化来调整自己的直觉以适应不断变化的世界,在工业标准化时代未必有用。
1700494856
1700494857
也许最重要的是,考虑有最优解的多臂老虎机问题,不仅可以为我们提供各种算法,还可以让我们得到一些深刻的见解。在经典多臂老虎机问题研究中形成的一些语汇,诸如探索与利用的矛盾、剩余时间的重要性,0-0选择方案的高价值和最小遗憾值等,它们不仅可以帮助我们以全新的方式理解眼前的具体问题,还可以帮助我们以全新的视角看待整个人类生活。
1700494858
1700494859
1700494860
1700494861
1700494863
算法之美:指导工作与生活的算法 探索——孜孜不倦
1700494864
1700494865
虽然实验室研究具有启发性,但是在人们面对的许多重要问题中,剩余时间都非常长,无法在实验室中加以研究。学习了解周围世界的组织结构、建立持久的社会关系都是伴随我们一生的任务。因此,了解早期探索、后期利用的一般模式可以给我们启发。
1700494866
1700494867
所有发展心理学家都渴望理解和解释关于人类的一个奇怪现象:我们培养能力与自主性的过程往往需要持续好多年。北美驯鹿和瞪羚自出生之日起,就必须做好拼命奔跑以逃脱捕食者的准备,但是人类需要一年多的时间才能迈出自己的第一步。加州大学伯克利分校发展心理学教授、《摇篮里的科学家》一书的作者艾莉森·高普尼克在解释为什么人类有如此长的依赖期时说:“它让你学会以发展的方式来解决探索与利用之间的取舍。”我们已经看到,教我们玩多臂老虎机的优秀算法往往在刚开始的时候倾向于探索,在后期则倾向于对所获取的知识加以利用。但是正如高普尼克指出的:“这种做法有一个缺点——在探索阶段,你无法获得充分的回报。”因此,童年是人生的探索阶段。“在童年时期,你可以尽情探索各种可能性,而不必担心回报的问题,因为爸爸、妈妈、奶奶和保姆会帮你处理好。”
[
上一页 ]
[ :1.700494818e+09 ]
[
下一页 ]