1700496017
另一方面,当我们将正态分布作为贝叶斯法则的先验时,我们会得到一个非常不同的指导。我们会得到一个“平均”规则,而不是相乘法则:使用分布的“自然”平均数作为指导。例如,如果有人还没达到平均寿命,那么就直接将其年龄预测为平均值。随着他们的年龄增长并超过平均水平,就预测他们还会再活几年。遵循这一规律为90岁和6岁的两个人给出的合理预测年龄分别为94岁和77岁。(6岁的孩子的预测寿命比76岁的平均寿命略高是因为他已经顺利度过了婴儿期:这样我们就知道他不处于分布的尾端。)
1700496018
1700496019
电影的时长就像人类的寿命,也遵循正态分布:大多数电影都在100分钟左右,某些特殊的电影时长处于分布的两端。但并不是所有的人类活动都是这样的。诗人迪安·杨曾经说过,每当他听一首带编号的诗时,如果读者开始念第四节,他的心就会一沉:如果有三个以上的部分,杨就会重新开始,静坐细听。事实证明,杨的沮丧完美体现了贝叶斯法则。通过对诗的分析可发现,它不同于电影的时长,诗歌更接近于幂率分布而不是正态分布:因为大部分诗是短的,除了某些史诗。所以说到诗歌,首先你要确保有一个舒适的座位。正态分布的东西似乎太长了,最后必然会很快结束。但幂律分布的东西存在的时间越长,你可以预测它继续下去的时间就越长。
1700496020
1700496021
在这两个极端之间,生活中实际上还有第三种事物:那些不具有更大或更小可能性结束的事物,只因为他们已经持续存在了一段时间。有时候事情是简单的、不变的。丹麦数学家瓦格纳·厄兰研究了这种现象,他将独立事件之间的间隔形式化并推导出带有他名字的函数:厄兰分布。这条曲线的形状不同于正态分布或幂律分布:它有一个类似翅膀的形状,峰值上升较缓,尾部下降的趋势比幂律分布得快,但比正态分布得缓。在20世纪初,他为哥本哈根电信公司工作,用这种分布曲线来模拟在电话网络中连续通话的时间。自那以后,厄兰分布也被用于城市规划以及汽车和行人交通的建设模型中,并被网络工程师在设计互联网的基础设施时使用。自然世界中存在多个维度,其中发生的事件彼此也是完全独立的,它们之间的间隔从而就落在了厄兰曲线上。放射性衰变就是一个例子,这意味着厄兰分布完美地预测了盖革计数器的下一次提示声何时会发出。其在描述例如政客在众议院的任职时间这类的人类活动时也表现不俗。
1700496022
1700496023
厄兰分布给出了第三种预测法则——相加法则:总是预测事物只会再持续一个常量。我们经常听到的“只需5分钟!……(5分钟后)再给我5分钟!”这往往表现了人们的某种特征,比如说,当一个人准备离开房子或办公室,或完成一些任务的最后时间,这似乎预示着在对现实做出估计时可能出现的一些慢性故障。不过,在一个人不符合厄兰分布的情况下,无论如何,这种话都可能是正确的。
1700496024
1700496025
例如,如果一个赌场纸牌爱好者告诉他不耐烦的配偶,他会在赢得一次21点后就停手(赢的概率约为20:1),他会很高兴地预测:“我再买20次就会赢了!”20次后她又回来,问他要让她再等多久,那么,他的答案将是不变的:“我再买大约20次就会赢!”这听起来像是我们这位不懈的赌鬼已经进入短期记忆丧失模式了,但事实上,他的预测是完全正确的。事实上,无论他们过去或目前的状态是怎样的,分布结果会产生相同的预测,这一结果被统计学家称为“无记忆性”。
1700496026
1700496027
这三个非常不同的最佳预测模式——相乘法则、平均法则和相加法则都是通过将贝叶斯法则应用到幂律、正态和厄兰分布上得出结果的。因为这些预测的出现,这三种分布也给我们提供了不同的指导,让我们知道对某些事件应该有多惊讶。
1700496028
1700496029
在幂律分布中,某个事物已经存在的时间越长,我们可以预测它继续存在的时间也就越长。因此,幂律事件让我们等待的时间越长,就会让我们更加惊奇,尤其在它发生前的一刻。一个国家、一个公司或一个机构,年复一年地变得更加强大,所以当它崩溃时总是令人震惊。
1700496030
1700496031
在正态分布中,如果事件提前发生就会令人惊讶,因为我们期望它们达到平均水平,但当它们推迟发生时不会如此。的确,到了这一点,它们似乎推迟发生了,所以我们等待的时间越长,我们就会越期待。
1700496032
1700496033
在厄兰分布中,通过定义的事件无论何时发生都不会给我们带来更多或更少的意外。任何事情的状态都有可能结束,不管它已经持续了多久。毫无疑问,政治家总是会对他们下一次的选举进行准备。
1700496034
1700496035
赌博的特点类似于稳态预期。例如,如果你所等待的轮盘赌注的胜利是呈正态分布的,那么平均法则将适用于此:在一个坏运气后,它会告诉你,你的号码应该会随时中奖,在输了更多次之后会更快出现。(在这种情况下,它的影响会持续到下一次胜利,然后停止。)相反,如果你等待的胜利呈现幂律分布,那么相乘法则会告诉你胜出盘会一次接着一次出现。(在这种情况下,如果你这局胜出了就应该继续下注,如果长时间没有胜出就该停手。)然而,当面对无记忆分布时,你就进退两难了。相加法则告诉你,现在赢的机会和一小时前一样,一小时后也如此。一切都没有什么变化。你没有因为长时间的等待而得到大奖,也没有一个转折点会告诉你何时应该停止你的损失。在电影《赌棍》中,肯尼·罗杰斯提出了一个著名的建议,他说,你必须“知道什么时候走开,或知道什么时候继续”,但对于无记忆分布而言,没有一个绝对正确的退出时间。这可能就是为什么这些游戏会让人上瘾的部分原因。
1700496036
1700496037
1700496038
1700496039
1700496040
不同的先验分布及其预测法则
1700496041
1700496042
知道你所面对的是什么样的分布十分重要。当哈佛大学的生物学家和作家斯蒂芬·杰伊·古尔德发现自己得了癌症后,他的第一个念头就是去阅读相关的医学文献。然后他发现为什么他的医生会劝阻他这样做:患他这种癌症的病人有一半在确诊8个月内死亡。
1700496043
1700496044
但是这一个统计数字(8个月)并没有告诉他任何关于幸存者的分布。如果这是一个正态分布,那么平均法则将给出一个相当明确的预测,告诉他还可以活多久:约8个月。但是,如果它是幂律分布,尾部延伸到右侧,那么情况就会大不相同:相乘法则会告诉他,他活得越久,就会有越多的证据证明他能活得更长。进一步阅读后,古尔德发现:“分布确实是强烈右偏,长(但比较小的)尾巴延长数年以上,都超过8个月的中位数。我看不出我为什么不应该待在那条小尾巴上,我长长地松了一口气。”古尔德在确诊后又活了20年。
1700496045
1700496046
1700496047
1700496048
1700496050
算法之美:指导工作与生活的算法 小数据与思维
1700496051
1700496052
三个预测法则——相乘、平均和相加适用于日常生活的各个方面。在这种情况下,人们一般都非常善于使用正确的预测法则。汤姆在读研究生时,和麻省理工学院的乔希·特南鲍姆一起进行了一个实验,实验要求人们对生活中的各种常量进行预测,如人类的寿命、电影的票房以及众议院议员任职时间等,每个问题只提供一条信息:现年龄、现票房或现任职时间。然后,他们比较了人们所预测的结果和应用贝叶斯法则的结果。
1700496053
1700496054
事实证明,人们所做的预测与贝叶斯法则所得出的预测非常接近。直觉上,人们做出不同类型的预测也是遵循在现实世界中的不同分布——幂律、正态和厄兰分布。换句话说,虽然你可能不知道或不清楚某种情况是需要用相乘法则、平均法则,还是相加法则,但你每天做的预测往往隐含在这些分布中,它反映了日常生活中出现的不同情况,以及不同的行为方式。
1700496055
1700496056
根据我们对贝叶斯法则的了解,这一出色的人类表现显示了可以帮助我们进行预测的重要因素。小数据是大数据的变相。往往,我们能从少量的或一个单一的观察结果得出正确预测结果的原因是,我们在这方面的先验如此丰富。不管我们是否知道,我们似乎已经在头脑中储存下惊人准确的先验,例如关于电影的票房和时长、诗的长度,以及任职时间,更不用说人类的寿命。我们不需要特意收集这些先验,因为我们从这个世界中不停地吸收着它们。
1700496057
1700496058
事实上,就整体而言,人们的直觉似乎接近于贝叶斯法则的预测,也可以将各种先验分布逆向转换,即使这很难得到权威的真实数据。例如,对客户服务保持不变是人类经验中一个相当常见的一面,但没有公开的数据集表明好莱坞票房收入的保持时间。但是,如果人们是通过他们的经验进行预测,我们就可以使用贝叶斯法则,通过挖掘人们的期望对世界进行间接探测。当汤姆和乔希要求人们从一个单一的数据点来预测保持时间时,结果表明受试者使用的是相乘法则:人们预计的总等待时间是他们等待时间的一倍多。这与将幂律分布作为先验相一致,其中广泛的尺度也是可能的。只希望你不要因为等待时间而终结在“泰坦尼克号”上。在过去的10年中,这样的方法使认知科学家能够从视觉、语言等各个领域识别人类的先验分布。
1700496059
1700496060
然而这里有一个关键的警示。在我们没有良好先验的情况下,我们就无法很好地预测。例如,在汤姆和乔希的研究中有一个主题,人们的预测在这个主题上全都系统地偏离了贝叶斯法则,那就是预言埃及法老统治的长度。(恰巧,法老王的统治遵循厄兰分布。)在这个问题中,人们只是没有足够的日常接触以产生一个直观的感觉范围的价值观,所以他们的预测肯定也十分困难。准确的预测需要充足的先验知识。
1700496061
1700496062
这具有许多重要的含义。我们的判断背叛了我们的预期,我们的期望又背叛了我们的经验。我们对未来的计划揭示了我们生活的世界以及我们自己经历过的方方面面。
1700496063
1700496064
1700496065
1700496066
[
上一页 ]
[ :1.700496017e+09 ]
[
下一页 ]