1700517172
1700517174
天才与算法:人脑与AI的数学思维 普希金、诗歌和概率
1700517175
1700517176
弗朗索瓦·帕切特(François Pachet)在年轻时,梦想成为一名音乐家,这样他就可以像自己的偶像一样,能写出热门歌曲,还能抱着吉他帅气地自弹自唱。尽管在作曲方面没少下功夫,但最终他还是成了一个人工智能工程师。在巴黎担任索尼计算机科学实验室(Sony Computer Science Laboratory)主任期间,帕切特发现人工智能领域的学习工具可以帮他完成作曲的梦想。他使用概率论中的马尔可夫链公式写出了世界上第一首人工智能即兴爵士乐,并创造了世界上第一个可以进行爵士乐写作的算法。
1700517177
1700517178
迄今为止,我们在许多的算法中都可以看到马尔可夫链在起着重要的作用,这些算法是很多应用的基本工具:从模拟化学反应、经济趋势,到互联网导航,再到评估生物种群、人口动态。可是,俄国数学家安德烈·马尔可夫(Andrey Markov)选择检验自己理论的,不是科学,而是普希金的诗。
1700517179
1700517180
马尔可夫的发现源于其与另一位俄国数学家帕维尔·涅克拉索夫(Pavel Nekrasov)的争论。概率论的核心之一是“大数定律”[1] ——如果你有一枚硬币,而每抛一次硬币都完全独立于上一次抛硬币,那么当你多次抛硬币时,正面和反面出现的次数之比就会越来越接近于一半对一半的比例。抛掷硬币4次,全是正面的概率是1/16,但随着抛硬币次数的增加,偏离对半分概率的可能就会降低。
1700517181
1700517182
帕维尔·涅克拉索夫和马尔可夫的观点恰恰相反,他认为,现实世界中的事物是相互依存的(比如人的行为),所以现实中的事物并不恰好符合数学模式或分布。如果统计数据遵循大数定律,那么它的假设必是每个事件都是完全独立的。涅克拉索夫试图用这样的例子来证明,俄国的犯罪率统计是遵循大数定律的,但事实上,罪犯决定犯罪都是由个人意志决定的。
1700517183
1700517184
马尔可夫对涅克拉索夫错误的逻辑感到沮丧,他评价涅克拉索夫的论调是“对数学的滥用”,并决心证明其是错误的。因此,马尔可夫需要建立一个模型,在这个模型中,结果的概率取决于以前发生的事件,但长期来看仍然遵循大数定律。抛硬币的结果并不取决于以前抛硬币的结果,所以这不是马尔可夫理想的模型。但是,如果增加一点依赖关系,使下一个事件取决于刚刚发生了什么,而不是整个系统如何影响了当前事件,又会怎么样呢?每个事件的概率仅取决于先前事件的一系列事件被称为马尔可夫链。预测天气就是一个例子:明天的天气肯定取决于今天的天气,但并不特别依赖于上周的天气。
1700517185
1700517186
我们来看以下模型。天气有晴天(S)、阴天(C)和雨天(R)。如果今天是晴天,那么明天就有60%的可能是晴天,30%的可能是阴天,10%的可能是雨天。但是如果今天是阴天,那么明天天气的可能性就会变化:明天下雨的可能性就变成了50%,阴天的可能性是30%,晴天的可能性是20%。在这个模型中,明天的天气只取决于今天的天气。即使我们已经有两周连续的晴天也没有关系,只要今天阴天,那么明天就有50%的概率下雨。这个模型的最后一部分是,如果今天是雨天,那么明天有40%的可能是晴天,10%的可能是阴天,50%的可能是继续下雨。让我们用矩阵来描述这些概率:
1700517187
1700517188
1700517189
1700517190
1700517191
用这个模型,我们可以计算出两日后下雨的概率。当然,有好几种途径可以得到下雨的结果,所以我们需要把所有可能的概率都考虑进来。它可能是SSR,可能是SCR,还可能是SRR:
1700517192
1700517193
SSR的概率=SS的概率×SR的概率=0.6×0.1=0.06
1700517194
1700517195
SCR的概率=SC的概率×CR的概率=0.3×0.5=0.15
1700517196
1700517197
SRR的概率=SR的概率×RR的概率=0.1×0.5=0.05
1700517198
1700517199
这意味着两日后下雨的概率是0.26或26%(我们用SxS=0.06+0.15+0.05来表示)。
1700517200
1700517201
计算两日后下雨的可能性,还有一种简便的方法,就是将我们前面描述概率的矩阵进行平方。
1700517202
1700517203
1700517204
1700517205
1700517206
尽管每天的天气都依赖于前一天的天气,但从长远来看,无论我们的模型是从晴天、雨天还是阴天出发,下雨的概率都会趋向于相同的数值(32.35%)。为了证实这一点,我们可以提高矩阵乘方的指数来进行验证,结果我们会发现每一行都会趋向于相同的概率。因此,即使明天的天气依赖于今天的天气,长期的天气预报也与今天的天气无关。
1700517207
1700517208
下面这个矩阵每一行表示的是十天后晴天、阴天或雨天的概率。通过数据我们可知,今天的天气是什么并不重要(即我们选择哪一行来观察),第十天的概率总是相同的。马尔可夫设计的这个试验,彻底证明了涅克拉索夫的观点是错误的——从长期犯罪统计数据来看,罪犯决意犯罪是由个人自由意志决定的,这个论点是站不住脚的。
1700517209
1700517210
1700517211
1700517212
1700517213
马尔可夫决定使用一首在俄国家喻户晓的著名诗歌——普希金(Pushkin)的《尤金·奥涅金》(Eugene Onegin)来阐释他的模型。他所做的分析并不是要给这首诗提供新的文学见解,而只是用它作为一个数据集来分析元音和辅音的出现概率。他提取了这首诗的前20 000个字母(大约占整首诗的1/8),计算了元音和辅音出现的次数。虽然计算机可以在一瞬间完成这项工作,但是马尔可夫坐下来,自己一个一个地计算元音和辅音出现的次数。他最终得出的结论是,元音占总数的43%,辅音占总数的57%。如果随机提取一个字母,那么很大可能它是一个辅音。他感兴趣的是,知道前一个字母是辅音还是元音是否会改变你对当前字母的猜测。换句话说,下一个字母是辅音的概率是否取决于前一个字母是不是辅音?
1700517214
1700517215
经过对文本的分析,马尔可夫发现,一个辅音后面会跟着另一个辅音的概率是34%,而辅音后面会跟着一个元音的概率是66%。尽管前几个字母在很大程度上取决于起始字母的选择,但是马尔可夫证明,从长远来看,字母的分布是一种模式。因此,即使是相互依赖的事件,如果它们受到固定概率的影响,也是一致的。这其实并不令人意外,因为大多数单词的拼写往往都是辅音和元音交替出现的。经过统计计算,他发现元音后接元音的概率只有13%。因此,可以说《尤金·奥涅金》为马尔可夫提供了一个完整的模型,帮助他阐释了自己的想法。
1700517216
1700517217
马尔可夫链的一个重要性质就是其是无记忆的:在当前状态下,你可能需要一切可用的事件来预测下一个事件。这种无记忆性也叫马尔可夫属性。有时可以通过考虑前两种状态如何影响下一种状态来改进模型。(以《尤金·奥涅金》试验为例,了解前两个语音元素,可能有助于增加推测下一个语音元素的正确概率。)但在某种程度上,这种依赖性是不存在的。
1700517218
1700517219
1700517220
1700517221
[
上一页 ]
[ :1.700517172e+09 ]
[
下一页 ]