1701068212
根据词频降序排列,频数最高的词排第一(“the”),频数第二高的词排第二,等等。一些词的频数一样(例如,“a”和“sleep”都出现了5次),对于这种情况随机排序。
1701068213
1701068214
在图17.5中画出了“生存还是毁灭”的词频与排名的关系。图的形状接近幂律。如果选取的文本更多,图形会更接近幂律。
1701068215
1701068216
齐普夫用这种方法分析了大量文本(没有借助计算机),他发现,对于大规模文本,词频大致正比于其排名的倒数(也就是1/排名)。这是指数为-1的幂律。排名第二的词的频数大约是排第一的词的一半,第三大约是1/3,等等。这个关系现在被称为齐普夫定律 [281] (Zipf’s law),这可能是最著名的幂律。
1701068217
1701068218
1701068219
1701068220
1701068221
▲图17.5 齐普夫定律,以莎士比亚的独白“生存还是毁灭”为例
1701068222
1701068223
对齐普夫定律有各种解释,齐普夫自己提出,一方面,人们一般都遵循“最省力原则(Principle of Least Effort)”:一旦用到了某个词,对类似的意思再用这个词就比换其他词要省力。另一方面,人们希望语言没有歧义,这又需要用不同的词来表示相似却又不完全一样的意思。齐普夫从数学上证明了这两种倾向在一起会产生观察到的幂律分布。
1701068224
1701068225
20世纪50年代,因发现分形而闻名的曼德布罗特从信息量的角度提出了不同的解释 [282] 。借鉴香农的信息论(参见第3章),曼德布罗特将词视为“讯息”,发送者在将信息量最大化的同时尽量将发送信息的成本最小化。例如,“feline”和“cat”的意思都是猫,但后者更短,因此传送成本也更低(或者更节省能量)。曼德布罗特证明,如果同时优化信息量和传送成本,就会导致齐普夫定律。
1701068226
1701068227
几乎同时,西蒙(Herbert Simon)也提出了一种解释 [283] ,可以说是偏好附连的前身。西蒙设想一个人每次向文本中添加一个词。他认为,人们重用一个词的概率正比于这个词在文本中的当前频数。没出现过的词具有同样的非零概率。西蒙证明这个过程产生的文本会遵循齐普夫定律。
1701068228
1701068229
对于曼德布罗特和西蒙的解释哪个正确,争论很激烈 [284] (从《信息与控制》杂志不断收到的信件可见一斑)。
1701068230
1701068231
结果,几乎与此同时,让所有人都大跌眼镜,心理学家乔治·米勒(George Miller)使用简单的概率论证明, [285] 让猴子在键盘上随意敲击,如果(偶然)敲到了空格键就断词,这样得出的文本同样遵循齐普夫定律。
1701068232
1701068233
20世纪30—50年代针对齐普夫定律提出的许多解释是目前针对自然界中产生幂律的物理或信息机制的争论的缩影。理解幂律分布的根源、意义和在各学科中的共性,是目前许多复杂系统研究领域最为重要的未解决的问题。我相信,随着这些现象背后的科学越来越清晰,你还会不断听到这个问题的消息。
1701068234
1701068236
第18章 进化,复杂化
1701068237
1701068238
在第1章我曾问过:“生物进化是如何产生出个体如此简单、整体上又如此复杂的生物呢?”通过书中的例子我们可以看到,对生命系统的理解越深入,就越感到惊讶,这样精巧的复杂性居然是通过有利突变和历史偶然的逐步积累形成的。这也正是从达尔文时代到现在神创论或其他超自然“智能设计”的拥护者论证的依据。
1701068239
1701068240
进化是如何创造出复杂性,或者说是否能创造复杂性,以及生物复杂性该如何刻画和度量,这些问题都还没有解决。复杂系统研究几十年来最重要的贡献之一就是为这些老问题提供了一些新的研究途径。这一章我将介绍遗传学和基因调控动力学的最新发现,它们为我们带来了一些关于复杂系统进化的惊人的新认识。
1701068241
1701068243
遗传,复杂化
1701068244
1701068245
在科学研究中,经常有一些新的技术会打开新发现的闸门,从而改变以前建立起来的对研究领域的认识。回到第2章我们可以看到一个这样的例子——计算机的发明使得为天气这样的复杂系统建模仿真成为可能,并因此揭示了混沌的存在。最近,超级天文望远镜的建造在天文学领域导致了关于所谓的暗物质和暗能量的许多新发现,因此引发了对之前的宇宙学知识的重新审视。
1701068246
1701068247
过去四十年中,没有什么技术的影响比得上所谓的分子革命对遗传学的影响。对DNA进行快速复制、测序、合成,实施DNA工程,对分子层面的结构进行成像,同时观察数以千计不同基因的表型,这些技术还只是20世纪末21世纪初生物技术取得成就的一小部分。随着新技术的出现,生物学家们可以更细致地观察细胞,更多出人意料的复杂性也随之出现。
1701068248
1701068249
在沃森和克里克发现DNA结构之后,DNA基本被视为由基因组成的序列,每个基因编码一种特定的蛋白质,在细胞中实现一定的功能。基因序列本质上被视为细胞的“计算机程序”,通过RNA、核糖体等物质的译码和执行,合成出相应的蛋白质。DNA在复制过程中会有小的随机变化;对有利变化的长期积累最终会导致生物的适应性变化,并产生新的物种。
1701068250
1701068251
这种传统观念在过去40年中已经发生了巨变。分子革命一词不仅指遗传学中的新技术,也指这些技术带来的对DNA、基因和进化本质的革命性新观点。
1701068252
1701068254
基因是什么
1701068255
1701068256
分子革命的一个诱因就是基因概念本身。第6章描述的DNA的机制仍然是成立的——染色体中包含DNA,通过转录和译码产生蛋白质——但这只是故事的一部分。下面来看看部分新近发现的许多现象,这些现象关注的是基因和遗传的运作机制。
1701068257
1701068258
◆基因并不像“一根绳子上串着的豆子”。我在中学学生物时,基因和染色体被解释比喻成一根绳子上串着的豆子(我记得我们还用塑料豆子组装过模型)。后来发现基因并不是相互分开的。有些基因相互重叠——也就是说,它们各自编码不同的蛋白质,但是共用DNA核苷酸。有些基因甚至完全包含在其他基因内部。
1701068259
1701068260
◆基因可以在染色体上移动,甚至移动到其他染色体。你也许听说过“跳跃基因(jumping genes),”实际上基因是可以移动的,染色体的组成也会被重新排列。这在任何细胞中都有可能发生,包括精子和卵子,也就是说可以遗传。这样产生的变异率比DNA复制错误导致的变异率要高得多。一些科学家提出,近亲甚至同卵双胞胎之间的差别可能就是这种“可动遗传因子 [286] (mobile genetic element)”造成的。还有人提出,跳跃基因是导致生命多样性的机制之一。
1701068261
[
上一页 ]
[ :1.701068212e+09 ]
[
下一页 ]