打字猴:1.701066093e+09
1701066093 复杂 [:1701064752]
1701066094 第7章 度量复杂性
1701066095
1701066096 这本书讲的是复杂性。但是到现在书中还没有严格定义这个术语,也没有明确回答以下问题:人类大脑比蚂蚁的大脑复杂吗?人类基因组是不是比酵母菌的基因组复杂?生物的复杂性在进化过程中是不断增加吗?直观上这些问题的答案太明显不过了。然而,要想得出一个公认的复杂性定义,来回答这些问题,其中的困难却超乎想象。
1701066097
1701066098 2004年我曾在圣塔菲复杂系统暑期班上组织过一个研究小组。那一年有点特别,因为是圣塔菲研究所创建20周年。小组中有圣塔菲一些最杰出的学者,包括法墨尔(Doyne Farmer)、克鲁奇菲尔德(Jim Crutchfield)、弗瑞斯特(Stephanie Forrest)、史密斯(Eric Smith)、米勒(John Miller)、胡伯勒(Alfred Hübler)和艾森斯坦(Bob Eisenstein)——都是物理、计算机、生物、经济和决策论等领域的知名学者。暑期班的学生——研究生和博士后层次的青年科学家——在讨论班上可以提问。第一个问题就是:“复杂性该怎样定义?”听到后大家都笑了起来,因为这个问题是如此直截了当,如此让人期待,然而又是如此难以回答。然后多位学者对这个术语给出了各种不同的定义,接着彼此之间又产生了一些争论。学生们都一头雾水。就连圣塔菲这个复杂系统领域最著名研究所的学者对复杂性的定义都达不成共识,复杂性科学又是如何产生的呢?
1701066099
1701066100 答案是复杂性科学不止一个,而是有好几个,每个对复杂性的定义都不一样。其中一些定义很正式,一些则不那么正式。如果想要有统一的复杂性科学,就得弄清楚这些正式或非正式概念之间的关联。要对过于复杂的复杂性概念进行尽可能的提炼。这项工作目前还远未结束,也许还要等待那些被搞得一头雾水的下一代科学家来完成。
1701066101
1701066102 我希望那些同学不要对此太过诧异。只要了解一点科学史就能明白,核心概念缺乏公认的定义是很普遍的。牛顿对力的概念就没有很好的定义,事实上他不是很喜欢这个概念,因为它需要一种魔术般的“远距离作用”,而这在对自然的机械论解释中是不允许的。遗传学作为生物学领域发展最快和最大的学科,对于如何在分子层面上定义基因的概念  [86]  也没有达成一致。天文学家发现宇宙95%都是由暗物质和暗能量组成,却不清楚暗物质和暗能量到底是什么。心理学家对思维和概念也没有明确的定义,更不知道它们在大脑中对应的是什么。这还只是部分例子。科学的进步往往就是通过为尚未完全理解的现象发明新术语实现的:随着科学逐渐成熟,现象逐渐被理解,这些术语也逐渐被提炼清晰。例如,物理学家现在就理解了自然界中所有的力都是四种基本力的组合:电磁力、强相互作用、弱相互作用、引力。基本粒子“远距离作用”的现象也已经被理论化。在量子力学中发展出描述四种基本力的统一理论是物理学现在面临的最大挑战。也许将来我们也会将“复杂性”分解成几个基本方面,并最终将这几个方面结合起来,形成对复杂现象的全面理解。
1701066103
1701066104 2001年,物理学家劳埃德(Seth Lloyd)发表了一篇文章,  [87]  提出了度量一个事物或过程的复杂性的三个维度:
1701066105
1701066106 描述它有多困难?
1701066107
1701066108 产生它有多困难?
1701066109
1701066110 其组织程度如何?
1701066111
1701066112 劳埃德列出了40种度量复杂性的方法,这些方法分别是从动力学、热力学、信息论和计算等方面来考虑这三个问题。我们已经了解了这些概念的背景,现在我们可以来看看其中一些定义。下面我会通过比较人类基因组与酵母菌基因组的复杂性来阐释这些定义。人类基因组大约有30亿组碱基对(即核苷酸对)。据估计人类大约有25000个基因——也就是对蛋白质进行编码的区域。让人吃惊的是,只有2%的碱基对组成了基因;其余的非基因部分被称为非编码区。非编码区有几个功能:其中一些用来防止染色体解体;一些则帮助调控真正基因的运作;有一些则可能是没有任何作用的“垃圾”或者功能还没有被发现。
1701066113
1701066114 你肯定听说过人类基因组计划,但你可能不知道还有一个酵母菌基因组计划,这个计划的目标是测定几种酵母菌的完整DNA序列。测出的第一种被发现大约有1200万组碱基对和6000个基因。
1701066115
1701066116 复杂 [:1701064753]
1701066117 用大小度量复杂性
1701066118
1701066119 复杂性的一个简单度量就是大小。根据这个度量,如果比较碱基对数量,人类比酵母复杂250倍,如果比较基因数量,人类则只比酵母复杂4倍。
1701066120
1701066121 250倍还是蛮多的,看来人类还是挺复杂,至少比酵母复杂。不过单细胞变形虫的碱基对是人类的225倍,拟南芥的基因与人类的大致一样多。
1701066122
1701066123 人类显然要比变形虫或芥菜复杂,至少我希望是这样。这就表明用基因组的规模来度量复杂性并不合适;我们的复杂性应该是某种比碱基对或基因的绝对数量更深刻的东西(图7.1)。
1701066124
1701066125 复杂 [:1701064754]
1701066126 用熵度量复杂性
1701066127
1701066128 另一种直接的复杂性度量就是香农熵,在第3章曾将香农熵定义为信息源相对于信息接收者的平均信息量或“惊奇度”。举个例子,假设消息由符号A、C、G和T组成。如果序列高度有序,很容易描述,例如“A A A A A A A……A”,则熵为零。完全随机的序列则有最大可能熵。
1701066129
1701066130
1701066131
1701066132
1701066133 ▲图7.1从左上角依顺时针分别是:酵母、变形虫、人类、拟南芥。哪个最复杂?如果用基因组长度度量复杂性,那变形虫毫无疑问会跑冠军(如果它有腿的话)。[酵母照片来自NASA(http://www.nasa.gov/mission_pages/station/science/experiments/Yeast-GAP.html);变形虫照片来自NASA(http://ares.jsc.nasa.gov/astrobiology/biomarkers/_images/amoeba.jpg);拟南芥照片由Kirsten Bomblies提供;人类照片来自范维尔(John van Wyhe)编辑的网上达尔文作品全集(http://darwin-online.org.uk/),经许可引用]
1701066134
1701066135 用香农熵度量复杂性有一些问题。首先,所针对的对象或过程必须像上面一样转换成某种“消息”的形式。这并不总是那么容易做到,例如,人类大脑的熵该怎么度量呢?另外,随机消息的熵最高。我们可以随机排列A、C、G和T来人工构造一个基因组,这个随机的基因组几乎不可能有用,却会被认为比人类基因组更复杂。很显然,正是因为基因组不是随机的,而是不断进化从而让基因更有利于我们的生存,例如控制我们的眼睛和肌肉发育,才使得人类如此复杂。最复杂的对象不是最有序的或最随机的,而是介于两者之间。简单的香农熵不足以抓住我们对复杂性的直观认识。
1701066136
1701066137 复杂 [:1701064755]
1701066138 用算法信息量度量复杂性
1701066139
1701066140 人们提出了许多改进方法来用熵度量复杂性。其中最著名的方法由柯尔莫哥洛夫(Andrey Kolmogorov)、查汀(Gregory Chaitin)和索罗蒙洛夫(Ray Solomonoff)分别独立提出,他们将事物的复杂性定义为能够产生对事物完整描述的最短计算机程序的长度。这被称为事物的算法信息量。  [88]  “例如,考虑一个很短的(人工)DNA序列:
1701066141
1701066142 A C A C A C A C A C A C A C A C A C A C(序列1)
[ 上一页 ]  [ :1.701066093e+09 ]  [ 下一页 ]