打字猴:1.700255018e+09
1700255018 为了帮助你理解这种情况有多复杂,我们先从更简单的情况开始讨论,最简单的化学世界莫过于只有一种化学反应。在那个世界的代谢图书馆里只有两本馆藏。一本的内容是“1”,由唯一的一种化学反应构成;而另一本是“0”,代表该种代谢类型不具有该反应。图3-5中a图的两个端点和连接两者的直线就代表这种情况。
1700255019
1700255020 比直线稍微丰满一点的世界由两个化学反应构成,相应的代谢图书馆规模将扩建到4(22)种可能的馆藏。其中之一同时拥有两种反应(11),有两种代谢型拥有两个反应的其中一个(10,01),第四种代谢型则同时缺乏两种反应(00)。如图3-5的b图所示,这种情况下,每个代谢基因型就如同一个正方形的四个顶点。
1700255021
1700255022 可能你已经明白我接下来要说的事了。下一个级别的世界里包含了三种化学反应以及8(23)种可能的代谢类型,我们用一个立方体的顶点表示这8种代谢。而在一个包含4种化学反应的世界里,我们能够得到16(24)种可能的代谢型,但是哪种几何图形能够与之对应呢?随着例子中化学反应的数量从一到二再到三,对应的代谢型分别占据了一条直线、一个正方形和一个立方体的顶点,不同的几何图形又分别对应一维、二维和三维空间。尽管四维或者更高维度的空间很难用视觉图形的方式呈现,但和它们打交道依旧是数学家们的家常便饭,因为他们能够将已有的几何规则演绎到这些多维空间中。
1700255023
1700255024 就像四边形和立方体,我们所寻找的几何图形的每条边长都应当相同,不同的边相交需要形成一个恰当的角度。如此我们便能够找到一个四维的超立方体。图3-5中的d图就以几何技法展示了超几何体在平面上的视觉效果。具有四维空间的超立方体有16个顶点,每一个顶点对应一种代谢类型,即从0000到1111,不过我们并没有在图中一一标记出。
1700255025
1700255026
1700255027
1700255028
1700255029 图3-5 超立方体
1700255030
1700255031 这种绘图的方式在面对五维空间时就显得力不从心了,遑论更高维的空间。不过虽然把高维空间的图形视觉化有点不切实际,但是它们依旧遵循与三维空间的图形一样的原则:边等长、恰当的角度以及与每一种代谢型相对应的顶点。符合这些原则的高维度几何图形,其性质恰好符合代谢图书馆的需要。
1700255032
1700255033 一个正方形有4个顶点,在立方体中这个数字会翻倍到8,而在一个四维的超立方体中顶点数量会变为16。空间每增加一个维度,对应几何体的顶点数量就翻一倍。当我们讨论五千维空间的时候,顶点数量就达到了25000个,也就是代谢图书馆的规模。换句话说,我们可以把这些馆藏摆放在一个五千维空间里的超几何体的顶点上。面对五千维空间,身处卑微三维空间的我们几乎束手无策,这就是为什么代谢图书馆里不能用现成的普通书架。它需要一个五千维的解决方案才能维持馆内的运营。
1700255034
1700255035 除了馆藏的摆放问题,超几何体还可以很好地解决馆藏之间的相邻问题。在相对简单的三维空间里,每一本图书馆的馆藏,也就是立方体的每个顶点,都与另外三个顶点相连。我们以其中一个顶点为例,比如图3-5 c图中的数列100,你可以沿着从该点伸出的边到达与100相邻的顶点。与之相邻的顶点要么比100多出第三种反应,对应的代谢编号为101;要么比100多出第二种反应,对应的代谢编号为110;或者缺乏第一种反应,对应的代谢编号为000。所有相邻的顶点:101、110以及000,都与100仅相差一位数字。立方体中任何一个顶点的情况都与例子中的这个顶点一样:它们都与三个其他顶点相关联。
1700255036
1700255037 类似地,五千维的超几何体中,每一种代谢型都和与维度数一样多的其他顶点相邻,也就是5 000个。从每个代谢型所在的顶点出发,你有5 000个方向可以选择,只需要跨出一步,你就可以到达5 000个与之关联的顶点中的一个,而且相邻的代谢型都只相差一种化学反应。要么多一种,这种情况下某一个编号中的0就是另一个相邻编号中的1;要么少一种,也就是某个1变成0。
1700255038
1700255039 生物进化的过程就像参观代谢图书馆,基因删除和基因转移就是生命在图书馆里移动的方式,让它们从一本馆藏跳到下一本,而通常就是相邻的那一本。每本书相邻的所有其他书可以被称为一个“社区”(neighborhood),对于生物进化来说,这个社区如同现实生活中真实的城市社区,对人们的生活而言,具有同等的重要性。城市社区的有用之处体现在它的便捷性上:人们需要的东西都在几步之遥,代谢图书馆的“社区”也是一样的道理。进化只需要对基因型进行微不足道的一点修改,就可以搬进自己邻居的家里。不过城市社区里的居民只能沿着东、南、西、北四个基本的方向行走,而进化有5 000个不同的方向可去。(这个复杂的场面你最好连想都不要去想。)因此,一种代谢型身处的社区肯定比你所在的小区有趣且丰富得多。我们很快就将看到,代谢图书馆惊人的多样性在进化的创造性中具有的重要性。
1700255040
1700255041 随着时间的推移,某种生物基因组中积累的改变越来越多,它也渐行渐远,进而到达图书馆内距离更远的书架。为了估算距离,我们需要寻找一种度量的手段。没有度量的能力,我们就无从得知进化如何周旋于不同的书架之间,图书馆就像一个迷宫,我们将迷失在毫无意义的书堆之间。幸运的是,我在研究中所用的基因型差距值D可以胜任度量的工作。D值能够代表图书馆中两个代谢文本之间的距离大小,事实上,它已经告诉我们某些生物的代谢型相距甚远。除此之外,它为我们提供的另一个洞见才是重点:代谢进化能够在代谢图书馆中穿越惊人的距离,而许多进化的文本不管披着何种外衣,它们诉说的故事寓意都是相似的。
1700255042
1700255043
1700255044
1700255045
1700255046 终有一天我们将能够破译数以百万计的代谢文本,但是对于超宇宙数量级的代谢图书馆来说,这也不过是沧海一粟,甚至仅仅是宇宙中的几粒尘埃而已,代谢图书馆里的馆藏远远超过地球上所有曾经存在过的生命的总和。尽管已经经历了38亿年的进化,生命依旧只是徘徊在图书馆的某个角落。
1700255047
1700255048 在生物进化的数十亿年间,大自然完全不需要顾虑会在宇宙图书馆的下一个拐角遇到什么样的新馆藏。但是如果人类希望理解图书馆,而不是在其中漫无目的地游荡,我们就要学会在图书馆里寻找那些有意义的生命文本。不仅如此,我们还要学会对已知的文本进行分类,如同杜威十进制图书分类法[14]或是美国国会图书馆分类法[15]那样,先按照不同的主题进行归类,如艺术史、经济学、语言学……然后再以更小的类别细分,比如语言学中还可以分为罗曼语、德语、斯拉夫语等。代谢的表现型,也就是代谢基因文本的具体含义,是代谢图书馆天然具有的分类方式。代谢图书馆里的馆藏比现实图书馆中的书要多得多,不过这仅仅是因为代谢图书馆本身的规模过于庞大。
1700255049
1700255050 分类法就如同一张探索代谢图书馆的地图,我们如果想要某种表现型,那么一张基因型-表现型地图可以指引我们去哪里寻找它的基因型。如果没有这张地图,我们就无从得知题材类似的馆藏是摆放在一起还是散落于图书馆内各处,虽然在人类的图书馆里它们总是被安排在一起;我们也不知道同一个书架上是否会陈列主题不同的作品,凡此种种。由于没有图书管理员,所以我们需要像古埃及时期游历世界绘制大陆形状的航海家们一样,通过自己在图书馆里游荡和探索亲手绘制这幅地图。代谢图书馆巨大的规模使得我们几乎不可能摸清它的每一本馆藏,不过我们依旧可以描绘大陆、山川、河流、湖泊以及沙漠的轮廓,以期能够从模糊的形状里窥得壮美山河的蛛丝马迹。
1700255051
1700255052 但是该从哪里着手,又该沿着哪里探索呢?
1700255053
1700255054 首先,我们需要找一片拼图来为我们指路。以任何一种代谢表现型为例,比如依靠葡萄糖存活的代谢性状,假设如果代谢图书馆内超过101500个代谢文本中只有一种能够表达这种性状会怎么样?如今地球上的细菌总数大约是5×1030个,这个数量十分巨大,1后面要跟着30个0。我们可以假设自从生命出现起,每一个细菌以一秒一种的速度尝试新的代谢模式,那么在已经过去的将近40亿年里,它们总共只尝试了大约1048种代谢模式。细菌们随机找到那种仅有的、能够利用葡萄糖进行代谢的概率微乎其微,还不到1/101450。这个概率小得几乎没有任何实际意义。换句话说,这种盲目的搜寻方式最终将无法令细菌获得相应的性状。
1700255055
1700255056 一方面,寻找到某种特定性状的概率是渺茫的;另一方面,生命表现的多样性表明,进化寻找新性状的能力无须置疑。这也意味着上述假想的情况是错误的。代谢图书馆中包含葡萄糖的文本肯定不止一本,很可能有许多能够利用葡萄糖的不同代谢模式。
1700255057
1700255058 为了找到这些代谢文本,我们来模仿一下进化曾经做过的事:尝试探索图书馆和编辑基因组,也就是对基因组进行一系列删除和转移,消除或增加某些基因、酶及生化反应。从哪里开始入手其实并不重要,我们可以选择代谢图书馆里任何一个馆藏,选择任何一本包含葡萄糖或者其他能源物质代谢的文本。
1700255059
1700255060 现在我们从一个包含葡萄糖代谢的代谢文本开始,随机删除一个文本中已有的反应,或者向文本中加入一个已知的生化反应。这个经过修改的文本在面对大自然的审阅时,得到的回复往往简单粗暴:生或者死。但是作为科学家,我们不用如此循规蹈矩。我们能够通过算法解读代谢文本的含义,如果结果显示新的文本所代表的代谢类型不能利用葡萄糖维持存活,那么就返回原始文本,重新删除或添加一个生化反应。不要忘记,可选的目标基因有5 000种之多。只要经过修改的代谢依旧能够利用葡萄糖,那么这种修改就可以继续下去,接着添加或删除第二个基因,演算对应的表现型,再评估,如此循环往复。
1700255061
1700255062 也就是说,我们从某个起点开始,首先到达与它相邻的文本,再到相邻文本的相邻文本,而后再到相邻文本的相邻文本的相邻文本,直到我们弄清楚在不改变代谢表现型的前提下,即对葡萄糖的利用能力,能够到达的极限距离。由于文本的每一次改变都是随机的,所以在代谢图书馆中的这种移动是一种随机游走(random walk),就像一个走出酒吧的醉汉跌跌撞撞地在路上晃荡,碰巧撞进了自己的家门,只是有一点不同:在代谢图书馆里的每一步都必须踩在主题相同的文本上,也就是沿着相同的表现型前进。
1700255063
1700255064 如果只有一种代谢类型里包含葡萄糖代谢,由于它没有所属的“社区”,那么通过随机游走无法到达任何地方,我们只会停在原地止步不前。不过即便与某种表现型对应的文本不止一本,但只要它们散落在图书馆内不同的角落而没有相邻,我们同样无法从其中一本馆藏出发,直接跨越其他代谢抵达同类型文本。哪怕这些零星的文本聚集在一处,随机游走的脚步也不一定会走得更远。作为起点的文本可能还有几个不多的邻居,但是这些邻里未必有着它们自己的邻居。
1700255065
1700255066 只有当同一主题的文本具有相当的数量时,我们才能循着它们探索整个图书馆。不过如此一来我们又将面对一个新的问题:计算量。计算一个代谢文本的含义不算什么大事,但是如果要分析随机游走过程中的数千个文本就没那么容易了,更不要说随机游走中前进的每一步都有数千种不同的可能性。普通的家用计算机大概需要数年甚至数十年才能完成类似的计算。利用互联网连接的一个计算机集群能够令我们获得更高的计算速度,但其巨额费用也令人难以承担。
1700255067
[ 上一页 ]  [ :1.700255018e+09 ]  [ 下一页 ]