打字猴:1.70025527e+09

1700255270 血红蛋白的功能不难理解，它往返肺与身体组织之间，完成对氧气的结合或释放，它的重要性也无须赘述。血红蛋白属于一个结合氧气的蛋白质家族，即球蛋白（globins）。球蛋白不仅对我们，对于许多其他的哺乳动物、鸟类、爬行类和鱼类也同样重要。这些物种最初具有共同的祖先，但随后经过无数代遗传，如父辈、子辈、孙辈和数不清的曾孙辈，在一代代演替过程中，编码血红蛋白和所有其他蛋白质的DNA经历了无数次复制。虽然每次复制都极少出现复制错误，对我们的细胞而言，DNA复制过程中大约平均每4 000万个碱基中才会出现一个复制错误，但只要假以时日，只要时间足够长，理论上一个基因组中的所有基因都会出现复制错误，从而导致它们编码的蛋白质产生变化。

1700255271

1700255272 编码氨基酸序列的基因变化后，球蛋白不再按照正确的方式折叠，氧气也就不能流向需要的地方。简单地说，这通常意味着死亡。但发生改变的蛋白质不一定会完全丧失原本的功能和意义。甚至有些改变既不会改变蛋白质的功能，也不损害基因存在的意义，并能够传给下一代。经历无数代繁衍，复制错误，尤其是某些可容忍的复制错误在基因组中逐渐积累，就会慢慢改变蛋白质的氨基酸序列。

1700255273

1700255274 图4-2展示的是人类以及3种物种分类上的亲缘生物，各自血红蛋白中的10个氨基酸片段。图中的每个字母都取自包含20个字母的字母表。科学家通常用字母缩写代表氨基酸：V代表缬氨酸，A代表丙氨酸，诸如此类。大约500万年前，即差不多20万代人之前，我们和与我们血缘关系最近的黑猩猩还拥有一个共同的祖先。由于这段时间还不足以积累大量的遗传错误，因此黑猩猩的球蛋白文本迄今没有改变太多。在图4-2中展示的球蛋白片段里，人类和黑猩猩只有一处不同：在人类血红蛋白为丙氨酸（A）的位置上，黑猩猩的则为谷氨酸（E）。

1700255275

1700255276

1700255277

1700255278

1700255279 图4-2　蛋白随时间变化图

1700255280

1700255281 大约800万年前，人类的祖先和老鼠的祖先分道扬镳。因此比起黑猩猩，老鼠的球蛋白累积变化的时间更长。图4-2显示，人类和老鼠有两处氨基酸差异。鸡的祖先和我们的祖先分开得更早，是在近3亿年前，所以其间累计的氨基酸差异则相应达到了6个。

1700255282

1700255283 还有几百万种生物体含有血红蛋白，除了恒温的脊椎动物，还有爬行类、青蛙、鱼类、海星、软体动物、苍蝇、蠕虫，甚至植物。其中一些物种从生命之树的同一枝条上生长出来，距离它们拥有同一个祖先的日子还不太远。它们的球蛋白基因在生物史上的大部分时间里都是相同的，只是在最近才分道扬镳，但是依旧十分相似。另一些生物体位于生命之树的不同树枝上，距离它们拥有共同祖先的日子较久远，控制球蛋白合成的基因相差也更大。但不管这种差异有多大，它们编码的球蛋白都能正常工作，否则这些球蛋白基因就不会存留至今。每个幸存的基因解决氧气结合问题的方案都不尽相同。生命每延续1 000年，就会进入蛋白质图书馆的更深处，在随机进化之旅中探索全新的球蛋白文本。

1700255284

1700255285 想知道球蛋白在进化之旅中走了多远，需要想想我们最远的亲戚：植物。尽管植物没有血液，但事实上还是有一些植物能够合成球蛋白。

1700255286

1700255287 大豆、豌豆、苜蓿等豆科植物可以从空气中吸收至关重要的氮元素，而空气中的氮几乎是取之不尽的。（其他植物大多需要从土壤中吸收氮，除非农民施用化肥，否则土壤的氮含量通常很低。）豆科植物借助细菌从空气中吸收氮，这种细菌成群结队生活在植物根部附近，体内含有一种特殊的酶，能将空气中的氮气转化为铵盐，铵盐也是含氮化肥的主要成分。这种天才的共生关系只有一个缺点：大气中的氧气会破坏固定氮气的酶。植物为保护这种酶而合成球蛋白，根部的共生细菌因而得以远离氧气。

1700255288

1700255289 植物和动物的共同祖先可以追溯到10亿多年前，动植物处于生命之树不同的主枝上，两者间的球蛋白的差异大得惊人，这表明动物和植物相互独立的进化旅程已进行了很久。举个例子，羽扇豆和昆虫的球蛋白中几乎有90%的氨基酸都不同。然而，如图4-3所示，这些球蛋白不仅都能结合氧气，折叠形状也十分相似。左图是一种豆科植物的球蛋白折叠，右图是一种小型双翅昆虫摇蚊的球蛋白折叠。两种蛋白质都有几处螺旋体一样的结构，例如左上方和右下方有两处排列十分相似的平行螺旋。图像无法完全说明这两个球蛋白有多相似，如果你转动分子，把其中一个覆盖到另一个分子之上，就会发现两个分子中原子的空间分布几乎一模一样。尽管已经各自独立进化了10亿多年，但这些球蛋白的折叠方式依然十分相似。

1700255290

1700255291

1700255292

1700255293

1700255294 图4-3　两种折叠方式相似的血红蛋白

1700255295

1700255296 豆科植物与昆虫球蛋白的氨基酸差异极大，但这种差异稀松平常。哪怕对于两种动物球蛋白而言，很可能有80%的氨基酸也是不同的，比如蛤和鲸。尽管有种种差异，上述以及其他生物体体内的上千种球蛋白仍然彼此相关联，组成一张网络，遍布蛋白质图书馆。这张网络上的通路连续不断，从共同祖先出发，每走一步改变一个氨基酸，但文本含义保持不变。

1700255297

1700255298 类似的基因型网络我们已经在代谢图书馆中探讨过了，无论生物进化在这张网络中往哪个方向走，走多远，代谢表现型的意义总是保持不变。进化在探索蛋白质图书馆的过程中采用了一种不同的策略，不是基因水平转移，而是改变单个氨基酸，但两者的本质是相同的。基因型网络将不同的球蛋白连接在一起，网络的根须触手一直延伸至蛋白质图书馆的深处。进化可以沿着这个网络探索图书馆，不致迷路而陷进由无用分子围成的致命流沙中。

1700255299

1700255300 球蛋白形成的基因型网络规模庞大、交错纵深并不是例外，而是普遍规律。折叠方式、催化反应以及祖先相同的酶，它们的氨基酸的相似度通常不超过20%。我们能认识到这一点，是因为科学家已经在图书馆里确定了上千种已知酶的编码文本位置。通过给文本编目，我们能够绘出酶的基因型网络在图书馆中的通路，其中有一些甚至比球蛋白延伸得更远。延伸最远的是TIM桶状蛋白质，TIM是磷酸丙糖异构酶（triose phosphate isomerase）的首字母缩写。由于α-螺旋和β-折叠的排列方式像木桶夹板，所以这种酶被称作桶状蛋白。TIM有助于从葡萄糖中摄取能量。令人震惊的是，有些以相同方式进行折叠的酶与TIM没有一个氨基酸相同。它们分别位于蛋白质图书馆的对角位置，即所有字母都互不相同，尽管如此，它们却携带着相同的化学信息。这些蛋白质就像无数个不同版本的《哈姆雷特》，尽管不同版本的4 000行台词中只有几百行相同，甚至没有一行相同，但每个版本都完整地讲述了莎翁笔下那个王子复仇的故事。

1700255301

1700255302 自然实验室中的上千种蛋白质同样叙述了一个类似的故事：不管是酶、调节因子还是像血红蛋白那样的运输分子，当我们需要一个新的蛋白质解决眼前的问题时，解决方案往往多得数不过来。不仅如此，应对相同问题的蛋白质由一张众多蛋白质文本构成的巨网相连，遍布蛋白质图书馆。在某些蛋白质网络中我们已经能够认出数千种蛋白质了，可是这也只是沧海一粟，要知道，一张网络中具有相同表现型的蛋白质往往多达数万亿个。

1700255303

1700255304 有些未知的蛋白质属于早已灭绝的生物，但是绝大多数蛋白质甚至从未在自然界出现过。生命历经的40亿年太短，只够创造出1050种蛋白质，这只占蛋白质图书馆所有文本中的极小一部分。不论巨大的生命之树上挂着多少蛋白质，也不论这棵树有多么高大、多么美丽，它终究只是脏兮兮的镜子里污迹斑斑的影像，是柏拉图的理想世界中模糊不清的幻影，唯有背后那张更大的基因型网络才是这一切的本质。

1700255305

1700255306

1700255307

1700255308

1700255309 我们在第3章里看到，在进化过程中，有几十亿读者通过基因型网络探索着代谢图书馆各个角落里的不同社区。尽管有些探索者掉下网络一命呜呼，但也有一些探索者通过网络发现了新表现型的进化文本。基因型网络或许同样可以服务于蛋白质，前提是蛋白质图书馆里的社区也具有多样性。否则，进化的蛋白质还不如待在原地不动。因为如果图书馆不同区域堆放的书籍相同，也就没有探索图书馆的必要了。

1700255310

1700255311 图书馆中每个蛋白质附近书架上的文本是否意义相近，是否就像现代社区中大同小异的家家户户？还是更像中世纪的村庄，风格独特，魅力各异，所含蛋白质拥有独一无二的新功能？尽管我们研究了几十年蛋白质，如今甚至可以用计算机挖掘堆积如山的蛋白质数据，但是对于这个问题，直到现在我们也没有找到答案。

1700255312

1700255313 要回答这个问题，光有计算机还不够，还需要热爱书本的图书管理员。一个年轻的智利研究者埃万德罗·费拉达（Evandro Ferrada）带着这份热爱来到苏黎世，加入了我们的研究小组攻读他的博士学位。埃万德罗曾经有过研究蛋白质的经验，他能熟练地从巨大的蛋白质数据库中筛选出所需的信息，不论是蛋白质的折叠方式还是蛋白质分子内的原子信息。埃万德罗个性安静，常常陷入沉思，这种个性我以前在别人身上见过，这些人常常与生命的深层奥秘缠斗。也许这也是他同意研究这个问题的原因，因为蛋白质的空间结构正是这样的奥秘：挑战性强，意义深远，异常艰难，但也不是没有被解决的可能。另外，蛋白质的空间结构里还隐藏着蛋白质进化的秘密。

1700255314

1700255315 埃万德罗重点研究的是酶，因为这类蛋白质的种类异常丰富。这毫不意外，因为酶需要催化5 000多种不同的化学反应。科学家已经对酶进行过深入研究：他们已经把蛋白质图书馆中散落的几千种蛋白质标记了出来。一旦我们知道了酶的精确位置，就可以用计算机进行分析。埃万德罗利用电脑选出一对蛋白质，它们的折叠方式相同，但在基因型网络中处于不同位置。紧接着，他检验了第一个蛋白质所在社区的一小部分相邻蛋白，列出了其中所有已知的蛋白质和它们的功能。之后，他以相同的方式检验了第二个蛋白质所在的社区，列出了经过检验的所有已知蛋白质和它们的功能。他比较了两张列表，关注点集中在两个列表中的蛋白质是否相同，以及两个社区的蛋白质功能是否相同。然后他选取了另一对蛋白质，重复相同的检验过程，关注相同的问题，直到他研究了几百对蛋白质和它们所在的社区。

1700255316

1700255317 最终的答案很简单：即使两个蛋白质在图书馆里离得很近，它们的社区内包含的大部分蛋白质功能也不同。比如，某两个蛋白质中存在差异的氨基酸只有不到20%，即便如此，它们各自所在社区里的蛋白质的大部分功能也都不同。蛋白质图书馆和代谢图书馆一样，社区高度多样化。出于同样的原因，这种多样性使得庞大的基因型网络与探索蛋白质图书馆的过程相适应，蛋白分子在保存原有意义的同时，拥有进化成为功能不同的新蛋白质的巨大潜力。

1700255318

1700255319 代谢图书馆和蛋白质图书馆中充斥着基因型网络，这些网络由含义相同的文本构成，每个文本都被放置在高维空间的超几何体上，两个图书馆里的多样性社区数量也都多得难以想象。它们彼此间有诸多相似之处，但都与人类图书馆大相径庭。不过这也没什么好奇怪的，因为远在人类出现之前，它们就已经存在了。

[ 上一页 ] [ :1.70025527e+09 ] [ 下一页 ]