打字猴:1.70025523e+09
1700255230
1700255231 这么大一堆关于蛋白质的事实如果不经组织,简直就是一本疯子编纂的字典,里面的几百万个单词杂乱无章,毫无头绪可言。然而一旦经过组织,这些事实就成了图书馆的一部分,这个图书馆和第3章中巨大的代谢图书馆类似。这个宇宙图书馆里收录的正是蛋白质的基因型,每个文本都由20个字母构成的字母表写就,每个字母对应一个氨基酸。这座图书馆收集了生命已经创造和能够创造的所有蛋白质,有时也被称为蛋白质空间(protein space)或序列空间(sequence space)——因为每个文本都对应一个唯一的氨基酸序列。
1700255232
1700255233 通过与前面章节类似的计算方式,我们大概已经可以预见,这个图书馆的规模和代谢图书馆一样惊人。回想一下,20种可能的氨基酸,两个字母可以构成的文本就有400(202)种。同理,3个氨基酸构成的可能文本有8 000(203)种,4个氨基酸对应于16万(204)种文本,以此类推。像这样的短文本充其量只能叫肽,大多数蛋白质包含的文本要长得多,即多肽,它的可能文本数量随着长度增加呈爆炸式增长,即便是仅由100个氨基酸构成的蛋白质,可能的文本数量也已经超过了10130种。这个数字大得难以想象,但是蛋白质图书馆内的馆藏数量比这还大,因为像蔗糖酶这样的蛋白质含有1 000多个氨基酸,而有些人类蛋白质比蔗糖酶还要再长许多倍。其中有一个庞然大物叫肌联蛋白(titin),含3万个氨基酸,是肌肉的弹性成分。由此可见,蛋白质图书馆的规模同样是超宇宙常数级别的。
1700255234
1700255235 蛋白质图书馆和代谢图书馆的相似之处不仅在于规模。和后者一样,蛋白质图书馆也是一个超几何体,相似的文本彼此邻近。每个蛋白质文本位于这个超立方体的一个顶点,就像在代谢图书馆里一样,每个蛋白质都有许多直接相邻的邻居,这些邻居和它只差一个字母,位于超立方体上相邻的顶点。
1700255236
1700255237 我们以一个含有100个氨基酸的蛋白质分子为例,如果你想改变蛋白质的第一个氨基酸,那么就有19个选项,这也就意味着与这个蛋白质只差第一个氨基酸的蛋白质邻居有19个。按照同样的思路,这个蛋白质有19个与其第2个氨基酸不同的邻居,19个与其第3个氨基酸不同的邻居,19个与第4个……19个与其第100个氨基酸不同的邻居。一句话,我们的蛋白质有1 900个直接邻居。这样一个社区已经很庞大了,但如果你改变的不是一个氨基酸,而是两个或更多,那么这个社区还会更大。显然,对进化来说这不是坏事:只要简单改变一个或几个氨基酸,就可以产生许多新的蛋白质。
1700255238
1700255239 在这座图书馆迷宫里漫游,要是手里没有一团展开的毛线丈量走过的路程,很容易就会迷路,这一点也和代谢图书馆类似。在这里我们也需要借助某种方式来衡量蛋白质图书馆里的“距离”,于是我们采用了两个蛋白质相异的氨基酸数目作为衡量距离的单位。这个标准可以告诉你,从一个蛋白质文本到任一其他文本要走多远,即需要改变多少个氨基酸。
1700255240
1700255241 图书馆中的文本很重要,但更重要的是每个文本承载的意义。我们的双眼无法解读这种意义,无法阅读蛋白质化学语言的单词、句子和段落,但生命自身精通这门语言,并能分辨出一个蛋白质文本到底是文风优美的佳作,还是词不达意的垃圾。
1700255242
1700255243 细胞判断蛋白质是否有意义的标准很实际:能让细胞存活的蛋白质就有意义。只有有用的蛋白质才有意义,有缺陷的变异蛋白不能正确完成折叠,自然也就一无是处。如果“意义”这个词听起来过于以人类为中心,我们不妨参考一下符号学——一门语言学的分支,主要研究意义的意义,其中对“意义”的定义是任何符号(随便什么东西,可以是路标,可以是一本书)所指涉的内容。根据这个定义,如果蛋白质的基因是符号,那么它所编码的蛋白质氨基酸序列以及蛋白质在细胞内所起的作用就是它的意义。
1700255244
1700255245 宇宙图书馆里到底确切地藏有多少本有意义的书,我们仍然无从得知。但经过几十年的研究,如今我们已经可以估算蛋白质图书馆里有意义的蛋白质的数量,因为大多数有用的蛋白质都有特定的折叠形状。从图书馆里随机选取一个书架,随机选取一个蛋白质,它能够折叠的概率至少是万分之一。这个概率听起来好像不是很大,但请记得,宇宙图书馆本身非常巨大,光是由100个氨基酸组成的蛋白质就超过10130个。即使其中只有万分之一的蛋白质能够折叠,也有10126个,即1后面跟着126个0,这比全宇宙中的氢原子数量还多。由此可知,有意义的蛋白质的数目大得超乎想象。
1700255246
1700255247
1700255248
1700255249
1700255250 进化会利用大量的生物体对蛋白质图书馆进行探索。DNA一代接一代地复制,难免会出现复制错误,改变DNA链上的碱基,如腺嘌呤变成胞嘧啶,胸腺嘧啶变成鸟嘌呤,或者发生其他变化,每改变一个氨基酸,蛋白质就会发生改变。变化后的文本可能具有全新的用途,想要理解这一过程,我们就得绘制蛋白质图书馆的地图,就像在代谢图书馆中做过的那样。这个任务没有看上去那么难:多亏研究蛋白质的科学家们在过去数十年中的不懈努力,我们已经知道了成千上万种蛋白质的折叠方式、功能以及在图书馆中的位置。另外,借助20世纪的分子生物学技术,我们可以从书架上取下任意一卷书,合成相应的蛋白质,并在实验室里研究它的折叠方式和功能。
1700255251
1700255252 有关蛋白质进化中的一个最简单的问题,我们在之前的章节中已经探讨过了。要找到一个有一丁点意义、有助于生物体存活的蛋白质有多难呢?如果图书馆里只有一个这样的蛋白质,即便从遥远的大爆炸开始找也很难找到。既然存在大量有意义的蛋白质,那么生命在面对不同的挑战时,就会有多种解决方式,但到底有多少种呢?
1700255253
1700255254 2001年,哈佛大学的安东尼·基夫(Anthony Keefe)和杰克·绍斯塔克(Jack Szostak)试图回答这个问题,他们研究的蛋白质家族的重要性不亚于生命历史中出现的任何其他性状:这类蛋白质可以联结三磷酸腺苷,而我们已经在第2章中说过,三磷酸腺苷是生命的电池。一般情况下,蛋白质通过裂解三磷酸腺苷摄取工作时所需的能量,包括运输材料、收缩肌肉、构建新分子等。
1700255255
1700255256 想要释放和利用三磷酸腺苷的能量,蛋白质首先要结合三磷酸腺苷。如果庞大的蛋白质图书馆里只有一种蛋白质能够结合三磷酸腺苷,盲目寻找不过是在白费力气,想找到它除非有奇迹出现。基夫和绍斯塔克想弄清楚,图书馆里能够结合三磷酸腺苷的蛋白质究竟有多稀有。他们采用化学手段创造出许多不同种类的蛋白质,每种蛋白的氨基酸序列都不相同,完全随机。这个人工设计的过程相当于从蛋白质图书馆书架上随机取下一册书卷。研究者制造的随机蛋白质均含有80个氨基酸,这样的蛋白质数量超过10104种,不可能全部在实验中合成出来,但这个实验中所合成的随机蛋白质数量已经相当惊人了:大约有6万亿种。
1700255257
1700255258 基夫和绍斯塔克发现,其中4种毫无关联的蛋白质可以结合三磷酸腺苷。6万亿种蛋白质中有4种可以结合三磷酸腺苷的蛋白质,是不是听上去一点都不富裕?但是按照这一比例,所有包含80个氨基酸的候选蛋白质中能结合三磷酸腺苷的就多了去了:1093个。三磷酸腺苷结合问题的答案是一个天文数字。
1700255259
1700255260 麻省理工大学的约翰·里德哈尔-奥尔森(John Reidhaar-Olson)和罗伯特·索尔(Robert Sauer)研究了同样的问题,但采用的方式不同。他们研究的是一种调节蛋白,这种蛋白可以关闭病毒的基因,后者能感染细菌。这种病毒名为A字形噬菌体,它的DNA所编码的蛋白质使它能自我复制并杀死宿主。但利用开关关掉基因后,这种病毒也可以在细菌体内休眠,直到时机成熟再自我复制并杀死宿主。通常当宿主遭遇不幸时,如饥饿、抗生素污染、过量的紫外线照射,就意味着时机到了,病毒于是趁机开始复制,复制所得的子代病毒冲破细胞,将满目疮痍的细菌遗弃。那场面用一句不恰当的俗话说,大概就是“树倒猢狲散”。
1700255261
1700255262 奥尔森和索尔探索了蛋白质图书馆中这个病毒开关附近的一个社区,随机创造出大量社区中的氨基酸序列,从而探究哪种序列可以产生有效的开关关闭病毒基因。他们计算的结果是,整个图书馆中有超过1050个文本能够编码关闭基因的分子开关。他们把类似的算法应用于另一种蛋白质,即合成氨基酸所需的酶,发现了多达1096种蛋白质可以完成这项工作。
1700255263
1700255264 自然界中的抗冻蛋白给了我们一个提示,之后我们在实验室中则以实验证实了这个猜测:无论是结合三磷酸腺苷,关闭病毒基因,还是催化生化反应的蛋白质,都不是唯一的,应对相同问题的解决方案甚至可能超过100万种。具有不同功能的蛋白质数目是一个天文数字,每一种都对应蛋白质图书馆中的一卷书。图书馆中馆藏数量之多,难以想象。就生物的创造力而言,只有我们想不到,没有自然界做不到。
1700255265
1700255266 事实上,解决特定问题的书在图书馆里取之不尽。当然,知道这一点还不够。我们还要找出这些答案的位置和组织方式,它们是整整齐齐地排在书架上呢,还是随意摞成一堆?仅有实验室的实验是远远不够的,因为即使实验能够合成并测试惊人数量的蛋白质,但与自然界中实际的蛋白质数量相比,依旧显得无足轻重。在自然界中,每一天都有不计其数的生物体在加班加点合成新的蛋白质,每个生物体都是合成蛋白质的量产工厂,而每一个蛋白质都不过是在持续了亿万年的蛋白进化之路上,最后的那一个脚步而已。
1700255267
1700255268 蛋白科学家早就已经注意到了蛋白质的多样性。如果把蛋白质比作糖,拥有数量庞大的蛋白质的自然界就像一家巨大的糖果店,心怀热忱的科学家就像孩子一样一拥而上。比起实验室中得来的数据,科学家在成千上万的生物体中得到的有关蛋白质进化的知识要多得多。我们前面探讨过的斑头雁体内负责输送氧气的血红蛋白就是一个很好的例子。
1700255269
1700255270 血红蛋白的功能不难理解,它往返肺与身体组织之间,完成对氧气的结合或释放,它的重要性也无须赘述。血红蛋白属于一个结合氧气的蛋白质家族,即球蛋白(globins)。球蛋白不仅对我们,对于许多其他的哺乳动物、鸟类、爬行类和鱼类也同样重要。这些物种最初具有共同的祖先,但随后经过无数代遗传,如父辈、子辈、孙辈和数不清的曾孙辈,在一代代演替过程中,编码血红蛋白和所有其他蛋白质的DNA经历了无数次复制。虽然每次复制都极少出现复制错误,对我们的细胞而言,DNA复制过程中大约平均每4 000万个碱基中才会出现一个复制错误,但只要假以时日,只要时间足够长,理论上一个基因组中的所有基因都会出现复制错误,从而导致它们编码的蛋白质产生变化。
1700255271
1700255272 编码氨基酸序列的基因变化后,球蛋白不再按照正确的方式折叠,氧气也就不能流向需要的地方。简单地说,这通常意味着死亡。但发生改变的蛋白质不一定会完全丧失原本的功能和意义。甚至有些改变既不会改变蛋白质的功能,也不损害基因存在的意义,并能够传给下一代。经历无数代繁衍,复制错误,尤其是某些可容忍的复制错误在基因组中逐渐积累,就会慢慢改变蛋白质的氨基酸序列。
1700255273
1700255274 图4-2展示的是人类以及3种物种分类上的亲缘生物,各自血红蛋白中的10个氨基酸片段。图中的每个字母都取自包含20个字母的字母表。科学家通常用字母缩写代表氨基酸:V代表缬氨酸,A代表丙氨酸,诸如此类。大约500万年前,即差不多20万代人之前,我们和与我们血缘关系最近的黑猩猩还拥有一个共同的祖先。由于这段时间还不足以积累大量的遗传错误,因此黑猩猩的球蛋白文本迄今没有改变太多。在图4-2中展示的球蛋白片段里,人类和黑猩猩只有一处不同:在人类血红蛋白为丙氨酸(A)的位置上,黑猩猩的则为谷氨酸(E)。
1700255275
1700255276
1700255277
1700255278
1700255279 图4-2 蛋白随时间变化图
[ 上一页 ]  [ :1.70025523e+09 ]  [ 下一页 ]