打字猴:1.700249101e+09
1700249101 生命进化的跃升:40亿年生命史上10个决定性突变 [:1700248852]
1700249102 生命进化的跃升:40亿年生命史上10个决定性突变 第二章 DNA——生命密码
1700249103
1700249104 DNA的双螺旋结构代表了一个时代的科学,更神奇的是所有生命都使用相同的DNA编码,似乎表明在地球上,生命只诞生了一次。对于DNA结构的发现者克里克来说,这暗示了外星生物的一次播种,我们有更好的答案吗?
1700249105
1700249106 在剑桥的老鹰酒吧外墙上有一块蓝色的牌子,是2003年挂上去的,用以纪念50年前发生在酒吧里的一段不寻常的谈话。1953年2月28日,两位酒吧常客詹姆斯·沃森和弗朗西斯·克里克,在午餐时间冲进吧里,宣布他们发现了生命的奥秘。虽然严肃紧张的美国人加上一位滔滔不绝的英国人,再时不时配上他们恼人的笑声,看起来活似一对喜剧演员,但是这一次他们可是认真的,而且他们是对的,或者应该说对了一半。如果说生命真的有什么奥秘的话,那一定是DNA。不过尽管沃森与克里克再聪明,当时也只知道一半答案。
1700249107
1700249108 其实在当天早上沃森与克里克已经知道DNA是双螺旋结构。他们的灵感来自他们的天赋,混合了模型结构、化学推论,以及一些“偷来”的X射线衍射照片。面对他们当时的结论,沃森说:“太美了,这必须是对的。”整个午餐时间里,他们越讨论就越有信心。他们的研究结果发表在4月25日的《自然》上,是一篇只占一页篇幅的简短论文,有点像登在地方小报上的出生公告。论文谦逊的语气极不寻常(沃森有句对克里克的评价广为人知,说他从未见过克里克谦虚的样子,然而沃森本人也没好到哪儿去),并在结尾十分委婉地写道:我们也注意到了,我们假设的这种特定配对方式,暗示了这种遗传物质可能的复制机制。
1700249109
1700249110 DNA是基因的物质基础,当然也就是遗传物质。它帮地球上所有的生物编码,从人类到变形虫,从蘑菇到细菌,只有少数病毒例外。它的双螺旋结构已经成为科学的标志,两条螺旋链彼此缠绕,一圈又一圈直到天荒地老。沃森与克里克展示了两条螺旋链分子层级的配对方式。如果把这两条螺旋链分开,其中任何一条都可以作为模板,去合成另外一条,于是原来的一条双螺旋链就变成了两条双螺旋。微生物每次增殖时如要把自己的DNA传给下一代,那它只须解开自己的双螺旋链,做出两条一模一样的双螺旋链即可。
1700249111
1700249112 虽然复制DNA的具体分子机制十分让人头痛,但在原理上却非常完美、惊艳而且简单。遗传密码就是一系列的字母(术语叫作碱基)。DNA总共只有四个字母,分别是A(腺嘌呤)、T(胸腺嘧啶)、G(鸟嘌呤)以及C(胞嘧啶),不过你不必管这些化学名称。真正的重点是,A只能和T配对,而G只能和C配对(见图2.1)。这种配对方式是由分子形状以及成键结构决定的。如果把一条双螺旋解开,让这些碱基露在外面。这时每一个露出的A只可以配T,而每一个露出的G只可以配C,依此类推。碱基对不只是彼此互补,它们是真的想要彼此结合。对于T来说,只有和A配对的时候,它的化学生命才有意义。如果你把这两个分子放在一起,它们的化学键会唱出完美的和弦。这就是化学,如假包换的“基本吸引力”。因此DNA不只是被动复制的模板,每一条螺旋会主动放出磁力,吸引可以与自己配对的另一半。所以把一条双螺旋拉开,它们会很快重新结合,单螺旋链会急切地寻找可以与自己配对的另一半。
1700249113
1700249114 一条DNA长链看起来无穷无尽。以人的基因组为例,里面有将近30亿个字母,术语称为3千兆碱基(记作3Gb,1兆=106)。等于说单个细胞核里就含有30亿个字母,打印出来的话,一个人的基因组可以填满200册书,每一册都和电话簿一样厚。不过人类的基因组绝对不是世上最大的,你或许会很惊讶,世界纪录保持者是一只小小的变形虫——无恒变形虫,它巨大的基因组包含了670千兆碱基,大约是人类基因组的220倍。但是这些基因组里面似乎大部分都是“垃圾”,并不负责制造任何东西。
1700249115
1700249116
1700249117
1700249118
1700249119 图2.1 DNA的碱基配对。这些不同字母的几何图案代表的意义是:A只能和T配对,而G只能和C配对。
1700249120
1700249121 每次细胞分裂的时候,它就会复制所有的DNA,整个过程耗费好几个小时。人体是由15万亿细胞组成的怪物,每个细胞都带有相同的DNA模板(其实应该说有两套)。从一个受精卵发育成人,这套双螺旋长链要被解开,当作模板至少复制15万亿次(真正的次数当然远多于此,因为还要加上细胞死亡、替换等因素)。细胞复制的精确度堪称奇迹,它要把这些DNA长链从头按顺序写起,每写10亿个字母才出一次错。用人类抄书来做比较的话,那就等于要把整本《圣经》抄280次才错一个字母。而人类抄写的精确度远低于此。现在已知被保存下来的手抄本《新约全书》约2.4万本,没有任何一本是完全相同的。
1700249122
1700249123 然而在每条DNA里,还是会夹杂一些错误,这是因为基因组实在是太大了。一个字母被抄写错误的情况,叫作点突变。每次人类细胞分裂时,整套染色体里面大概会有3个点突变。细胞分裂的次数越多,错误累积越多,最终就可能引发癌症这类疾病。突变也可能传给下一代。对女性来说,如果一个受精卵将发育成女性,那之后大约要经过至少30次细胞分裂才会形成一个新的卵细胞,每次分裂都会累积一些错误。男性更糟,因为细胞至少要经过100次分裂才可以产生精子,而每次分裂大自然都会无情地加入一些突变。由于男性终生都可以制造精子,所以随着男性年龄的增加,精子经过一轮又一轮的细胞分裂,情况只会越来越糟。正如遗传学家詹姆斯·克罗所说:老男人的精子是威胁整个族群健康的最大突变灾难。不过就算是一般年轻夫妻所生的小孩,也比他们父母多大约200处突变,但其中只有少数可以造成直接损害。[1]
1700249124
1700249125 尽管细胞复制DNA的准确度极高,还是会发生改变。每一代的基因都和上一代不同,不仅仅因为我们的基因混合了父母双方的,而且我们都携带了新的突变。大部分的突变都是前面提到的点突变,只有几个字母被替换掉了。不过少数突变十分剧烈,有时候染色体复制好了另一份却没有分开;有时候整段DNA序列缺失不见;有时候病毒感染会插入许多新的片段;有时候部分染色体会整段颠倒,里面的DNA序列也颠倒了。各式各样的突变都可能发生,不过最严重的突变往往会让个体无法生存。如果能看到染色体的话,会发现它们像骚动的蛇窝一般,带着条纹的染色体不断结合再分开,无休无止。自然选择会把绝大多数的突变怪物都剔除掉,因此起着稳固的作用。也就是说,DNA长链会扭曲变形,而自然选择则将它们重新整理归位,把所有好的变异都留下来,抛弃严重的错误或改变。而比较轻微的突变,则有可能导致日后的疾病。
1700249126
1700249127 当报纸杂志上出现和基因有关的文章时,大概都不是在谈DNA字母突变的问题,而是DNA独特的排序。比如DNA指纹,它可以用来鉴定亲缘,弹劾有性丑闻的总统,也可以在刑案发生几十年后揪出嫌疑犯。这是由于每个个体之间DNA序列都存在差异。DNA序列如此不同,我们每个人都有一套独一无二的DNA指纹。受到这些细微差异的影响,我们每个人对于各种疾病的耐受力也不同。平均来说,人类基因大概每千字出现一个差异,人类基因组整体共有约600万~1000万个“单字母”差异,称为“单核苷酸多态性”,简称SNPs。SNPs就是说我们每个人所拥有的基因版本,或多或少都略有不同。虽然大部分的SNPs都无关紧要,不过根据统计分析,有一些变异与某些疾病,比如糖尿病或阿尔茨海默病有关联,然而它们对疾病的影响究竟如何,目前所知甚少。
1700249128
1700249129 虽然每个人的DNA版本略有不同,我们仍然可以说存在一个“人类基因组”,毕竟每1000个字母里除了那一个有可能不同以外,剩下的999个都一样。不同物种的基因组构成,由时间和自然选择两个因素造成。在进化这一伟大的计划之中,人猿变成人并没有过去太久,老实说,动物学家会说我们其实还是人猿。假设我们的祖先和黑猩猩大约在600万年前分家,然后以每代产生200个突变的速度累积差异,那到现在为止我们最多也只能改变整个基因组的1%。由于黑猩猩也以同样的速度突变,那么理论上我们和黑猩猩应该有2%的差异,不过实际的差异要小一些。比对黑猩猩和人的DNA序列的结果显示,我们和黑猩猩有98.6%的相似度。[2]这是因为自然选择会踩刹车,剔除有害突变。如果自然选择会剔除突变,那么被保留下来的DNA序列,当然会比无监督情况下的突变结果更相似一些。如前所述,自然选择会让扭曲变形的序列重新归位。
1700249130
1700249131 如果我们看得更久远一点,就会看到时间和自然选择这两个条件如何共同作用,织出令人赞叹的精致生命之毯。从解读出的DNA序列可以看到,地球上所有的生命都彼此相关。通过比对序列,我们可以用计算机去统计人类与任何一种生物的亲疏,从猴子比到有袋类动物,也可以和爬行类、两栖类比,或者和鱼类、昆虫、甲壳类、蠕虫、植物、原生动物、细菌比,随便你挑。所有的序列都由相同字母组成,所以是可比较的。因为受到相同自然的选择,我们甚至会共用许多一模一样的序列片段,而除此以外的序列则会变异到难以辨认的地步。如果试着解读一段兔子的DNA序列,你会发现在这段无穷无尽的碱基序列中,有些和人类一样,有些不一样,彼此交错不止,好像万花筒一样。再看看蓟花也一样,有一些片段和我们完全一样或者很类似,但是不一样的片段比兔子和我们之间的更多。这恰好反映出我们和蓟花从共祖分家后历经了更久的时间,最终导致我们走上完全不同的道路。尽管如此,我们最基本的生物化学反应还是一样的,细胞仍然使用类似的机制在运作,而这些机制正是由相似的DNA序列决定的。
1700249132
1700249133 基于这种生物化学的共同性,我们期望找到一段和最古老的生命(比如细菌)共享的序列,我们也确实找到了。不过相似的程度会有点混乱,因为它并不是人们想象的100%~0%,而是100%~25%,这是因为组成DNA序列的只有四个字母。如果其中一个字母被随机替换,那总有25%的机会换回原来的字母。所以如果你在实验室里随意合成一段序列,将这段序列和任意一段人类DNA序列相比,一定会有25%的相似度。“我们和香蕉的基因组序列有50%相似,所以我们是半个香蕉”的观点是误导视听。不然随意合成的一段DNA序列,都将是1/4个人类。因此,除非我们知道这些字母代表的意义,否则还是等于一无所知。
1700249134
1700249135 这也是为什么,我之前说沃森与克里克在1953年的那个早上,只解开了生命奥秘之谜的一半。他们解开了DNA的结构,也发现了双螺旋的每一条都可能是复制另一半的模板,因此可以当作生物的遗传密码传给下一代。然而在他们那篇著名的论文里并没提到密码代表的意义,还有待此后10年间无数杰出的研究去发现。或许解开生命密码并不像发现双螺旋结构那般,具有崇高的象征地位,但是它的重要性可能大于双螺旋本身,因为后者根本不在乎塞在序列里面的东西是什么。克里克对密码的破解也有贡献。从本章的内容来看,对我们来说更重要的是解开这串密码(这曾是现代分子生物学里最令人失望的解谜),这将会让我们更透彻地了解在40亿年前DNA是如何进化出来的。
1700249136
1700249137 现在我们如此熟悉DNA,所以你可能很难想象,1953年我们对这个分子生物学的基础了解的有多么少。当年沃森与克里克原论文上的DNA图像,那幅结构如两条阶梯互相旋转缠绕的图像,是由克里克的艺术家妻子欧迪勒绘制的,半个世纪来不断被重复使用,从未改动(图2.2)。20世纪60年代,沃森所写的《双螺旋》描绘了现代科学的面貌,这本书的影响力如此之大,以致让生命都艺术了起来。我还在读书时就因看了这本书,整天梦想着获得诺贝尔奖和名留青史的发现。在那时,我对于科学的印象几乎全部来自沃森的书。之后进入大学,发现现实与我对科学的期望并不一致,梦想破灭是必然的,其间我开始攀岩寻求刺激。等到好几年之后,我才渐渐领悟研究的魅力,重新找回科学带来的兴奋。
1700249138
1700249139 然而当时我在大学所学的,几乎全部都是沃森与克里克1950年还不知道的,但在现在已是理所当然的事。比如“基因编码蛋白质”,这一观点在20世纪50年代早期还未在科学家之间达成共识。沃森1951年来到剑桥大学时,还因为被怀疑论者如马克斯·佩鲁茨和约翰·肯德鲁等人质疑而感到恼怒。然而对于佩鲁茨与肯德鲁而言,连最基本问题,比如“基因”到底是DNA还是蛋白质,都还没有被完全证实,更遑论其他。尽管当时并不清楚DNA的分子结构,我们却已摸透了它的化学成分,也知道它的成分在各物种间几乎一样。如果说基因是遗传物质,并且决定了每个个体甚至每个物种之间的巨大差异,那么像DNA这种化学组成单调的东西,从细菌到植物到动物的几乎都一样,怎么可能解释生命的丰富与多样性?反而组成成分变化无穷的蛋白质,看上去更适合承担这项遗传工作。
1700249140
1700249141
1700249142
1700249143
1700249144 图2.2 DNA 的双螺旋结构,本图显示这两条螺旋如何互相缠绕。把这两条螺旋解开的话,每一条都可以当作模板,合成全新而互补的另一条。
1700249145
1700249146 当时只有沃森以及少数的生物学家深信美国生物化学家奥斯瓦德·艾弗里的实验结果。艾弗里在1944年发表的研究显示,遗传物质是DNA。沃森的热忱与信念鼓舞了克里克,促使他动手解决DNA的结构问题。一旦结构问题被解决,解码就近在咫尺。然而当时关于这方面的知识是如此缺乏,必定会再次让现代人觉得惊讶。DNA看起来就是一连串字母随机组合成的无尽长链。要找出这个序列的某段顺序如何对应某种蛋白质,在理论上似乎并不困难,因为蛋白质是由一连串的子单元组成的,所谓的子单元就是氨基酸。因此,想必DNA序列可以与氨基酸序列一一对应。而如果DNA字母是万物通用的,毕竟似乎所有物种的DNA成分都一样,那么DNA对应氨基酸的方式应该也是万物通用的。但这一切在当时还不为人知,而且几乎也没人想过这种对应关系,直到沃森与克里克在老鹰酒吧里坐下来,在午餐时间写出那经典的20种氨基酸,就是今天教科书里会写的那20种。惊讶吗?这两人都不是生物化学家,但他们却是第一个找到正确答案的人。
1700249147
1700249148 现在问题变成了一个数学游戏,和详细的分子机制无关(我们却要死记硬背这些分子机制)。四种DNA字母要编码20种氨基酸。绝不可能是一对一编码,也不可能是二对一编码,因为两个字母最多只能组成16种组合(4×4)。因此,最低要求是三个字母,也就是DNA序列里面最少要有三个字母对应到一个氨基酸,被称为三联密码,后来被克里克和西德尼·布伦纳证实。但是这样看起来似乎很浪费,因为用四种字母组成三联密码,总共可以有64种组合(4×4×4),这样应该可以编码64个不同的氨基酸,那为什么只有20种氨基酸呢?一定有一个神奇的答案来解释为什么4种字母,3个一组,拼成64个单词,然后编码20种氨基酸。
1700249149
1700249150 很巧的是,第一个尝试解答这个问题的人也不是生物学家,而是热情洋溢的俄裔美籍天文物理学家乔治·伽莫夫,他因提出大爆炸理论而广为人知。伽莫夫认为,DNA序列可以直接生产蛋白质,氨基酸分子可以嵌入双螺旋间的钻石型凹槽内来合成蛋白质。不过伽莫夫的理论是纯数学的,因此当他知道蛋白质并非在细胞核里合成,所以也就不可能和DNA直接接触时,也完全不在意。这个想法只剩下理论性的内容,而没有生物方面的意义。伽莫夫主张一种相互重叠的三联密码,这是密码学家的最爱,因为这可以使信息密度最大化。假设有一段DNA序列为ATCGTC,那第一个“字”(术语叫作密码子)就是ATC,第二个字是TCG,第三个字是CGT,以此类推。重叠密码必定会减少氨基酸的可能排列方式,因为如果第一个密码子ATC可以对应某个特定氨基酸,那第二个氨基酸所用的密码子,一定要是TC开头才行,然后第三个一定要是C开头。当你费力演算完所有的排列组合之后会发现,符合这些规则的三联密码不会太多,因为A旁边一定是T,而T旁边一定是C,以此类推,很多密码子都会因不符合重叠规则而被排除。那么计算之后还剩下多少种可能的三联密码呢?伽莫夫用魔术师从帽子里变出兔子的口吻说:正好20个!
[ 上一页 ]  [ :1.700249101e+09 ]  [ 下一页 ]