打字猴:1.70026857e+09
1700268570
1700268571 DNA就是ROM。它可以“读出”几百万次,但是只能“写入”一次—每个细胞里的DNA在细胞形成之初就(复制)组装完毕。任何一个人,身体里每个细胞的DNA都是“烧入”的,终身不变,偶尔发生罕见的随机退化倒不无可能。不过,它能复制。细胞一分裂,它就得复制一份。新生儿发育,增加的新细胞数以万计,每个新细胞的DNA都以先前细胞的DNA为模板,一五一十地复制出来,所有核苷酸(A、T、C、G)的序列都必须忠实无误。每个个体受孕的那一刻,一套新而独特的信息模式就“烧入”他的DNA的ROM中,此后终其一生摆脱不了那个模式。那套信息复制到他身体的每个细胞里(只有生殖细胞例外,他的每个生殖细胞都只得到半套信息,可是由于那半套是临时随机组合出来的,因此每个生殖细胞里的遗传信息都不相同)。
1700268572
1700268573 所有计算机内存,ROM也好,还是RAM,都有“地址”。就是说内存中每个位置都有一个卷标,通常是个数字,但是只要约定俗成,用什么当标签都无妨。重要的是:得分别每个记忆位置的地址与内容。每个位置有个地址。举例来说,我的计算机RAM里有65536个记忆位置,我刚刚随手敲进的两个字母现在登录在地址6446与6447里。以后那两个地址里的内容就不同了。每个位置里的内容,就是最近写入那个地址里的东西。ROM里每个位置也有地址与内容,只是一旦写入了任何东西,以后就无法更改了。
1700268574
1700268575 DNA是构成染色体的主要分子,它的结构像长的绳梯,平时长梯纠结缠绕,不容易看出头绪。不过DNA分子倒可比作计算机磁盘。我们身体每个细胞里的DNA都与ROM或计算机磁盘一样,上面的每笔信息都有地址卷标。用什么标记位置,数字也好,名字也好,都不重要。重要的是:我的DNA上任何一个特定位置,你的DNA上都有,丝丝入扣,它们地址相同。我的DNA地址321762的内容,也许与你的DNA地址321762的内容一样或不一样。但是我的地址321762在我的细胞中,与你的地址321762在你的细胞中,位置完全一样。这儿“位置”指的是某一特定染色体上的位置。至于这个染色体在各自的细胞中究竟位于什么地方,无关紧要。反正染色体悬浮在细胞核中,位置本就不是固定的。但是染色体长轴上的每个位置都有精确的地址,前后有一定的顺序,就像计算机磁盘也有精确的地址,即使整卷散乱在地面上,而不是整齐地卷起,凭地址也可以找到需要的段落。我们所有的人,所有“智人”,都有同样一套DNA地址,至于同一个地址是不是登录了同样的内容,则不一定。那是我们彼此不同的主要理由。
1700268576
1700268577 物种之间没有同样的一套地址。举例来说,黑猩猩有48个染色体,而我们只有46个。严格说来,不同物种不可能比较遗传信息的内容,因为地址对不上号。不过,亲缘关系密切的物种,像人与黑猩猩,染色体上许多“大块文章”里都有同样的内容,连组织都一样,我们很容易判定它们基本上是相同的,虽然它们并不使用同样的地址系统。确定不同个体属于同一物种的判断标准是:它们的DNA使用同一个地址系统。同一个物种的成员,都有同样数目的染色体,只有少数例外,而每一条染色体都有同样的地址、同样的地址顺序。不同个体间的差异,是那些地址中的内容(基因版本)不同导致的。
1700268578
1700268579 至于同一地址中的不同基因版本怎样造成个体间的差异,我现在要解释,但是我必须先强调:我所说的只适用于实行有性生殖的物种,而我们正是实行有性生殖的动物。我们的精子或卵子,每个都有23条染色体。一个人类精子中的任何一个基因地址,所有其他精子中都有对应的地址,不管是我的精子还是任何人的;卵子中也有。我身体里其他的细胞都有46条染色体—两套(成双)。那些细胞里同一个地址使用了两次。每一个细胞里第9号染色体都有两条,换言之,“9号染色体地址7230”有两个。这两个地址里的基因版本不一定相同,(同一物种)其他成员的也不一定相同。含有23条染色体的精子,是从含有46条染色体的细胞形成的,同一地址的两个基因每个精子只得到一个。至于是两个中的哪一个,就难说了,我们可以假定那与抛硬币的结果类似—服从随机定律。卵子也一样。结果,虽然同一物种的每个个体都使用同一套地址系统(暂不谈例外情况),以每个地址中的内容(基因版本)而言,每个精子与卵子都是独一无二的。卵子让精子受精后,就有了46条染色体;然后这个受精卵发育成胚胎,每个细胞中的46条染色体,都是受精卵里46条染色体的复本。
1700268580
1700268581 我说过,ROM(只读存储器)只有在第一次制造的时候才能写入,制造完成后就不能写入了,细胞里的DNA也一样,不过在复制的过程中,偶尔会发生随机错误。但是,整个物种的ROM—个别ROM的集合—可以写入有利于生存、繁殖的新指令。个体的存活、繁殖不是随机的事件,因此每个世代繁殖成功的个体都无异在物种基因库中写入了改良的存活指令。物种演化,主要是指世代间(同一地址)不同基因版本的比例变化。当然,在每个特定时间点上,每个基因版本都存在于个体的身体里。可是就演化而言,重要的是每个基因地址的不同基因版本“在族群中”的分布。地址系统一直没变,但是族群中不同基因版本的分布,在几世纪中会发生变化。
1700268582
1700268583 地址系统也会变,但那可是千载难逢的机缘。黑猩猩有24对染色体,我们有23对。事实上非洲的三种大猿都有24对染色体。我们与黑猩猩源自一个共同祖先,因此在过去某个时候,我们的祖系染色体数目发生了变化:原先的两个染色体合并成一个。换言之,过去至少有一个人,体内的染色体数目与父母的不同。在整个基因系统中,还可能发生其他的变化。我们下面就要讨论,染色体上一整段DNA偶尔会复制到不同的染色体上。我们知道这类事件发生过,因为在不同的染色体上,我们发现了完全相同的长串DNA碱基序列。
1700268584
1700268585 一旦计算机从内存某个地址中读取了信息,这份信息的命运可能有二:一是被写到其他地方去,二是成为某个“动作”的一个成分。“写入其他地方”的意思,就是“复制”。我们知道DNA很容易从一个细胞复制到新细胞中,而且大段大段的DNA也可以从一个人复制到另一个人体内,就是他的孩子。“动作”就比较复杂了。在计算机中,有一类动作就是执行程序指令。在我计算机的ROM(只读存储器)中,地址64489、64490、64491的内容合并起来,形成的特定(0与1)模式可以解释成指令,使计算机的小喇叭发出一声“哔!”,那一信息模式是101011010011000011000000。那个信息模式,与“哔!”或噪音没有什么内蕴的关联。那个模式对扬声器的影响(使它发出特定的声音),表面看不出来。那个模式的效果完全是计算机组装方式设定的。同样的,DNA上以四个字母组成的“代码”(基因),与功能—例如影响眼睛(虹膜)的颜色,或行为—也没有什么一眼就能看出的关联。它们的影响,是由胚胎其他部分的发育模式决定的,而那个发育模式又是由DNA上其他基因模式控制的。本书第七章的主题就是基因间的互动。
1700268586
1700268587 DNA上的基因,在涉入任何一种行动之前,都得翻译到另一个媒体上。首先,DNA上的基因得译成RNA,一个字母都不能差。RNA也以四个字母构成。从RNA再翻译成另一种不同的聚合体,就是多肽或蛋白质。它也许可以叫作氨基酸聚合体,因为它以氨基酸为基本单位。生物细胞中共有20种氨基酸。所有生物体内的蛋白质都是由这20种氨基酸组成的长链。虽然蛋白质是氨基酸聚合成的长链,大多数蛋白质都不是长条形的。蛋白质每条链都盘缠成一个复杂的结,结的形状由氨基酸顺序决定。因此氨基酸顺序相同的蛋白质长链,会盘缠成相同形状的结,不容变异。氨基酸的顺序是由DNA上的碱基序列(经由RNA)决定的。因此,蛋白质的三向度(空间)盘缠形状,可说是由DNA上的单向度信息(碱基序列)决定的。
1700268588
1700268589 翻译程序包括著名的“基因码”(genetic codes,旧译“遗传密码”)。这是一本字典,DNA上每三个字母,最后都可以译成一个氨基酸代码,或“停止读取”符号。四个基本字母可以组成64个“三字母”码,对应20个氨基酸绰绰有余。至于“停止读取”符号,共有3个。许多氨基酸有好几个“三字母”码对应—我想你一定猜得到,因为氨基酸只有20种,而代码有64个。整个翻译工作,从单维的DNA只读存储器(ROM)到精确的蛋白质三维结构,是数字信息技术的绝活儿。至于基因影响身体的循序步骤,就不容易以计算机模型来说明了。
1700268590
1700268591 每一个活细胞,即使只是一个细菌,都可以想象成一个巨大的化学工厂。基因(DNA上的字母模式)的功能,表现在对工厂中事件、流程的影响上;它们有这种影响力,关键在它们支配了蛋白质的三维结构。我使用的形容词“巨大的”可能会令你觉得惊讶,尤其是细菌的尺度以一微米为单位,一微米只有百万分之一米。但是你一定记得每个细胞都能装下整部《新约》的纯文本档,此外,说它“巨大”,从它包含大量的精密机器这个事实来说,也绝不夸张。每一台机器都是一个大型蛋白质分子,是在DNA上某一特定段落(基因)的影响之下组装的。有一群蛋白质分子,学者叫作“酶”的,我认为都是机器,意思是:每一个酶都能促发一个特定的化学反应。每一种蛋白质机器都会生产特定化学产品。它们利用漂荡在细胞中的分子当原料,那些分子很可能是其他蛋白质机器的产品。你想知道这些蛋白质机器的大小吗?每一个大约由6000个原子组成。就分子而言,算是相当大了。每一个细胞里约有100万个这类大型分子机器,可区别为2000种,每一种都在化学工厂(细胞)中担负专门的任务。这些酶特有的化学产品,是细胞分化的基础,无论形状还是功能。
1700268592
1700268593 所有身体细胞都有同样的基因,可是身体细胞之间却发展出很大的差异,这也许令人觉得惊讶。原因是:每个细胞虽然都有完整的基因组,可是为了维持生存、发挥功能,只需“读取”其中一小组基因就成了,其他的基因就“存而不论”了;而不同种类的细胞,读取的基因不同。在肝细胞中,DNA的只读存储器(ROM)中有关建造肾细胞的特殊指令就不读了,反之亦然。细胞的形状与行为,由细胞读取的基因与从基因译成的蛋白质产物而定。而细胞会读取哪些基因,又受细胞中已有化学物的调控。那些化学物一方面源自细胞先前读过的基因,另一方面又与邻近细胞有关。细胞分裂时,两个子细胞不一定相同。例如原来的受精卵中,某些化学物聚集在细胞的一端,其他的在另一端。这么一个“两极化”的细胞分裂后,两个子细胞接收的化学物组成不同。也就是说,两个子细胞会读取不同的基因,就这样,源自细胞内部的因素就能推动细胞分化的过程。整个生物体最后的形状、四肢的大小、大脑神经线路的铺设、行为模式的发生顺序,都是不同种类的细胞互动的间接结果,而细胞不同,是因为读取的基因不同。这些分化过程,最好以第三章讨论过的“递归”程序来理解,而不是什么中央控制中枢根据某个伟大蓝图排演出来的。在递归程序中,局部要素都能自主。
1700268594
1700268595 遗传学家提到“基因的表现效应”时,讨论的就是本章所谓的基因“行动”。DNA对身体、眼睛颜色(瞳孔四周的虹膜颜色)、头发的蜷曲程度、侵略行为的强度,还有其他几千种观察得到的特征,都有影响,都叫作基因的表现效应。 DNA起先只在局部施展这些效应,一旦被RNA读取了,翻译成蛋白质,那些蛋白质就会影响细胞的形状与行为。DNA模式中蕴含的信息,有两种读取的方式,这是其中一种。另一种就是复制新的DNA链,我们先前讨论过。
1700268596
1700268597 这两种传递DNA信息的方式,根本就不同,一是垂直传递,一是横向传递。垂直传递是传递到其他细胞的DNA,那些细胞能制造其他细胞,最后制造精子或卵子。因此,DNA信息垂直传递到下一个世代,然后再垂直传递到无数的未来世代。我管这种DNA叫作“档案DNA”。它们有不朽的潜力。传递“档案DNA”的细胞系列,叫作生殖系(germ line)。每个身体里都有一套细胞,最后会衍生出精子或卵子,因此就是未来世代的祖先,那套细胞就是生殖系。DNA的信息也能横向传递:传给生殖系以外细胞的DNA,例如肝细胞或皮肤细胞;在这些细胞中再传给RNA,然后是蛋白质,以及各种对于胚胎发育的影响,因而影响成体的形状与行为。你可以将横向传递与垂直传递对应于第三章谈过的两个子程序,发育与生殖。
1700268598
1700268599 自然选择就是不同DNA竞争垂直传递管道的结果,当然,不同的DNA进入物种“档案DNA”的成功率并不相同。任何一个DNA的竞争对手,就是在物种染色体特定地址上注册了不同信息的DNA。有些基因比对手基因更成功地留在物种档案中(物种ROM)。“成功”的终极意义是留在物种档案中,成功的判断标准通常是基因通过横向管道对于身体的“行动”。这也与计算机里的生物形模型很相似。举个例来说吧。假定老虎有一个特定基因,通过横向管道影响了上下颚的细胞,使牙齿变得不怎么锐利,可是这个基因的对手基因,却会使牙齿变得更尖利。老虎的牙齿要是特别尖利,就能更利落地杀死猎物;因此就会有更多的子女;因此就能垂直传递更多“利齿”基因的复本。这头老虎同时也传递了其他的基因,不错,但是平均而言,拥有利齿的老虎体内才有利齿基因。就垂直传递而言,这个基因得益于它对各种身体的平均影响力。
1700268600
1700268601 DNA作为档案媒体,表现非凡。它保存信息的能力,远胜石板。乳牛与豌豆(以及我们人类)都有一个几乎一样的组蛋白H4基因。它在DNA上,由306个字码组成。我们不能说它在所有物种中都登记在同一个地址下,因为我们无法有意义地比较物种之间的地址卷标。我们能说的是:乳牛DNA上有一串字码,共306个,豌豆DNA上也有这一串306个字码,几乎完全一样。两者只差两个字母。我们不知道乳牛与豌豆的共同祖先究竟生活在什么时候,但是化石证据显示:那必然在10亿到20亿年前。就说15亿年前吧。以我们人类来说,15亿年可真难以想象,在那么悠长的岁月中,从那位远古共同祖先分化出来的两个生物世系,居然将原始信息中的306个字码保存了305个(这是平均数:也许一个世系保存了所有306个字码,另一个世系保存了304个)。刻在墓碑上的字母,不过几百年就难以卒读了。
1700268602
1700268603 组蛋白H4这份DNA文件还有一个特征,与石板不同,因此信息能够忠实保存下来更令人觉得不可思议,那就是:它并不是因为材质耐久,所以登录的信息能完整保存。这份文件一代又一代地反复复制过,就像古代的希伯来经典,每80年就由抄手(书记)隆重地誊录一通,免得抄本耗损、字迹漫漶。从豌豆与乳牛的共同祖先,一直传到今天的乳牛身上,这份组蛋白H4文件不知誊录过多少次了,实际的次数说不准,但是可能经过200亿次连续誊录,应是合理的推测。经过200亿次连续誊录仍能准确地保存信息内容的99%,这实在难以找到适当的标尺来打分数。我们可以试着用一种传递游戏来当标尺。请想象:有200亿个打字员坐成一排,这一排可以环绕地球500圈。第一个打字员打出一页文件,然后传给邻座的打字员。他重打一遍,再将打出的复本传给下一个打字员。他重打一遍,将打出的复本再传给下一个打字员。如此这般,一直到复本传到最后一位打字员手里。好了,让我们读读这份文件(或者说,这第200亿位打字员读这份文件)。你猜这份文件与原始文件会有何差别?
1700268604
1700268605 为了回答这个问题,我们得对打字员的出错率做些假定。让我们将这个问题扭转过来。每个打字员必须多么仔细,才比得上DNA的表现?答案几乎可说太过荒谬,不值一提。一万亿分之一!连续打一万亿个字母,只准错一个。换言之,整本《圣经》一次誊录25万个复本,只准错一个字母。现在的秘书,每页只出一个错就算不错了。算来组蛋白H4基因的出错率必须放大5亿倍才比得上。一排秘书辗转抄录这份以306个字母写成的文件,到第20名,这份文件只保存了原始文件的99%。到了第10000名秘书的手上,原始文件中的信息只剩下1%。别忘了,整排秘书共有200亿位,这时还有99.9995%没见到复写本呢。
1700268606
1700268607 我承认,这个比较多少有点儿诈欺的成分,但是有趣的也在这里,而且这个面相颇富玄机,值得讨论。我的讨论让人产生的印象是:我们想测量的是复制过程中的出错率。但是组蛋白H4文件不只要复制,还必须受自然选择考验。组蛋白关系生物体的生存,极为重要。染色体的结构工程就要用到组蛋白。也许组蛋白H4基因在复制过程中出过许多错,但是带有组蛋白H4突变基因的个体都无法存活,或者至少无法繁殖。为了让比较公平些,我们应该在我们的想象实验中加上些条件,例如每个打字员的打字机与一把枪联机,只要打字员一出错,扳机就会扣动,无异找死。下一名打字员就自动递补上来。(要是读者觉得枪毙太残酷了,也许可以想象打字员坐在弹射椅上,只要一出错,就给弹射出去,但是枪毙比较符合自然选择运作的逻辑。)
1700268608
1700268609 你看出来了吧,前面测量DNA恒定性的方法,就是检查特定DNA片段(基因)在地质时间中的变化量,其实混淆了真正的复制忠实度与自然选择的过滤效果。我们只能观察到成功的DNA变异(突变)。导致死亡的突变我们观察不到。我们能够测量到真实的复制忠实度吗?就是每一世代自然选择开始运行之前的情况。可以。取所谓突变率的倒数就成了,突变率是可以测量的。结果,在任何一个复制DNA的事例中,任何一个字母复制错误(点突变)的概率略高于十亿分之一。组蛋白H4基因在演化过程中实际发生的突变远低于这个数字,反映的是自然选择保存这份古代文件的效能。
1700268610
1700268611 以基因的标准来说,组蛋白H4基因经得起十数亿年岁月的消磨,是个例外,而非常态。其他的基因变化率就高了,想来自然选择对于它们的变异较能容忍。举个例子好了,血纤维蛋白肽(fibrinopeptides,在凝血过程中形成的蛋白质)在演化中的变化率与基本突变率相去不远。这也许表示血纤维蛋白肽的结构即使出了什么差错也不是性命交关的事。血红蛋白基因的变化率则介于组蛋白与血纤维蛋白肽之间。血红蛋白在血液中执行重要的任务,它的结构的确重要;但是几种不同的版本似乎都能圆满达成任务。
1700268612
1700268613 这儿我们碰上了一个似乎难以自圆其说的现象,我们得好好想想才能脱困。演化速率最慢的分子,例如组蛋白,正是受到自然选择严密监控的分子。血纤维蛋白肽演化的速率非常高,只因自然选择并不在乎。它们能变就变了,所以演化速率接近自然突变率。我们觉得两者似乎格格不入,只因为我们太过强调“自然选择是演化的驱动力量”。因此,我们会觉得要是没有自然选择,就没有演化了。反过来说,强大的自然选择压力也许会导致快速的演化。这样想其实颇合理。可是我们却发现自然选择施展的却是踩刹车的力量。要是没有了自然选择,演化的基础速率,就是最大的可能速率。而所谓演化的基础速率,与突变率是同义词。
1700268614
1700268615 这一点都不难以解释。只要我们仔细思量,就会觉悟那是理所当然的。以自然选择为机制的演化,不可能快过突变率,因为说到底,突变是唯一创造种内变异的方式。自然选择所能做的,是接受某些新的变异,排斥其他的变异。突变率必然是演化率的上限。实际上,自然选择所关心的大部分是防止“演化变化”(简称“演化”)发生,而不是驱动演化。不过我得在这儿加上一句,我的意思并不是自然选择只是个毁灭的过程。自然选择也能创造,我会在第七章解释。
1700268616
1700268617 可是突变率的确很低。换言之,即使没有自然选择,精确保存档案的表现都令人印象极为深刻。保守一点估计,即使没有自然选择,DNA都能精确地复制,大约500万个复制世代才会“抄错”1%个字母。在我们的思想实验中,打字员的表现比起DNA来,实在望尘莫及,即使没有自然选择。想达到DNA的基础水平(没有自然选择的情况),每个打字员都必须打一遍《新约》只错一个字母。也就是说,就打字的本领而言,他们必须比典型的秘书好上450倍。用不着说,这个数字比起“5亿倍”让人觉得踏实多了,但仍然令人肃然起敬(前面说过,在自然选择监控之下,组蛋白基因的复制出错率,相当于誊录整部《圣经》25万次,只错一个字母)。
1700268618
1700268619 但是我对打字员并不公平。我等于假定他们无法察觉自己犯的错误,并改正过来。我假定完全没有“校对”的这回事。在实务上,他们当然会校对。因此,我这排数以亿计的打字员,不会让文件的原始文本像我说的那么容易失真。DNA的复制机制会自动进行同样的侦错/除错工作。要是它不做校对,就不会达成我报道过的复制正确率,那可是个惊人的成就。DNA的复制程序包含了各种校对步骤。由于DNA码的字母不像刻在大理石上的象形文字,不是静态的,校对更为重要。DNA上的“字母”分子非常小(记得我用过的比喻吗?一本DNA《新约》一根大头针的头顶都放得下),因此不断地受到冲击—分子受热后变得不安分,相互推挤是十分寻常的事。DNA分子本身也在不断变动,好比信息中的字母不断更新。每一个人类细胞中,每天有5000个DNA“字母”退化,必须以修补机制立即补上。要不是修补机制随时工作、不停工作,细胞核中的遗传信息就会逐渐消散掉。校对刚复制出的文本只是正常修补工作的特例罢了。DNA储存信息既精确又忠实,主要就靠校对机制。
[ 上一页 ]  [ :1.70026857e+09 ]  [ 下一页 ]