打字猴:1.70026856e+09

1700268560

1700268561 所有其他生物细胞，管它是柳树种子、蚂蚁还是什么的，主要以化学媒体储存信息，而不是电子媒体。这种媒体利用某些分子种类的“聚合”（polymerizing）性质储存信息。所谓聚合，就是分子彼此相连、成一长链，而且长度没有限制。聚合体有许多种。举个例子来说，聚乙烯是乙烯（一种小分子）聚合成的长链。淀粉与纤维素是聚合糖。有些聚合体是由一种以上的小分子聚合成的，与聚乙烯不一样。一旦聚合体有了异质性（长链由一种以上的分子聚合成的），理论上就可供信息技术利用。要是聚合体长链由两种小分子构成，它们就可以分别代表0与1，于是任何数量、任何种类的信息都可以储存在这种聚合体长链上，只要分子链够长。生物细胞利用的聚合体是多核苷酸（polynucleotides）。在生物细胞中多核苷酸有两个主要的家族，简称DNA与RNA。它们都是核苷酸组成的长链。DNA与RNA都是异质链，由四种不同的核苷酸组成。当然，这正是它们可以用来储存信息的理由。生物细胞的信息技术使用的不是二态码（0与1），而是四态码，按惯例以A、T、C、G代表（即四种核苷酸的英文缩写）。就原理来说，我们使用的二态信息技术与生物细胞的四态信息技术没什么不同。

1700268562

1700268563 我在第一章结束时说过，每个人体细胞用来储存信息的空间，足以容纳三四套《大英百科全书》（一套30册）。我不知道柳树种子或蚂蚁细胞的信息容量，但是它们应该与人类属于同一个数量级。一粒百合种子或蝾螈（salamander，一种两栖类）精子储存的信息量相当于60套《大英百科全书》以上。变形虫是原生生物，够“原始”了吧？可是变形虫有些物种，细胞核DNA足以储存相当于100套《大英百科全书》的信息。

1700268564

1700268565 令人惊讶的是：有些生物细胞的遗传信息，似乎只有1%实际派上用场，人类细胞就是一个例子，大约相当于一册《大英百科全书》。其他的99%为什么会在细胞中？没有人知道。我曾经指出它们也许是“寄生虫”，占那1%的便宜，它们搭便车进入细胞中，这个理论最近分子生物学家很感兴趣，为它取了个名字，叫它“自利的DNA”。细菌携带的遗传信息比人类细胞少得多，大约只有人类的千分之一，可是细菌的遗传信息也许每一笔都有用：没有什么空间容纳寄生虫。细菌的DNA“只”能容纳一本《新约》！

1700268566

1700268567 现代基因工程师已经发展出适当的技术，能够将《新约》或任何其他信息加载到细菌的DNA中。任何信息技术使用的符号、意义都可以任意规定，而DNA中有四个核苷酸“字母”（A、T、C、G），我们可以规定：以三个连续的核苷酸“字母”为一组（共有64种组合），每组都对应一个英文字母表中的字母，于是除了大、小写英文字母（共52个），还可对应12个标点符号。可是把《新约》写入细菌的DNA中，得花5个“人—世纪”，也就是说，要是一个人来做，5个世纪才做得完，我看不会有人想做的。不过，万一这工作完成了，以细菌的繁殖率而言，一天就能复制1000万本《新约》，要是人类能阅读细菌DNA中的字母多好！传教士的美梦也不过如此吧？可惜细菌DNA中的字母实在太小了，即使是1000万本《新约》，仍然能在一根大头针的“圆顶”上共舞。

1700268568

1700268569 计算机的内存一般区分为ROM与RAM两种。ROM就是“只读存储器”。严格一点儿说，就是“只能写入一次，可是能读许多次”的内存。制造时只要将以0与1编过码的信息“烧”（写）入内存内，就万事大吉了。内存这样“记下”的信息经久不变，爱读几次就读几次。至于RAM，它是既能读又能写的内存，因此ROM能做的事它也能做，它还能做ROM不能做的事。你随时可以将信息写入RAM中的任何地方，爱写几次就写几次。计算机里的内存，大部分是RAM。我现在在计算机上打出这些字句，它们全都先存到RAM里，我的文字处理程序也暂存在RAM里，但是理论上也可以将它烧在ROM里，从此不再改变它。ROM里存的是一组固定的标准程序，计算机在运算过程中会反复呼叫那些程序，你不能改变它们，即使真心想，也不成。

1700268570

1700268571 DNA就是ROM。它可以“读出”几百万次，但是只能“写入”一次—每个细胞里的DNA在细胞形成之初就（复制）组装完毕。任何一个人，身体里每个细胞的DNA都是“烧入”的，终身不变，偶尔发生罕见的随机退化倒不无可能。不过，它能复制。细胞一分裂，它就得复制一份。新生儿发育，增加的新细胞数以万计，每个新细胞的DNA都以先前细胞的DNA为模板，一五一十地复制出来，所有核苷酸（A、T、C、G）的序列都必须忠实无误。每个个体受孕的那一刻，一套新而独特的信息模式就“烧入”他的DNA的ROM中，此后终其一生摆脱不了那个模式。那套信息复制到他身体的每个细胞里（只有生殖细胞例外，他的每个生殖细胞都只得到半套信息，可是由于那半套是临时随机组合出来的，因此每个生殖细胞里的遗传信息都不相同）。

1700268572

1700268573 所有计算机内存，ROM也好，还是RAM，都有“地址”。就是说内存中每个位置都有一个卷标，通常是个数字，但是只要约定俗成，用什么当标签都无妨。重要的是：得分别每个记忆位置的地址与内容。每个位置有个地址。举例来说，我的计算机RAM里有65536个记忆位置，我刚刚随手敲进的两个字母现在登录在地址6446与6447里。以后那两个地址里的内容就不同了。每个位置里的内容，就是最近写入那个地址里的东西。ROM里每个位置也有地址与内容，只是一旦写入了任何东西，以后就无法更改了。

1700268574

1700268575 DNA是构成染色体的主要分子，它的结构像长的绳梯，平时长梯纠结缠绕，不容易看出头绪。不过DNA分子倒可比作计算机磁盘。我们身体每个细胞里的DNA都与ROM或计算机磁盘一样，上面的每笔信息都有地址卷标。用什么标记位置，数字也好，名字也好，都不重要。重要的是：我的DNA上任何一个特定位置，你的DNA上都有，丝丝入扣，它们地址相同。我的DNA地址321762的内容，也许与你的DNA地址321762的内容一样或不一样。但是我的地址321762在我的细胞中，与你的地址321762在你的细胞中，位置完全一样。这儿“位置”指的是某一特定染色体上的位置。至于这个染色体在各自的细胞中究竟位于什么地方，无关紧要。反正染色体悬浮在细胞核中，位置本就不是固定的。但是染色体长轴上的每个位置都有精确的地址，前后有一定的顺序，就像计算机磁盘也有精确的地址，即使整卷散乱在地面上，而不是整齐地卷起，凭地址也可以找到需要的段落。我们所有的人，所有“智人”，都有同样一套DNA地址，至于同一个地址是不是登录了同样的内容，则不一定。那是我们彼此不同的主要理由。

1700268576

1700268577 物种之间没有同样的一套地址。举例来说，黑猩猩有48个染色体，而我们只有46个。严格说来，不同物种不可能比较遗传信息的内容，因为地址对不上号。不过，亲缘关系密切的物种，像人与黑猩猩，染色体上许多“大块文章”里都有同样的内容，连组织都一样，我们很容易判定它们基本上是相同的，虽然它们并不使用同样的地址系统。确定不同个体属于同一物种的判断标准是：它们的DNA使用同一个地址系统。同一个物种的成员，都有同样数目的染色体，只有少数例外，而每一条染色体都有同样的地址、同样的地址顺序。不同个体间的差异，是那些地址中的内容（基因版本）不同导致的。

1700268578

1700268579 至于同一地址中的不同基因版本怎样造成个体间的差异，我现在要解释，但是我必须先强调：我所说的只适用于实行有性生殖的物种，而我们正是实行有性生殖的动物。我们的精子或卵子，每个都有23条染色体。一个人类精子中的任何一个基因地址，所有其他精子中都有对应的地址，不管是我的精子还是任何人的；卵子中也有。我身体里其他的细胞都有46条染色体—两套（成双）。那些细胞里同一个地址使用了两次。每一个细胞里第9号染色体都有两条，换言之，“9号染色体地址7230”有两个。这两个地址里的基因版本不一定相同，（同一物种）其他成员的也不一定相同。含有23条染色体的精子，是从含有46条染色体的细胞形成的，同一地址的两个基因每个精子只得到一个。至于是两个中的哪一个，就难说了，我们可以假定那与抛硬币的结果类似—服从随机定律。卵子也一样。结果，虽然同一物种的每个个体都使用同一套地址系统（暂不谈例外情况），以每个地址中的内容（基因版本）而言，每个精子与卵子都是独一无二的。卵子让精子受精后，就有了46条染色体；然后这个受精卵发育成胚胎，每个细胞中的46条染色体，都是受精卵里46条染色体的复本。

1700268580

1700268581 我说过，ROM（只读存储器）只有在第一次制造的时候才能写入，制造完成后就不能写入了，细胞里的DNA也一样，不过在复制的过程中，偶尔会发生随机错误。但是，整个物种的ROM—个别ROM的集合—可以写入有利于生存、繁殖的新指令。个体的存活、繁殖不是随机的事件，因此每个世代繁殖成功的个体都无异在物种基因库中写入了改良的存活指令。物种演化，主要是指世代间（同一地址）不同基因版本的比例变化。当然，在每个特定时间点上，每个基因版本都存在于个体的身体里。可是就演化而言，重要的是每个基因地址的不同基因版本“在族群中”的分布。地址系统一直没变，但是族群中不同基因版本的分布，在几世纪中会发生变化。

1700268582

1700268583 地址系统也会变，但那可是千载难逢的机缘。黑猩猩有24对染色体，我们有23对。事实上非洲的三种大猿都有24对染色体。我们与黑猩猩源自一个共同祖先，因此在过去某个时候，我们的祖系染色体数目发生了变化：原先的两个染色体合并成一个。换言之，过去至少有一个人，体内的染色体数目与父母的不同。在整个基因系统中，还可能发生其他的变化。我们下面就要讨论，染色体上一整段DNA偶尔会复制到不同的染色体上。我们知道这类事件发生过，因为在不同的染色体上，我们发现了完全相同的长串DNA碱基序列。

1700268584

1700268585 一旦计算机从内存某个地址中读取了信息，这份信息的命运可能有二：一是被写到其他地方去，二是成为某个“动作”的一个成分。“写入其他地方”的意思，就是“复制”。我们知道DNA很容易从一个细胞复制到新细胞中，而且大段大段的DNA也可以从一个人复制到另一个人体内，就是他的孩子。“动作”就比较复杂了。在计算机中，有一类动作就是执行程序指令。在我计算机的ROM（只读存储器）中，地址64489、64490、64491的内容合并起来，形成的特定（0与1）模式可以解释成指令，使计算机的小喇叭发出一声“哔！”，那一信息模式是101011010011000011000000。那个信息模式，与“哔！”或噪音没有什么内蕴的关联。那个模式对扬声器的影响（使它发出特定的声音），表面看不出来。那个模式的效果完全是计算机组装方式设定的。同样的，DNA上以四个字母组成的“代码”（基因），与功能—例如影响眼睛（虹膜）的颜色，或行为—也没有什么一眼就能看出的关联。它们的影响，是由胚胎其他部分的发育模式决定的，而那个发育模式又是由DNA上其他基因模式控制的。本书第七章的主题就是基因间的互动。

1700268586

1700268587 DNA上的基因，在涉入任何一种行动之前，都得翻译到另一个媒体上。首先，DNA上的基因得译成RNA，一个字母都不能差。RNA也以四个字母构成。从RNA再翻译成另一种不同的聚合体，就是多肽或蛋白质。它也许可以叫作氨基酸聚合体，因为它以氨基酸为基本单位。生物细胞中共有20种氨基酸。所有生物体内的蛋白质都是由这20种氨基酸组成的长链。虽然蛋白质是氨基酸聚合成的长链，大多数蛋白质都不是长条形的。蛋白质每条链都盘缠成一个复杂的结，结的形状由氨基酸顺序决定。因此氨基酸顺序相同的蛋白质长链，会盘缠成相同形状的结，不容变异。氨基酸的顺序是由DNA上的碱基序列（经由RNA）决定的。因此，蛋白质的三向度（空间）盘缠形状，可说是由DNA上的单向度信息（碱基序列）决定的。

1700268588

1700268589 翻译程序包括著名的“基因码”（genetic codes，旧译“遗传密码”）。这是一本字典，DNA上每三个字母，最后都可以译成一个氨基酸代码，或“停止读取”符号。四个基本字母可以组成64个“三字母”码，对应20个氨基酸绰绰有余。至于“停止读取”符号，共有3个。许多氨基酸有好几个“三字母”码对应—我想你一定猜得到，因为氨基酸只有20种，而代码有64个。整个翻译工作，从单维的DNA只读存储器（ROM）到精确的蛋白质三维结构，是数字信息技术的绝活儿。至于基因影响身体的循序步骤，就不容易以计算机模型来说明了。

1700268590

1700268591 每一个活细胞，即使只是一个细菌，都可以想象成一个巨大的化学工厂。基因（DNA上的字母模式）的功能，表现在对工厂中事件、流程的影响上；它们有这种影响力，关键在它们支配了蛋白质的三维结构。我使用的形容词“巨大的”可能会令你觉得惊讶，尤其是细菌的尺度以一微米为单位，一微米只有百万分之一米。但是你一定记得每个细胞都能装下整部《新约》的纯文本档，此外，说它“巨大”，从它包含大量的精密机器这个事实来说，也绝不夸张。每一台机器都是一个大型蛋白质分子，是在DNA上某一特定段落（基因）的影响之下组装的。有一群蛋白质分子，学者叫作“酶”的，我认为都是机器，意思是：每一个酶都能促发一个特定的化学反应。每一种蛋白质机器都会生产特定化学产品。它们利用漂荡在细胞中的分子当原料，那些分子很可能是其他蛋白质机器的产品。你想知道这些蛋白质机器的大小吗？每一个大约由6000个原子组成。就分子而言，算是相当大了。每一个细胞里约有100万个这类大型分子机器，可区别为2000种，每一种都在化学工厂（细胞）中担负专门的任务。这些酶特有的化学产品，是细胞分化的基础，无论形状还是功能。

1700268592

1700268593 所有身体细胞都有同样的基因，可是身体细胞之间却发展出很大的差异，这也许令人觉得惊讶。原因是：每个细胞虽然都有完整的基因组，可是为了维持生存、发挥功能，只需“读取”其中一小组基因就成了，其他的基因就“存而不论”了；而不同种类的细胞，读取的基因不同。在肝细胞中，DNA的只读存储器（ROM）中有关建造肾细胞的特殊指令就不读了，反之亦然。细胞的形状与行为，由细胞读取的基因与从基因译成的蛋白质产物而定。而细胞会读取哪些基因，又受细胞中已有化学物的调控。那些化学物一方面源自细胞先前读过的基因，另一方面又与邻近细胞有关。细胞分裂时，两个子细胞不一定相同。例如原来的受精卵中，某些化学物聚集在细胞的一端，其他的在另一端。这么一个“两极化”的细胞分裂后，两个子细胞接收的化学物组成不同。也就是说，两个子细胞会读取不同的基因，就这样，源自细胞内部的因素就能推动细胞分化的过程。整个生物体最后的形状、四肢的大小、大脑神经线路的铺设、行为模式的发生顺序，都是不同种类的细胞互动的间接结果，而细胞不同，是因为读取的基因不同。这些分化过程，最好以第三章讨论过的“递归”程序来理解，而不是什么中央控制中枢根据某个伟大蓝图排演出来的。在递归程序中，局部要素都能自主。

1700268594

1700268595 遗传学家提到“基因的表现效应”时，讨论的就是本章所谓的基因“行动”。DNA对身体、眼睛颜色（瞳孔四周的虹膜颜色）、头发的蜷曲程度、侵略行为的强度，还有其他几千种观察得到的特征，都有影响，都叫作基因的表现效应。 DNA起先只在局部施展这些效应，一旦被RNA读取了，翻译成蛋白质，那些蛋白质就会影响细胞的形状与行为。DNA模式中蕴含的信息，有两种读取的方式，这是其中一种。另一种就是复制新的DNA链，我们先前讨论过。

1700268596

1700268597 这两种传递DNA信息的方式，根本就不同，一是垂直传递，一是横向传递。垂直传递是传递到其他细胞的DNA，那些细胞能制造其他细胞，最后制造精子或卵子。因此，DNA信息垂直传递到下一个世代，然后再垂直传递到无数的未来世代。我管这种DNA叫作“档案DNA”。它们有不朽的潜力。传递“档案DNA”的细胞系列，叫作生殖系（germ line）。每个身体里都有一套细胞，最后会衍生出精子或卵子，因此就是未来世代的祖先，那套细胞就是生殖系。DNA的信息也能横向传递：传给生殖系以外细胞的DNA，例如肝细胞或皮肤细胞；在这些细胞中再传给RNA，然后是蛋白质，以及各种对于胚胎发育的影响，因而影响成体的形状与行为。你可以将横向传递与垂直传递对应于第三章谈过的两个子程序，发育与生殖。

1700268598

1700268599 自然选择就是不同DNA竞争垂直传递管道的结果，当然，不同的DNA进入物种“档案DNA”的成功率并不相同。任何一个DNA的竞争对手，就是在物种染色体特定地址上注册了不同信息的DNA。有些基因比对手基因更成功地留在物种档案中（物种ROM）。“成功”的终极意义是留在物种档案中，成功的判断标准通常是基因通过横向管道对于身体的“行动”。这也与计算机里的生物形模型很相似。举个例来说吧。假定老虎有一个特定基因，通过横向管道影响了上下颚的细胞，使牙齿变得不怎么锐利，可是这个基因的对手基因，却会使牙齿变得更尖利。老虎的牙齿要是特别尖利，就能更利落地杀死猎物；因此就会有更多的子女；因此就能垂直传递更多“利齿”基因的复本。这头老虎同时也传递了其他的基因，不错，但是平均而言，拥有利齿的老虎体内才有利齿基因。就垂直传递而言，这个基因得益于它对各种身体的平均影响力。

1700268600

1700268601 DNA作为档案媒体，表现非凡。它保存信息的能力，远胜石板。乳牛与豌豆（以及我们人类）都有一个几乎一样的组蛋白H4基因。它在DNA上，由306个字码组成。我们不能说它在所有物种中都登记在同一个地址下，因为我们无法有意义地比较物种之间的地址卷标。我们能说的是：乳牛DNA上有一串字码，共306个，豌豆DNA上也有这一串306个字码，几乎完全一样。两者只差两个字母。我们不知道乳牛与豌豆的共同祖先究竟生活在什么时候，但是化石证据显示：那必然在10亿到20亿年前。就说15亿年前吧。以我们人类来说，15亿年可真难以想象，在那么悠长的岁月中，从那位远古共同祖先分化出来的两个生物世系，居然将原始信息中的306个字码保存了305个（这是平均数：也许一个世系保存了所有306个字码，另一个世系保存了304个）。刻在墓碑上的字母，不过几百年就难以卒读了。

1700268602

1700268603 组蛋白H4这份DNA文件还有一个特征，与石板不同，因此信息能够忠实保存下来更令人觉得不可思议，那就是：它并不是因为材质耐久，所以登录的信息能完整保存。这份文件一代又一代地反复复制过，就像古代的希伯来经典，每80年就由抄手（书记）隆重地誊录一通，免得抄本耗损、字迹漫漶。从豌豆与乳牛的共同祖先，一直传到今天的乳牛身上，这份组蛋白H4文件不知誊录过多少次了，实际的次数说不准，但是可能经过200亿次连续誊录，应是合理的推测。经过200亿次连续誊录仍能准确地保存信息内容的99%，这实在难以找到适当的标尺来打分数。我们可以试着用一种传递游戏来当标尺。请想象：有200亿个打字员坐成一排，这一排可以环绕地球500圈。第一个打字员打出一页文件，然后传给邻座的打字员。他重打一遍，再将打出的复本传给下一个打字员。他重打一遍，将打出的复本再传给下一个打字员。如此这般，一直到复本传到最后一位打字员手里。好了，让我们读读这份文件（或者说，这第200亿位打字员读这份文件）。你猜这份文件与原始文件会有何差别？

1700268604

1700268605 为了回答这个问题，我们得对打字员的出错率做些假定。让我们将这个问题扭转过来。每个打字员必须多么仔细，才比得上DNA的表现？答案几乎可说太过荒谬，不值一提。一万亿分之一！连续打一万亿个字母，只准错一个。换言之，整本《圣经》一次誊录25万个复本，只准错一个字母。现在的秘书，每页只出一个错就算不错了。算来组蛋白H4基因的出错率必须放大5亿倍才比得上。一排秘书辗转抄录这份以306个字母写成的文件，到第20名，这份文件只保存了原始文件的99%。到了第10000名秘书的手上，原始文件中的信息只剩下1%。别忘了，整排秘书共有200亿位，这时还有99.9995%没见到复写本呢。

1700268606

1700268607 我承认，这个比较多少有点儿诈欺的成分，但是有趣的也在这里，而且这个面相颇富玄机，值得讨论。我的讨论让人产生的印象是：我们想测量的是复制过程中的出错率。但是组蛋白H4文件不只要复制，还必须受自然选择考验。组蛋白关系生物体的生存，极为重要。染色体的结构工程就要用到组蛋白。也许组蛋白H4基因在复制过程中出过许多错，但是带有组蛋白H4突变基因的个体都无法存活，或者至少无法繁殖。为了让比较公平些，我们应该在我们的想象实验中加上些条件，例如每个打字员的打字机与一把枪联机，只要打字员一出错，扳机就会扣动，无异找死。下一名打字员就自动递补上来。（要是读者觉得枪毙太残酷了，也许可以想象打字员坐在弹射椅上，只要一出错，就给弹射出去，但是枪毙比较符合自然选择运作的逻辑。）

1700268608

1700268609 你看出来了吧，前面测量DNA恒定性的方法，就是检查特定DNA片段（基因）在地质时间中的变化量，其实混淆了真正的复制忠实度与自然选择的过滤效果。我们只能观察到成功的DNA变异（突变）。导致死亡的突变我们观察不到。我们能够测量到真实的复制忠实度吗？就是每一世代自然选择开始运行之前的情况。可以。取所谓突变率的倒数就成了，突变率是可以测量的。结果，在任何一个复制DNA的事例中，任何一个字母复制错误（点突变）的概率略高于十亿分之一。组蛋白H4基因在演化过程中实际发生的突变远低于这个数字，反映的是自然选择保存这份古代文件的效能。

[ 上一页 ] [ :1.70026856e+09 ] [ 下一页 ]