1700170793
基因组:生命之书23章 8号染色体 自利
1700170794
1700170795
人是延续生命的机器,是被盲目编程以保护自私基因的机器人载体。这一事实至今仍令人深感震惊。
1700170796
1700170797
——《自私的基因》(理查德·道金斯)
1700170798
1700170799
新款机器所附带的产品使用指南总是无法令人感到满意,说明书里面似乎老是缺少你所需要的那部分信息,还丢三落四的,搞得人晕头转向,陷入困境。不过好在它不会胡乱添加内容,不会在你读到关键部分的时候,突然插入5段席勒的《欢乐颂》,或是1套关于如何骑马的操作指南。通常情况下,指导机器安装的指南不会出现5份,也不会把你要找的安装指南拆分为27段并在各段落之间穿插进大量不相关的文字,如果是这样的话,要想从中翻找出真正的指南内容,可谓是一项艰巨的任务。人类视网膜母细胞瘤基因就是这样的,并且据我们所知,这样的人类基因很具代表性:27个简短的有义段落中间充斥着26页的冗余内容。
1700170800
1700170801
大自然母亲在基因组中隐藏了一个小秘密。每个基因原本不需要这么复杂,基因被打断为许多不同的“段落”(称为外显子),在这些“段落”之间存在着一些随机且无意义的长片段(称为内含子),以及一些完全不相关的重复序列,抑或是另外一个完全不同的(或有害的)基因。
1700170802
1700170803
之所以出现段落内容的混乱,是因为基因组这本浩瀚巨著的作者就是基因组自己,在过去的40亿年间,这本浩瀚巨著一直都在增减和修改。基因组这份自我编写的文本有着非同寻常的特性,尤其是会有一些其他内容寄生其中。虽然这个比喻不太恰当,但试想一下,一位写使用手册的作者,每天早上一坐到电脑前,就发现文本的每个段落都在试图引起他的注意,那些最喜欢大声吵吵的段落逼他把自己复制5遍,并放到下一面里。最后,使用手册中实质内容还是有的,否则机器就永远没法组装起来了,但由于作者的妥协,手册中充斥着那些被要求复制的段落,如同寄生一般。
1700170804
1700170805
实际上,随着电子邮件的出现,这个类比不再像以前那般牵强了。假设我给你发了一封电子邮件,上面写着:“当心,出现了一种讨厌的计算机病毒。如果你打开一个标题包含‘果酱’的邮件,它就会把你硬盘中的内容删个精光!请把这封警告邮件转发给所有你能想到的人。”关于病毒的那部分是我编的,据我所知,目前还没有主题为“果酱”的邮件在传播。但是我非常有效地霸占了你整整一个早晨,让你转发我的警告。我所发送的电子邮件就是病毒。[1]
1700170806
1700170807
至此,这本书里的每一章都集中讲述了一个或多个基因,并默认它就是基因组中最为重要的。别忘了,基因是指导蛋白质合成的DNA片段,但是我们基因组里97%都不是真正的基因,而是一系列奇奇怪怪的东西:假基因、逆转录假基因、卫星序列、小卫星序列、微卫星序列、转座子,以及反转录转座子。所有这些被统称为“垃圾DNA”,或者更准确地说,是“自私DNA”。其中有些是特殊的基因,但大多数只是一些永远无法被转录成蛋白质的DNA。由于这些故事顺承了上一章性别冲突的主题,因而,我们就在这一章里专门讨论垃圾DNA。
1700170808
1700170809
在此探讨垃圾DNA倒是很应景,因为除此之外,关于8号染色体我可没什么好说的了。这可不是说它是一条没什么意思的染色体,也不是说它上面没有几个基因,只不过8号染色体上没有特别能引起我注意的基因。就其大小而言,8号染色体应该不至于这么乏善可陈,然而它可能是基因图谱中绘制得最为粗略的一条染色体。每条染色体上都有垃圾DNA,有趣的是,垃圾DNA竟是人类基因组中最早被发现和利用起来的,是人们在日常生活中就能够用到的。正是在此基础之上,才发展出的DNA指纹技术。
1700170810
1700170811
基因可以编码蛋白质,但并不是所有的编码基因都是人体所必需的。在整个人类基因组中,编码蛋白质的最常见成分是一种叫作逆转录酶的基因,逆转录酶基因是一种对人体没有任何作用的基因。如果在受孕时能将所有逆转录酶基因全部小心翼翼地移除,那么这个人不但不会受到损伤,反而更有可能健康长寿且开心快乐。逆转录酶基因对某些寄生者而言是至关重要的,比如它对艾滋病病毒基因组非常有用,虽不是必不可少的,但却对病毒感染和杀死受害者起到了关键作用。相反,对于人类来说,逆转录酶基因是一种麻烦,甚至是威胁。然而,它却是整个基因组中最常见的基因之一,它有成百上千个拷贝散布在人类染色体上。着实让人感到吃惊,就好比发现汽车最常见的用途是逃离犯罪现场。为什么会存在着这么一个基因呢?
1700170812
1700170813
逆转录酶的功能或许可以提供线索:它把一个基因的RNA拷贝逆转录成DNA,再把DNA插入基因组,这是基因拷贝的一张回程票。通过这种方式,艾滋病病毒可以将自己基因组的一部分整合到人体中,以便更好地隐蔽、保存和有准备地复制自己。在人类基因组中之所以有很多逆转录酶基因的拷贝,是因为在很久以前,或是在不远的过去,人体能够识别出来的逆转录病毒便把它们放在了那里。有上千种几乎完整的病毒基因组被整合到了人类基因组中,其中大多数现已失去活性或丢失了关键基因。这些“人体内源性逆转录病毒”占整个基因组的1.3%,这听起来似乎不算多,但人类基因组中真正有功能的基因也不过只占了3%而已。如果觉得身为猿猴后代这一事实令人难以接受,那么就请习惯于其实人类也是病毒后裔这一说法。
1700170814
1700170815
但是为什么需要借助逆转录酶呢?病毒的基因组完全可以去掉大部分基因,只保留逆转录酶基因。这样,轻装上阵的病毒就大可不必通过唾液或趁人交合之际进行人传人传播,而只须进入宿主的基因组就可以实现世代传递,从而成为一个真正的遗传寄生者。这种“反转录转座子”比逆转录病毒更为常见,其中最常见的“序列”是LINE-1。这是一段DNA序列,长度在1000到6000个字母之间,在这段序列的中间位置有一个完整的逆转录酶编码基因。LINE-1不仅非常常见——在每个人类基因组里就可能有10万份拷贝,而且还总集中在一起出现,所以这个序列可能会在染色体上连续重复多次,它们占了整个基因组的14.6%,也就是说,将近5倍于那些真正具有功能的基因,令人咂舌。LINE-1有着自己的回程票,它可以主导自身的转录并制造逆转录酶,然后利用逆转录酶复制自身DNA并插入到基因的任何位置中,这大概就是基因组中LINE-1拷贝数那么多的原因所在。换句话说,基因组中这种重复序列之所以有那么多,没有其他原因,就在于它们善于自我复制。
1700170816
1700170817
“跳蚤身上有小跳蚤寄生,小跳蚤身上有更小的跳蚤寄生,依此类推,无穷尽也。”同理,LINE-1序列中也包含了寄生序列,这些寄生序列丢弃了自身的逆转录酶基因,转而借用LINE-1的。比LINE-1更常见的更短序列称为Alu,每个Alu有180到280个字母长,看上去似乎特别善于利用别人的逆转录酶来复制自己。Alu序列在人类基因组中可能被重复了100万次,加起来大约占整个基因组的10%。[2]
1700170818
1700170819
典型的Alu序列和一个编码参与蛋白质合成的核糖体基因序列非常相似,至于为何相似,其原因尚不清楚。不同寻常的是,这个基因有一个叫作内部启动子的元件,这意味着其编码“读我”信息的序列位于基因中间。这样,在需要转录时,它启动自身的转录信号即可,而无须依赖外界启动子,从而大大提高了增殖效率。结果就是每个Alu基因都可能是一个“假基因”。打个通俗的比方,假基因就是生锈的残骸,因严重的突变而沉入了水中。如今它们沉没在基因的海洋里,铁锈越积越多(也就是说,积累了更多的突变),直到它们不再与以前的基因序列相像了。例如,在9号染色体上有一个相当难以描述的基因,如果取出一个它的拷贝,然后在基因组中寻找类似于这个基因的序列,你会发现有14个拷贝与之相似,分布在11条染色体上,好似14艘沉船的幽魂。这些拷贝是多余的,一个接一个地发生突变,不再发挥作用。对于大多数基因来说,可能都是如此。对于每一个正常的基因,在基因组里的其他地方都有一批损坏的拷贝。有趣的是,不仅能在人类基因组里找到这14个拷贝,在猴子身上同样也能找到。在旧世界猴和新世界猴成为两个分支以后,其中的3个伪基因便消失不见了,科学家们激动地说,这意味着它们是在大约3500万年前才失去的编码功能。[3]
1700170820
1700170821
Alu进行大量增殖的历史也并没有太过久远。人们只在灵长类动物里发现了Alu,并将其分为5个不同的家族,其中一些是在黑猩猩和人类分化成两个不同的物种之后才出现的,说起来也就不过500万年。其他动物则有另外一些大量重复的短“段落”,比如在小鼠体内的B1。
1700170822
1700170823
将所有这些关于LINE-1和Alu的信息汇总起来,会得到一个意料之外的重大发现。基因组被像电脑病毒一样杂乱的、自私的寄生序列所充斥着,它们存在的原因很简单,不过只是善于自我复制罢了。人类基因组随处都是这种数字化的连环信(chain letters)及类似的果酱病毒警告邮件。人类有大约35%的DNA是由形式各异的自私DNA所组成,这意味着复制我们自身的基因需要多花费35%的能量。我们的基因组太需要进行垃圾清理了。
1700170824
1700170825
没有人会对此表示怀疑。当我们在解读生命密码的时候,没人会想到,基因组竟然被自私DNA如此肆无忌惮地剥削着。然而,其实我们早就该预料到这一点,因为其他所有生命,无论层次高低,都充满着寄生现象。动物的肠道里有寄生虫,血液里有细菌,细胞里有病毒,为什么基因里就不能有反转录转座子呢?此外,到了20世纪70年代中期,许多演化生物学家,尤其是那些对行为感兴趣的演化生物学家,开始意识到自然选择的演化方式无关乎物种之间的竞争、群体之间的竞争,甚至与个体之间的竞争关系也不大,而是关乎基因之间的竞争。这些基因以个体,或群体作为它们临时的载体,以展开竞争。例如,如果要个体在安全、舒适、长寿的生活与冒险、辛劳且危险地繁衍后代之间做出选择,几乎所有的动物(甚至是植物)都会选择后者,他们情愿为繁衍后代而付出死亡的高昂代价。事实上,它们的身体机能在有计划地退化,这个过程就是衰老。抑或是像鱿鱼或太平洋鲑鱼那样,产卵后立刻死去。除非你把身体看作基因的载体,看作基因在竞争过程中用来延续自身的工具,否则这些现象是无法自圆其说的。与繁衍下一代这个目标相比,生存下去反而是次要的。如果基因是“自私的复制机器”,而身体是可以丢弃“载体”(这一术语来自理查德·道金斯,争议颇多),那么当发现有些基因无须构建自己身体便可进行自我复制时,就不会那么惊讶了。当我们发现基因组也像身体那样,充满着独特的生存竞争与合作时,也就不必感到诧异了。在20世纪70年代,演化首次成为遗传学概念。
1700170826
1700170827
为解释基因组包含众多无基因区域这一事实,两组科学家在1980年提出,这些区域充满了自私的序列,它们唯一的目标就是在基因组中生存下去。他们认为:“寻求其他解释,不仅在学术上毫无创意,最终也会证明是徒劳的。”因为做出这样大胆的预测,他们当时受到了不少冷嘲热讽。遗传学家在当时仍然被这么一种思维模式所束缚着:人类基因组里的一切肯定是为人类服务的,而不是出于它们自身某些自私的目的。然而基因只不过是构成蛋白质的成分而已,把它们想象成怀揣着崇高理想与目标的东西,是没有任何道理的。这一想法已经得到了证实,基因的行为确实表现得像是有着某种自私的目标,虽然并非有意为之。但回过头来看,这样做的基因得以繁衍生息,而不这样做的基因则日渐消亡。[4]
1700170828
1700170829
一段自私DNA并不仅仅是个过客,它们的存在改变了基因组的大小,从而增加了复制基因组时的能量消耗。这样的片段也对基因完整性造成了威胁,因为“自私DNA”习惯于从一个位置跳到另一个位置,或者把拷贝送到新的位置,所以它很容易落在有功能的基因中间,把它们搞得面目全非。随后又跳脱出来,使突变也随之消失掉。20世纪40年代末,转座子就是这么被颇有远见但一直不受重视的遗传学家芭芭拉·麦克林托克(Barbara McClintock)所发现的,她最终也因此而被授予了1983年的诺贝尔奖。她注意到玉米种子颜色的突变只能解释为有些突变在色素基因里跳进跳出。[5]
1700170830
1700170831
在人体里,LINE-1和Alu通过跳到各种基因中间,从而引起了突变。例如,它们通过跳到凝血因子基因中,从而引起了血友病。但是,由于一些尚不清楚的原因,相较其他一些物种,我们人类受到寄生序列的影响并不大。大约每700个人类基因突变里,就会出现一个是由于跳跃基因而造成的。而在老鼠体内,有将近10%的突变是由跳跃基因而导致的。20世纪50年代,在果蝇身上做的一系列自然实验,显著说明了跳跃基因的潜在危害。果蝇是遗传学家最喜欢的实验动物,他们将研究的这种黑腹果蝇(Drosophila melanogaster)运往世界各地的实验室进行繁殖。而这种果蝇常常会从实验室里逃离出来,并遭遇到本地的其他果蝇。其中一种南美热带果蝇(Drosophila willistoni)携带着一种叫作P因子的跳跃基因。大约1950年的时候,在南美洲的某个地方,或许是通过吸血螨,南美热带果蝇的P因子进入了黑腹果蝇体内。(利用猪或狒狒器官进行“异种器官移植”的最大担忧之一,就是它们可能会把新的跳跃基因引入人体,就像果蝇中的P因子一样。)自此,P因子便像野火一样蔓延开来,除了那些在1950年之前从野外采集且一直与其他果蝇分开的那些个体以外,现在大多数果蝇都有P因子。P因子是个自私DNA,通过破坏它所跳入的基因来显示其存在。渐渐地,果蝇基因组中的其他基因开始反击,发明了抑制P因子到处乱跳的方法。P因子从此便作为乘客在果蝇基因组中安顿了下来。
1700170832
1700170833
人体中至今还未发现像P因子这么邪恶的东西。但是,在鲑鱼中也发现了一种类似的转座子,美其名曰“睡美人”。在实验室里将其引入到人类细胞中后,它呈现出了蓬勃生机,充分表现出了剪切、粘贴的能力。类似P因子那样的传播,也许在9种人类Alu元件上都发生过。每一种Alu元件都在整个物种中传播着,破坏其他基因,直到其他基因基于共同利益合力抑制这个跳跃基因,这样,跳跃基因就变老实了,处于目前这种相对沉寂的状态。我们在人类基因组中看到的不是迅猛发展的寄生DNA感染,而是处于休眠状态的许多过去的寄生DNA,它们都曾迅速传播过,直到基因组抑制住了它们,不过并未将其清除出去。
1700170834
1700170835
从这个角度来说(当然还有很多其他角度),我们似乎要比果蝇幸运得多。一个有争议的新理论认为我们似乎有一个抑制自私DNA的常规机制,这种抑制机制被称为胞嘧啶甲基化。胞嘧啶用遗传密码子C来表示,对其进行甲基化(顾名思义,就是添加一个由碳原子和氢原子组成的甲基),便可使它不再被转录。基因组的大部分区域长时间处于甲基化阻滞状态,或者更确切地说,是大部分的基因启动子(位于基因前端,转录从此处开始)处于阻滞状态。通常认为,甲基化的作用是关闭组织中无用的基因,从而使大脑不同于肝脏,肝脏又不同于皮肤,如此等等。但另一种流行的说法是,甲基化或许与组织特异性表达几无关联,而与抑制转座子和其他基因组内寄生DNA有着很大干系。大多数甲基化发生在转座子中,如Alu和LINE-1。这个新的理论认为,在胚胎的早期发育过程中,所有的基因在一开始的短时间内都没有被甲基化,全都是被表达的。接下来,一些分子会对整个基因组进行仔细的检查,这些分子的职责就是发现那些高度重复的序列,并通过甲基化将其关闭。而癌症的第一步就是将基因去甲基化,从而使自私DNA被释放出来,在肿瘤里进行大量的表达。由于它们本来就很善于破坏其他基因,这些转座子就会使癌症进一步地恶化。根据这个理论,甲基化有助于抑制自私DNA的影响。[6]
1700170836
1700170837
LINE-1的长度一般是1400个字母左右,而Alu则至少有180个字母。然而,还有一些比Alu更短的序列也会大量地堆积,不断重复出现。把这些较短的序列称为寄生DNA或有点牵强,但它们以大致相同的方式进行繁殖——也就是说,它们之所以存在是因为它们含有一个善于自我复制的序列,这些短序列中的一种,在法医和其他科学领域有很实际的用处。它就是“高变小卫星序列”。这个小小的序列在所有染色体上都能找得到,它出现在基因组的1000多个位置上。在每个位置上它的序列都只含有一个“词组”,通常是20个字母长,重复很多次。它可以根据位置不同而有所差别,也可以在不同的人体内以不同的形式出现,但它通常含有这些核心字母:GGGCAGGAXG(X可以是任何字母)。这个序列的重要性在于它与细菌中用以与同类细菌交换基因的序列非常相似,而且它在人体内似乎也参与了促进染色体之间基因交换的过程。就好像每一条这种序列都在它中间写有“把我换走(swap me about)”的字样。
1700170838
1700170839
以下是一个多次重复出现的小卫星序列:
1700170840
1700170841
hxckswapmeaboutlopl-hxckswapmeaboutlopl
[
上一页 ]
[ :1.700170792e+09 ]
[
下一页 ]