1700237498
生命密码:你的第一本基因科普书 莫以基因组大小论英雄
1700237499
1700237500
什么叫基因组?
1700237501
1700237502
当我们遇到一个新的物种,随着知识背景的不同而愈发专业,大概会从“这是什么动物”“这动物是肉食还是植食”,一直问到“这动物是哪个科的”。至于“这货能吃么”,不在本次讨论之列。
1700237503
1700237504
当我们从基因角度去研究一个物种的时候,一定会问一个问题:“这个物种基因组有多大?”第一次看到这个名词一定会有些奇怪,基因就是基因,基因组又是个什么东西呢?这东西还能用大小描述么?
1700237505
1700237506
为了便于理解,我们用扑克牌举例。一副牌不算大小王是52张,花色是黑、红、梅、方;一个人的基因组有30亿个碱基对(3Gb),花色是A、G、T、C(A腺嘌呤、G鸟嘌呤、T胸腺嘧啶、C胞嘧啶),都是DNA的基本组成部分。如果咱们玩斗地主,78910JQK,这个序列是有意义的,在扑克牌里叫顺子,在基因组里可类比于一个基因。但如果这个顺子里面的10变成了9,那么这个本来可以一次出去的牌,就变成了只有一对9,其他都是单牌,这副牌玩下去可能就输了。这样的变化就属于基因突变,如果发生在重要的基因上,可能就会引起遗传疾病或者肿瘤。
1700237507
1700237508
这个地球上相当比例的生物都是二倍体,即由受精卵发育而来,且每一个体细胞内都有两套染色体,分别来自父母。人类也是如此。但我们讲基因组的时候通常说的是其中的一半,即单倍体。我们可以把一个人的基因组想象成一副有30亿张牌的扑克,分成了23摞,每一摞就是一条染色体,所以一个人是有23对染色体的(22对常染色体和1对性染色体),又因为性染色体有X、Y两种,所以人类总共有24种染色体。我们人类大约有22000个基因(准确的数字今天依然有争议),但也只占到了全部序列的1.5%,其他清楚功能的算在一起也不过3%。也就是说,我们基因组当中至少还有97%是“暗物质”,越来越多的证据表明这些之前认为的“垃圾序列”是有用的,只是我们还没有研究得很明白。
1700237509
1700237510
现在你明白了吧,说一个物种基因组有多大,就是问这个物种有多少张“扑克牌”,也即多少个碱基对。比如乙型肝炎病毒基因组有多大啊?3.2Kb,也就是3200对;大肠杆菌基因组有多大啊?4.6Mb,也就是400多万对;果蝇(一种苍蝇)的基因组有多大啊?137Mb,也就是1.37亿对;水稻的基因组有多大啊?460Mb,也就是4.6亿对;大豆的基因组有多大啊?1Gb,大约是10亿对;那小麦的基因组呢?16Gb,也就是160亿对。至于人类,刚才已经讲过了,大约是3Gb,也就是30亿个碱基对。不光是人类,大部分哺乳动物也都是在3Gb左右,而鸟类的基因组大部分是1Gb左右,至于鱼类、两爬类还有昆虫们,它们的基因组大小范围就非常广阔了,从几百Mb到几十Gb都有,还真不容易一概而论。
1700237511
1700237512
你可能有点儿混乱了,难道不是物种越高等,基因组就越大么?当然不是,正如不能说鲸鱼、大象比人体型大,它们就比人类更高等一样。物种的基因组大小和它的复杂性之间没有严格的对应关系,这个现象被称为“C值悖论”。
1700237513
1700237514
C值悖论
1700237515
1700237516
我们终于可以正经地讲讲基因组了。基因组是生命的源代码,是细胞内所有的遗传信息的总和,是指导物种生长、发育和繁衍的基本程序。
1700237517
1700237518
30多亿年前,生命的第一个完整基因组诞生,它具有了复制、变异和遗传的特性,从诞生之日起便在这个星球上以不可阻挡的力量扩散和传承,形成了今天众多已知和未知的丰富多彩的生命形式。这些栖息于不同生命载体的基因组在时间和空间中有着无穷的多样性,基因组大小的变异就是其中之一。这个大小,我们用C值表示。
1700237519
1700237520
C值,即每一种生物的单倍体基因组DNA总量,或者通俗一点理解,也就是这个物种的所有扑克牌,即所有碱基对加在一起有多重。我们一般用皮克(pg,10~12克)表示,1pg的重量约等于1Gb(10亿个)的碱基对。虽然生命大致还是遵循了从简单到复杂、从低等到高等的演化模式,但正如刚才列举的例子,基因组大的物种并不一定更高等。
1700237521
1700237522
目前研究结果显示,对于每个生命大分支(细菌、真菌、动物、植物、藻类和原虫等),基因组大小与生命复杂度之间并没有绝对的相关性,“低等”生命可能拥有极大基因组,而“高等”生命的基因组可能小巧而精致,这就是物种之间基因组大小变异的C值悖论。
1700237523
1700237524
这似乎与我们的感性认识不相符合。
1700237525
1700237526
1700237527
1700237528
1700237529
示意图:陆生植物的基因组大小分布
1700237530
1700237531
(内圈是以苔藓植物为起点构建的陆生植物系统发育树,最小分支单元为科,各科按演化出现的时间先后顺序在图中逆时针排布;外圈有色条柱,高度代表该科平均基因组大小,单位Gb;内圈加粗的灰色分支对应的外圈基因组大小数值暂缺。数据引自:Jaume Pellicer, et al., Genome Size Diversity and Its Impact on the Evolution of Land Plants)
1700237532
1700237533
表面上看,我们会认为基因组越大的物种,越可能拥有更复杂、更高等的生命形式。然而,这就如同单看国土面积并不能和GDP(国内生产总值)成正比一样,GDP与该国的科技水平、人口组成、经济构成甚至宗教文化都有关系,谁也不知道国土面积数字背后是否为不宜居住和种植的沙漠或极寒地带。
1700237534
1700237535
另外,C值悖论与达尔文的演化论和自然选择理论也是不吻合的。人类基因组大小约是水稻基因组大小的七倍,却只有小麦基因组的约五分之一,在自然界的生命体中处于一个中间值位置,但人类却拥有无可比拟的语言沟通、劳动创造及建立社区和国家的能力。这就常常引起人们的思考:如果不是因为拥有超大或超复杂的基因组,又是什么让人类不同于其他生命脱颖而出,进而站在生命金字塔的顶端而主宰地球的?这是一个人类相关领域学家都关心的有趣问题。
1700237536
1700237537
而物种内部不同亚种之间,基因组大小各个层面的变异,却往往与很多重要表型性状相关联。而这些变异绝大多数来源于功能未知的异质染色质和非编码区域,也就是我们刚才提到的基因组中“暗物质”的部分。
1700237538
1700237539
最大的基因组有多大?
1700237540
1700237541
到目前为止,已发现的最小生命基因组(不包括病毒)只有0.0005pg(0.5Mb),来自布氏菌属;已报道的最小真核生命基因组来自寄生在一些哺乳动物的微孢子虫,约为2.25Mb;而最大的基因组来自植物界的日本重楼,也叫衣笠草,约为148.8Gb(前纪录保持者石花肺鱼的基因组大小约为132.8Gb),最大的真核基因组与最小的真核基因组之间的差距约为64000倍。这些记录基本达到了一个能行使正常生存繁殖功能的生命极限。
1700237542
1700237543
过去几十年,合成生物学致力于能够合成最小的功能基因组,这一直以来是人类试图证明“上帝扮演者”身份的重要尝试。同时,在基因组测序和组装领域,挑战解码最大的基因组序列也是人们孜孜不倦地解读大自然生命杰作的重要关注点。在这里,我们更多地探讨一下“巨型基因组”的问题,且主要关注基因组大小多样性最丰富的植物类群。
1700237544
1700237545
事实上,巨型基因组并不多见,大多数真核基因组都比较小(真核生物多样性极高,动植物仅仅是真核生命中极小的两个分支)。纵观所有真核生物,确有超过十多个物种基因组大小超过了100Gb(约占已知基因组大小物种的0.09%),来源于5个真核门类:一个来源于蕨类(Psilotales ),两个来源于开花植物(Liliales 和Santalales ), 两个来源于脊椎动物(Lepidosireniformes/lungfish 和Urodela/salamanders )。受当前检测技术限制,目前关于这些巨型基因组的结构和功能远未深入研究。
1700237546
[
上一页 ]
[ :1.700237497e+09 ]
[
下一页 ]