1700254523
克雷特曼在醇脱氢酶中发现的变异并不是巧合,类似的变异在自然界中广泛存在,甚至在活化石腔棘鱼中也有。人们曾经以为这种鱼早已灭绝,直到1939年又发现了幸存的个体。未表达突变的普遍性至今还在困扰着分子进化学家们:它们于表现型变化而言重要吗?它们和生物进化又是否有着紧密的联系?我们只知道,未表达突变的存在让基因型与表现型的关系变得更加扑朔迷离,表现型背后的原理依旧让人捉摸不透。
1700254524
1700254525
1700254526
1700254527
1700254528
在20世纪80年代,光是掌握识别DNA碱基对的技术已经令人称奇。然而,与庞大的整个人类基因组相比,小小的碱基对就相形见绌了。人类基因组包含了30亿个碱基对,比《大英百科全书》还长10倍。我们身体内的每个细胞都拥有一套完整的基因组,高度压缩后形成了46条染色体。如大肠埃希氏菌这样微小的细菌都有450万对碱基对,比世界上最长的小说之一《战争与和平》的字数还多。高效测定单个个体的DNA序列所需要的技术还亟待改善,更不用说整个种群了。
1700254529
1700254530
发展这项技术的推动力来自“人类基因组计划”,这是于1990年启动的一个大型国际合作项目,由美国国家卫生研究院牵头。项目宗旨在于了解导致疾病的基因,遗传病相当于一种特殊的新表现型。1998年,克雷格·文特尔(Craig Venter)[5]创立了塞莱拉基因科技(Celera Genomics)公司,立刻成了上述组织的强大竞争对手。文特尔的公司设法用1/10的成本测定所有的基因,并在2000年与公立组织在同一时间宣布完成了第一幅完整的人类基因组草图的绘制。
1700254531
1700254532
人类基因组是生物学领域众多的里程碑之一,它展示了无数的基因信息:人类所有的基因以及它们所编码的蛋白质序列等。克林顿总统在2000年的国情咨文中把人类基因组草图称为“生命的蓝图”。可惜的是,即使真如克林顿所言,那它也不过是一张陈旧的蓝图,我们无法从中搭建出它所描绘的宏伟景象,甚至都不知道该让建筑工人到哪里去施工。因为迄今为止,“人类基因组计划”依旧没有透露给我们任何与表现型相关的有用信息。许多人希望“人类基因组计划”能对关于一个人是否会得某种遗传疾病给出一个肯定的答案,而以下是克雷格·文特尔在2010年德国《明镜周刊》的专栏采访中关于预测基因疾病的陈述:
1700254533
1700254534
我们从基因组当中只能得出遗传疾病发生的可能性而已。在临床医学中,如果告诉你罹患某种遗传病的可能性是1%或3%又有什么意义呢?这些信息一文不值。
1700254535
1700254536
1700254537
1700254538
这个评价虽然苍凉,却是不争的事实。其中的理由或许你已经猜到了:基因型和表现型的关系复杂得难以想象。雄心勃勃犹如“人类基因组计划”,也只不过是从基因型出发,前往表现型途中的又一个一公里而已,这条路的尽头依旧遥不可及。
1700254539
1700254540
虽然“人类基因组计划”有它的局限性,但也带来了许多益处,其中一个就是DNA测序技术的蓬勃发展。2000年,一个操作者能在24小时内读取完100万个碱基对;到了2008年,测序仪器已经能够在相同的时间内测定10亿个碱基对。这项技术还在迅猛发展着。在你阅读这两行字的时间段里,基因组测序的成本就可能已经从1 000美元降到几美分了。这些技术使得研究人类和其他物种的基因变异成为可能,它们把种群基因学上升到了种群基因组学的高度。
1700254541
1700254542
种群基因组学的诞生意味着基因型研究的终点,但对表现型来说却并非如此。在20世纪50年代中期,有关蛋白质的功能以及相互作用的研究就已经启动,科学家们一路高歌猛进,势如破竹。但时至20世纪90年代,他们就不得不转换研究思路了。以胰岛素为例,先前的研究已经让我们明确了合成胰岛素所需的基因,以及这些基因所编码的蛋白质和功能。但这些信息无外乎“谁是谁”或者“谁知道谁”,它们只是对信息进行了明确和组合,而对于预测个体的表现型,例如一个人是不是会得糖尿病,则丝毫没有用处。
1700254543
1700254544
科学家努力得到的结果还不足以告诉我们关键的细节,例如一个过程中涉及的蛋白质分子数量为多少,或者分子之间的关系强弱为几何。糖尿病的病因涉及几十种蛋白质大分子,每一种对糖尿病的患病都只有几个百分比的助益,它们之间通过相互作用对诱发糖尿病产生微妙的影响。所以单纯系统地罗列所有相关的蛋白质分子以及它们各自的特性,对于我们理解生命过程而言收效甚微。我们需要弄清楚不同分子之间是如何相互协作的。
1700254545
1700254546
处理这种整体性的唯一手段是数学,数学能够消化大量的实验数据,从而描述生物大分子的活动和密度是如何随时间变化的,这些活动是理解表现型的关键。举个例子,Ⅱ型糖尿病发病时身体会发生胰岛素抵抗,这是一种与健康人完全不同的表现型:胰腺释放胰岛素,但由于肝脏对胰岛素不敏感,所以从胰岛素受体开始,激素信号会在传递的某个环节突然减弱或增强。这个改变影响了信号链,因而诱发了疾病。只有数学的精确量化能够帮助我们理解这种微妙的过程,这是单纯的罗列和分类做不到的。
1700254547
1700254548
然而,用数学方法描述表现型并非易事,从数十年的实验数据来看,主要大分子相互之间的相互作用有许多变量。这些计算的复杂性绝非简单的人工笔算所能完成,即使是最杰出的数学家也做不到,必须要有计算机的协助。
1700254549
1700254550
21世纪生物学对计算机的依赖性,犹如摄影技术之于相机。计算机的适用范围绝非仅限于实验室,从超低温冰箱到咖啡机,它们凭借自身强大的能力在各个领域占有一席之地。就像17世纪的显微镜一样,计算机带领我们走进了一个新世界,一个如此微小的世界,即使是最尖端的电子显微镜也无法欣赏得到,即分子的世界。称计算机为“21世纪的显微镜”当之无愧,可以帮助我们看到连达尔文都不了解的分子网络。
1700254551
1700254552
生物学领域中,计算机技术的整合是一个新兴现象。纵观生物学的发展历史可以看到,生物学的发展总是受制于数据处理能力。早期探险家需要航行数年,才能在偏远的小岛上发现新的物种;即便在分子生物学发展早期,分离一个基因也通常需要花费好多年时间。如今这种景象已经一去不复返了。由于科学技术的发展日新月异,生物信息数据如雨后春笋般喷薄而出,你不仅可以在数千个不同的数据库中找到基因和基因组的信息,还能找到许多其他生物大分子,以及这些大分子之间的相互作用关系。每年都有大量的新数据进入数据库。新一代的科学家——计算机生物学家,只负责处理现成的数据即可,而无须自己进入实验室收集信息。生物学家摇身一变成为信息科学家,享有着无穷无尽的数据信息。在探讨自然法则的过程中,限制我们的仅仅是自己的想象力和分析数据的技巧。
1700254553
1700254554
当然,这些技术也会面临相应的挑战,因为生物性状起源的问题已经困扰了科学家将近一个世纪的时间。一方面,我们知道生物的表现型就像一幅巨大的点彩画,作画的人每次只往画上加一点。但是,这个比喻并不能告诉我们具体应当如何创作出一幅美丽的图画。研究性状起源的挑战很容易让人望而却步。以醇脱氢酶为例,它的氨基酸连接方式已经远远超过宇宙中的氢原子数。如果我们用完全的随机突变来解释新性状的起源,那么这首从达尔文时期就开始回荡的咒歌与阿那克西曼德的鱼腹理论似乎半斤八两,不啻于把我们的无知藏在地毯下假装看不见。当然,这并不意味着突变和自然选择就不重要。不过仅有自然选择不足以解释自然界惊人的有序性,我们仍然缺少一种能够加快进化速度的方法。
1700254555
1700254556
哪怕时间倒退几年,我们都不可能理解这种方式,更不要提这本书的出版。由于生命体由分子构成,所以我们需要通过分子来了解进化:不仅是DNA中的基因,还有基因型究竟如何塑造了表现型。表现型和DNA本身并不对等,它是生物体有序的层级架构,从最高层的器官到组织,再到细胞,再往下还有构成细胞的分子和分子之间形成的关系网络,最后精确到单个蛋白质。新的表现型和性状可以在这之中的任何一个层级出现。30年前,我们对于这种复杂性还一无所知。
1700254557
1700254558
如果连如今的我们都只是略懂皮毛,那就更不用提达尔文了。把他不知道的东西列出来简直可以出一本现代生物的百科全书。达尔文不但不了解生物性状的起源,在前孟德尔时期,他对基因的存在同样茫然无知,更不用说DNA和遗传密码了。他同样也不会知道群体遗传学和发育生物学,他对分子如何构成生物体一无所知。达尔文对生命真正的复杂性毫无察觉,许多后人也因此觉得他们可以理直气壮地忽略这一点。但是为了找寻生命进化的秘密,我们必须勇敢面对生命的复杂性,而不是逃避。
1700254559
1700254560
一种久经考验的认识生命复杂性的方法是关注一个或几个基因型以及它们对应的表现型,这也是早期基因学家发现基因的基本方式:通过某个表现型的变化追溯源头的变异基因。在基因组时代,这个方法也适用于研究DNA序列的功能:诱变某个基因并观察相应的表现型变化。应用不同技术得到的发现相当惊人,比如苍蝇体内的基因突变导致它发育出了两对翅膀,植物长出了变形的叶子和以新物质为食的微生物等。科学家诱变了许多基因,得到了千奇百怪的表现型。
1700254561
1700254562
然而,这些个别的例子到底能在多大程度上说明问题呢?就像探险家如果要绘制新大陆的地图,光是沿着海岸线航行,随便抛锚上岸散个步是远远不够的。他们需要环绕整个大陆以画出它的轮廓,从河流三角洲驶入内陆摸索清楚河流的分布,他们还必须爬上山脊,穿过沙漠和丛林。对于生命的创造性,我们也需要绘制这么一张地图,一张从基因型到表现型的地图,标出每一个基因型的变化,以及它们如何影响了表现型。我们需要这样的地图来补全达尔文的伟业。
1700254563
1700254564
不过即使拥有最好的技术,这张地图也没有那么容易绘制。就一张具有高分辨率的地图而言,我们需要获得超过10130种氨基酸链的表现型资料,那还不算由成百上千种基因和蛋白质组成的更高层次结构。换句话说,绘制一张高分辨率的生命地图不只是困难,几乎是件不可能的事。幸运的是,我们并不需要把每一粒沙子都在地图上描绘出来,如果我们只关注地形特征,就能减轻很多绘制的负担,需要研究的基因型数量也会大大下降,不过剩余的基因型数量依旧数以亿万计。鉴于表现型可研究的角度很多,所以我们要精心选择,保证这些我们研究的角度对生命的进化而言至关重要,同时又处于现有知识和分析工具所能处理的范围之内。
1700254565
1700254566
柏拉图的本质主义论与进化主义论不共戴天数十年之后,在这些地图中正东山再起。与柏拉图时期简单枯燥的几何世界相比,21世纪本质主义的内涵要丰富得多。它对达尔文主义思想兼容并蓄,又不拘一格,是我们理解自然选择的关键。仅凭肉眼人类是无法了解某些现象的,就像无法用肉眼看清楚萨莉·加德纳在奔跑的时候是否真的四脚离地。幸运的是,我们现在已经具备了看清进化世界的技术。
1700254567
1700254568
现代技术给我们展示了一个柏拉图式的色彩斑斓的世界,展示了40亿年以来生命进化的动力和起源。
1700254569
1700254570
1700254571
1700254572
[
上一页 ]
[ :1.700254523e+09 ]
[
下一页 ]