1700863440
1700863441
外显子测序是指对实际上与编码蛋白质相关的1.5%的基因组测序。这个测序过程是帮助我们寻找功能性的变异——之所以这样讲,是因为他们影响与疾病直接相关的编码蛋白质的结构和功能。相比全基因测序要在干草堆里挑出针来,根据大小,外显子测序要简便得多。外显子测序可找到千分之十的变异,而全基因测序遇到超过五十万个变异。窍门就是找到起作用的那个或那些变异。最好的确定该基因变异是否是起作用的那个的方法是繁殖有基因变异的老鼠,(即直系同源基因变异,也就是老鼠的基因突变与人的基因突变相同),观察老鼠是否将疾病的显型概括表现。但很少有其他形式的试验能被支持或证实并得以接受。例如,电脑模拟下以电脑来预测某物质的编码变异是否显著改变蛋白质的结构或结合特性,(如破坏酶的催化部位,——本质上起作用的那头)。对外显子以外的基因部分,这个任务非常复杂——我们迄今尚无办法预知基因组常规变化的功能。
1700863442
1700863443
相比于全基因测序,外显子测序的低费用和快速完成,近来也让外显子测序很热闹,成为破解疾病的首选方法。作为结果,借助外显子测序确定了以前不明根源的各种各样罕见的孟德尔病(Mendelian disease)。数种癌症,如卵巢透明细胞癌和葡萄膜黑色素瘤,通过外显子测序确定了关键的突变。发现病因的努力也扩展到不明原因的智力障碍、脑畸形、甚至西藏人适应高海拔的能力。因此,外显子测序的第一年就取得了突飞猛进的成绩,全球的基因组团体也在热情地你追我赶。第二阶段的基因组淘金热正在正式展开。
1700863444
1700863445
但是外显子测序并非没有缺点。这个方法并非“无预先假设”,测序有效的前提是基因突变存在在外显子中。真正要在遗传性疾病中解决问题,需要找到制胜的砝码——下一步在更大范围内开展全基因组测序就成为必然。
1700863446
1700863447
全基因组测序
1700863448
1700863449
就像我和我的一位同事在2007年写:“最终,当全基因组测序进入实用阶段,而且检查费用可以承受,基因组相关的健康和疾病的检测会越来越容易得到解决。”目前尚不能开展实用性的全基因组测序,且检测费用也不现实,但过去几年取得的成果远远超出任何人的预想。
1700863450
1700863451
最初的研究开始于1970年代,是手工检测,使用放射性同位素标记。凝胶技术的应用开始于1980年代,到了1990年代开展自动化测序。但是即便在那时,每天也只能对不到10000个碱基对测序,每个碱基检测耗资10美元;到了1990年代中期,毛细管测序得到应用,这项方法最终将每天监测的碱基对从15000个增加到超过100万个,每个碱基的检测成本降低到1美元。像尼古拉斯·沃尔克的医生那样把外显子测序和全基因组测序引入现实生活中的原因在于“大规模并行测序”仪的投入使用,得以同时检测成百上千的基因序列段。2005年在454生命科学平台仪(454 Life Science platform上)每天可以测序100万个碱基对,到2010年(使用Illumina HiSeq和Life Technologies的SoLiD 4测序仪)每天测序增加到250亿个碱基对,检测速度上千倍地提高,而每个碱基的检测成本从0.01美元下降到0.000001美元。这样的提高速度也让摩尔定律见了鬼。
1700863452
1700863453
回顾一些标志性的成果所付出的时间和开支,有助于展望将来。第一次人类基因组测序,实际是众多人参与的一个大混战,用了十三年,花费了27亿美元。2007年,克莱格·凡特博士的基因组研究花了四年时间,耗资1亿美元。沃森(Watson)的基因组2008年只用了四个月的时间,花费掉了150万元。到了2008年11月,许多人类基因组只用一到两个星期测序,成本十万美元。2009年斯坦福大学教授斯蒂芬·夸克(Stephen Quake)在一周内对自己的基因组测序,花费不到五万美元。到了2010年,一家领导基因组科学研究的Illumina公司,花费28000美元进行全基因组测序,新建立的Complete Genomics(完全基因)公司声称,在不久的将来只花费5000美元即可完成全基因组测序。2009年底,他们在《科学》杂志上发表关于多项人类及应组测序的研究结果,并断言“高精准度,用于测序中的支出的可以负担得起的4400美元成本,和可扩展的检测设备,促成完成在大范围的基因研究中检测到罕见的变异的人类全基因组测序。”到2011年底,Complete Gennomics公司每月开展的人类全基因组测序已达约1000例。
1700863454
1700863455
如此高的检测能力令人吃惊,但是只有一部分从临床角度认为全基因组测序是很有必要的。另一方面,是精确度的问题,而实际上,这也是设立的1000万美元的Archon X prize大奖——授予第一个在十天内完成100个人类基因组测序的团队——尚未颁布的原因。测序设备的精确度是测序覆盖的深度所决定的,这个测序深度是指测序时,被测基因组上平均单个碱基被测序的次数。如果平均是40次,这就是通常认为的深度测序,虽然应该记住,这是一个平均值,有些碱基可能被测序100次,而其他的可能只有10次。但在“饱和”点上,进一步的深度测序并不能根本的或实质性地提高精准度。
1700863456
1700863457
另一个关键的测序的度量标准是指测序阅读长度。在毛细管测序时代,当标准的Applied Biosystems(应用生物系统)公司生产的仪器可以测序阅读1000个碱基对时,这不太算是个问题。从对测序阅读低于40个碱基对开始的大规模并行测序,到目前为止,已经可以对几百个碱基对并行测序。但寻找插入和缺失(InDels)、拷贝数变异(CNVs)、染色体倒位以及诸如此类的结构变异时,不幸的是,短片段的测序阅读毫无意义,或甚而起误导作用。要记得,所寻找的罕见的极少发生的基因变异,人群中只有不到百分之一甚至比这低得多的发生率。如果寻找在人群中只有千分之一发生率的变异,测序的精确度为99%,30亿个碱基对的测序假性率为1%,就会出现300万个碱基对的假阳性变异。因此,确切地被发现的罕见变异的数量也达300万,意味着所有阳性发现中有一半是假阳性。将假阴性剔出是个大累赘。相应的,改进测序的覆盖深度和阅读长度,尽可能将测序的精确度提高到100%,为此所做的一切努力都应该让测序和接下来的数据解读具备实用性。尽管测序成本有显著降低,但还远远不够,但这也不意味着竞争后不会达到预期的目标。
1700863458
1700863459
竞争的激烈程度我有幸于2008年2月在佛罗里达马可岛举办的基因组测序年会上亲眼目睹。每个基因组测序公司在会议上全情投入,毫无保留地将公司名字和产品印在多达千种的与会者的会议纪念品上。不同的测序公司——Illuminated,Life Technologies,Pacific Bioscience和Helicos公司承担了会议的用餐。Pacific Bioscience公司,当时公司还在私下运作,把这次年会当做公司“发布会”,承办了海滩上的篝火晚会和庆典。即便我的宾馆房卡上也印着某家测序公司的名字和公司商标。
1700863460
1700863461
我参加了由Pacific Bioscience公司赞助的座谈会,讨论在医学基因组研究方面取得更大进展时,测序还能做到哪些事。照例,会议的重点是用最少的时间做最更多的事;会上,公司代表介绍在未来的某一天,能在15分钟以内对人类基因组测序(然而三年以后,他们也尚未对一个人类基因组完成测序)。当我到达会场时就意识到座谈会错过了一个根本的问题。每个人都在老生常谈关于精确度、覆盖深度、阅读长度、测序能力和成本。但是,我想知道,哪些人,哪些患者应进行测序?为了取得研究遗传性缺失的实质性进展,需要对数以千计的人群——有些人有特定的病情,有些人没有特定的病情作为合适的对照,——进行全基因组测序。而且,需要确定对照组是真正的对照组,对照组中没有人会患特定的病情,否则,就不应该在对照组中。
1700863462
1700863463
事实上没人谈到这类研究。千人基因组计划(1000 Genome project),一项国际性的政府资助的协作项目正在进行中。所进行的测序对象是随机选择、匿名的、健康情况事先未知,呈低的测序深度覆盖。当时或即便在几年以后,也没有我考虑到的人群测序的相关计划。也有少数例外,例如对数千名2型糖尿病病人进行地大规模基因测序。很大的原因是检测费用:即使到2011年,不管是Complete Genomics公司还是Illumina公司全基因测序的价格低于5000美元,任何这方面研究的开支仍然需要1000万美元以上。
1700863464
1700863465
凯文·戴维斯(Kavin Davies)在他2010年出版的书《1000美元基因组》(The 1000$ Genome)中写道,测序的价格会持续走低。但即便是花1000美元进行基因组测序,也未必搞定所有支出。测序成功还只是开始,深入解析才是限速步骤,现在估计这方面的成本在数十万美元。如果每个人的基因组测序覆盖是30次,需要处理多达900亿的碱基对。当然,测序是分段进行地,随后待整合后再与对照参考基因组对照,与已知的功能性变异比对注释。接下来“数量分析专家”(新型数学专家)会接手:将主基因分析、计算生物学、和信息学用于找到有意义的发现,将原始的测序数据转变为真正的信息。典型的人类基因组测序与对照参考基因组对比出现约300万给基因序列变异。大约10万个单核苷酸多态性(SNPs)被视作“异常的”(最早在被测者中找到),其中的15000到20000的SNPs在外显子中存在。由于越来越多的人在做全基因组测序,SNPs被发现的几率会减小,存储在核苷酸多态性数据库中(dbSNP),异常变异的数目也相应日渐减少。
1700863466
1700863467
人类基因组功能临床注释是另一个重要步骤。有关对斯蒂芬·奎克(Stephen Quake)快速自我测序试验的报道有三位作者,为得到相关原始数据花了一个星期。但当开始注释基因组,需要31位研究者耗费数百个小时翻阅基因组变异和相关的文献资料,从而找出哪个基因才是有临床意义的。奎克本人有患糖尿病、冠状动脉疾病、肥胖的风险,但特别让人感兴趣的是63种可被预测的药物基因组学相互作用,其中包括波立维(Plavix)无法代谢、华法林(warfarin)用量需要降低,对β-阻滞剂和常规降血糖药物无反应。另一个罕见变异是,他还患有囊肿性纤维化病,而他以前自己并不知道,由于这属于孟德尔隐性性状(Mendelian recessive trait)需要两份罕见变异的标本,他和他妻子联同进行相同测序得到的数据会更有用。同时还注意到奎克的表亲在十九岁时猝死,死因不明。在2011年,据说他的表亲的DNA将被测序,这是第一例“分子学尸检”。
1700863468
1700863469
因此,从全基因组测序中我们可以了解到很多东西,但这种测序属于,并将继续属于奢侈的范畴。今后其临床应用也是相当有限的。由此目前战略中全基因组测序(WGS)主要应用在癌症。对肿瘤和种系细胞DNA(germ-line DNA)进行配对测序,已找到若干癌症的驱动突变。第一例是白血病患者,8个基因的小子集被确定与癌症驱动相关。在寻找过程中,研究者对980亿个来自白血病细胞的碱基对测序(基因组测序达30次),配对的420亿个碱基对来自种系细胞(取自皮肤细胞,测序十四次)。几种实体肿瘤,包括肺癌、乳腺癌、和胰腺癌,已被测序。在小细胞肺癌,全基因组测序确定的信号与烟草暴露相关。全基因组测序也应用于家族中有四人患有米勒综合征(Miller syndrome),这种罕见的孟德尔性状的疾病,提供超出外显子测序的增量结果,这个方法也曾在先前被用于这类孟德尔性状的疾病(确定第二个基因突变)。全基因组测序也用于在特定家族中寻找夏-马-度病(Charcot-MarieTooth,遗传性运动感觉神经病)的基因缺陷,还用于研究患多发性硬化症的同卵双胞胎的发病差异(一个发病,一个未发病)。74最后这个研究,令人惊讶的是无法解释这样的神经疾病发病情况,这也证明了人类基因组有多么复杂。
1700863470
1700863471
基因组测序拯救生命
1700863472
1700863473
本章节开头所提及的尼古拉斯·沃尔克的故事,揭示了基因组测序的真正作用。医学上常常使用专业名词“先天的”或“原因不明的”来实际表示“尚不知道”。就像提到的这个孩子,需要通过连接腹部皮肤和小肠的造瘘进食。进行了100多次的手术,试图修复奇形怪状的肛瘘,医学上从未遇到过类似情况。最后在几乎要放弃所有的希望时,当时尼古拉斯长期持续住在层流室内,间歇性地反复感染,他的威斯康星医学院的小儿科医生要求对尼古拉斯进行基因组测序。
1700863474
1700863475
检测结果完全出乎意外,他的病源自X染色体连锁的凋亡抑制基因(XIAP)发生突变,这个基因和免疫系统的激活密切相关。幸运的是,有办法修复这个基因突变,利用脐带血移植取代产生白细胞的造血干细胞,造血干细胞是人们免疫反应的基础。这类移植手术事先从未考虑对沃克实行。对基因组的认识以及治疗决定促使将尼古拉斯从濒临死亡迅速转向到一个康复的5岁男孩。现在在威斯康星医学院,有40多个孩子排队等待基因组测序的结果,也就是在分子DNA水平说明患儿如何病了。医生、遗传学者、遗传病专家、和伦理学者组成的委员会会聚讨论在患儿的常规医学治疗已经走投无路时,是否有权对患儿进行基因组测序的规则基准。该委员会同时也决定着患者的优先次序,决定下一个测序轮到谁。
1700863476
1700863477
沃克的病案是该类病的首例,也是第一次,可以预见未来医学中会不再使用“先天性”或“原因不明的”这样的专业名词。许多病人辗转在不同的医学中心,是因为他们的病无法确诊,或无法找到有效的治疗方法,他们也仍然罹患病痛。密尔沃基的委员会同意对指定的病种进行基因组测序的费用额定报销,这样的好事特别让人开心。病人能优先于广泛地和花费巨大地尽心医学检查,更不要说优先于徒劳地治疗,尽早地开始基因组测序,相对后期延长的生存时间也确实是很划算的。
1700863478
1700863479
2011年,对患有严重的运动障碍(肌张力障碍)的十余岁异卵孪生的患者进行全基因组测序,也导向准确的分子学诊断和高度有效的治疗。这对父母健康的孪生患者的致病突变是“复合杂合子”,意味着突变位于相同基因座上有两个突变等位基因,分别来自其父母,结合在一起导致运动障碍,这个现象相当有启发性和代表性。从而可以通常解释为何在前几代中没有出现过的疾病,在接下来的测序中却肯定能共同发现。
1700863480
1700863481
在犹他州的奥格登,有个家庭两代人中有五个孩子,死于莫名其妙的加速衰老的疾病,这种事从来没遇到过。通过对这个家庭进行基因组测序,从而准确地描述出基因突变位于X染色体76。对于这个家庭,借助体外受精选择不携带突变基因的胚胎可以有效预防现在称作奥格登综合征的疾病。
1700863482
1700863483
极少见的普罗特斯综合征的致病根源是约瑟夫·梅里克缺陷,也就是“象人”,最后被界定为蛋白激酶B(AKT)1的基因突变,同时也是许多癌症基因突变所在。
1700863484
1700863485
尽管取得的成果令人鼓舞而且显现积极,仍然需要看到类似更多的病例以帮助确认是阐明危重的原因不明的病症的病因的新途径。当前,能够进行测序是能解释资料的前提和出路。解析人类基因组,对来源于不同个体DNA的大量数据进行准确地处理和解析,区分(致病的或功能变化的)信号,去除(来自碱基改变或无关的结构的)干扰,仍然是艰难的挑战。当成百上千的患者的基因组的各个表型的所有表达都被测序和解注,就会不再令人犯难。
1700863486
1700863487
测序加速的竞赛
1700863488
1700863489
测序的竞赛是多方面的,在国与国之间,在主要的研究企业和技术平台之间,在各个基因组科学学术机构之间开展。总部在中国深圳的北京华大基因研究中心(Beijing Genomics Institute)购买了100多台最新一代的测序设备(主要是HiSeq),到2011年底末,已经完成了20000个人类基因组的测序。在北美和欧洲,尤其是美国和英国,使用1000多台HiSeq或SOLid测序设备,到2011年末完成约10000个人类基因组测序。Complete Genomics公司,和Pacific Biosciences公司一样,在2010年成为了公开的企业公司,(而在同一年Helicos公司倒闭),目前每月对上千个人类基因组进行测序,并计划在五年之后,可以对一百万人提供生命密码基因的测序服务。该公司独特的“邮购”全基因组测序(WGS)服务方式是一种有趣的转变,让理论学术或生命科学的实验机构,利用所购买昂贵的仪器设备和试验试剂,为特定的个人提供有显著价值的服务。这种方式将原始测序的结果成为商品,时间会告诉我们这种方式在财政成本核算上是否可行,以及基因组测序结果能否被大多数开展学术测序的中心广泛接受。
[
上一页 ]
[ :1.70086344e+09 ]
[
下一页 ]