打字猴:1.70086342e+09

1700863420

1700863421 华法林对患者的效用也千差万别。有些患者每天只需要1毫克，而其他的确需要20毫克。事先的基因分型可以帮助避免不经意的剂量过低或血凝块形成的可能性，同样也避免药物过量引起的出血可能。其他的GWAS研究，是在最常用的2型糖尿病的药物二甲双胍，以及治疗癌症和自身免疫性疾病的氨甲媟呤中开展，以证明基因变异参与调控药物的效用。研究中也显示迄今为止常规基因分型的作用是好坏参半的，也把基因型向导的剂量预测的难题留到了今天。

1700863422

1700863423 药物的关键副作用的GWAS研究也是这个领域内取得显著进展的另一方面。疾病控制中心的报告中指出每年美国有7％的住院病人与药物的副作用有关。来看丙型肝炎的治疗：可能引起15％的患者出现溶血性贫血。GWAS也显示三磷酸肌苷焦磷酸酶（ITPA）基因变异实质上与该副作用的发生和避免有关。他汀类（Statins）药物是治疗高胆固醇的药物，也是属于世界上处方量最大的药物，最主要的不良反应是肌肉炎症。在SLCO1B1基因上的常见变异与肝脏摄入他汀类药物有关，也非常严重——携带有两份拷贝的变异基因的患者出现严重肌肉严重的风险几率超过20倍。GWAS研究也显示一个等位基因影响着抗生素氟氯西林（flucloxacillin; Floxapen）可引起肝脏毒性的令人不安的副作用。HLA-B*5701基因变异会带来80倍的肝损伤风险。在对他汀类药物和抗生素药物的GWAS研究中，分别只有85例和51例需要把所观察到的弄清楚！

1700863424

1700863425 同样，GWAS显示一种常用于许多神经内科疾病，如三叉神经痛、癫痫、糖尿病性神经炎和偏头痛的药物卡马西平（卡马西平，Tegretol）的不良反应的基础。这个要主要的值得关注的副作用是引起严重的过敏性反应，从全身皮肤的皮肤皮疹到威胁生命的皮肤坏死。2011年，欧洲裔患者的该药不良反应的危险等位基因被GWAS只针对23个患者的研究所发现，人类白细胞抗原（HLA）等位基因变异，（HLA与包含有基因组部件的主要组织相容性复合体有关），携带有20倍的危险，会出现严重的皮肤开裂，造成表皮坏死松解。在台湾对所有服用处方药得理多的患者进行的常规基因分型筛查（对亚裔患者测试不同的HLA危险等位基因）中，显示引人注目的风险下降，（在4400多个药物治疗的患者中发现0个）。

1700863426

1700863427 另一个强有力的抗炎药物属于环氧化酶-2（cox-2）抑制剂，名叫罗美昔布（lumiracoxib），与万络（Vioxx）和西乐葆（Celebrex）同级，许多国家的市场上商用名为鲁米昔布（Prexige），由于罕见但十分严重的肝脏毒性而退出市场。一项GWAS研究显示HLA基因变异（HLA-A-B*5701）者用该药后肝脏损害的发生风险会上升五倍。通过基因分型以筛查出对肝损害风险极大的患者，加以“解救”，从而甚至可能为该药的回归铺平道路。

1700863428

1700863429 尽管取得了一些成果，但大多数药物并未有幸经过GWAS研究。即便如此，25％以上的常用处方药带有遗传学信息，有助于指导用药。许多用于治疗癌症的药物，都属于这个范畴：阿巴卡韦（abacavir，Ziagen），作用于和罗美昔布一样的HLA等基因位点HLA-B*5701；5-氟尿嘧啶（5-fluorouracil，Efudex）；伊立替康（Irinotecan, Campostar）；咪唑硫嘌呤（azathioprine，Imuran）和6-巯基嘌呤（6-Mercaptopurine）。其他值得注意的有较强的（即使并不从GWAS获得）基因信息以帮助选择或确定剂量的药物包括心衰的β-阻滞剂：顺铂（cisplatin），会引起儿童的听力下降；阿替洛尔（tamoxifen），用于治疗乳腺癌；二甲双胍（metformin），用于治疗糖尿病；以及琥珀酰胆碱（succinylcholine，Anectine），是麻醉时的肌松药。

1700863430

1700863431 与GWAS在预测药物效应方面的成果形成鲜明反差的是，在识别疾病的易感性方面的成果却乏善可陈，更像是自然选择的作用结果。考虑到成百上千年来，人类面对多种疾病袭扰仍一路进化，药物对人的作用可以被看做是“新新事件”。至今还没有机会能够选择针对基因组的药物。寻找影响药物效果的关键的基因变异可以比作射击粮食堆垛，多么显而易见的靶子。然而值得注意的是，在疾病易感基因和药物效用基因两者之间的成果反差，并不意味着我们将来无法找到预测疾病易感性的方法。毕竟，我们对基因变异在掌控疾病和不良反应易感性两方面的认识还远未结束。明确的下一步是在对基因组粗略审视之后，认真分析每个碱基或至少对基因组特定区域的每个碱基加以分析。掌握更多的细节，深入了解DNA序列，才能不断推进这个领域的研究。

1700863432

1700863433 转向测序

1700863434

1700863435 我们现在知道“常见变异，常见疾病”的理论无法全面解释复杂性状和疾病的遗传可能性，因此基因组学转向更罕见的变异，探寻0.1％甚至更低的等位基因频率水平。很多研究指出如此低的频率变异遗传外显率会高很多。例如，对于血中“有益的”高密度脂蛋白（HDL）的水平，几个基因的多处罕见变异，总体来说，能很大程度上解释低水平的高密度脂蛋白（HDL）相对的共同特性。遗传外显性较高的罕见变异在严重肥胖、1型糖尿病、精神分裂症、和许多自身免疫性疾病患者中被找到。值得重视的是，其中一些变异并非单核苷酸多态性（SNPs），而是代之以结构性的变异——或是基因缺失或是拷贝数变异（CNVs）（见图5.1）。由此引向另外一个关于遗传可能性缺失的问题。当单核苷酸多态性成为人类基因变异最常见的形式，其他的结构变异也很严重，且未被恰当地强调。全基因组关联分析中的单核苷酸多态性可以作为某些结构变异的标志，部分的拷贝数变异，但是是非常不完全的。这些结构变异的整个图谱和被揭示需要依靠数以千计的对具有关注的（显性）条件的人全基因组测序。

1700863436

1700863437 优化的综合测序调查应该像基因组关联分析一样是无预先假设的。还有两种无预先假设的基因组分析方法:外显子测序和全基因组测序。

1700863438

1700863439 外显子测序

1700863440

1700863441 外显子测序是指对实际上与编码蛋白质相关的1.5％的基因组测序。这个测序过程是帮助我们寻找功能性的变异——之所以这样讲，是因为他们影响与疾病直接相关的编码蛋白质的结构和功能。相比全基因测序要在干草堆里挑出针来，根据大小，外显子测序要简便得多。外显子测序可找到千分之十的变异，而全基因测序遇到超过五十万个变异。窍门就是找到起作用的那个或那些变异。最好的确定该基因变异是否是起作用的那个的方法是繁殖有基因变异的老鼠，（即直系同源基因变异，也就是老鼠的基因突变与人的基因突变相同），观察老鼠是否将疾病的显型概括表现。但很少有其他形式的试验能被支持或证实并得以接受。例如，电脑模拟下以电脑来预测某物质的编码变异是否显著改变蛋白质的结构或结合特性，（如破坏酶的催化部位，——本质上起作用的那头）。对外显子以外的基因部分，这个任务非常复杂——我们迄今尚无办法预知基因组常规变化的功能。

1700863442

1700863443 相比于全基因测序，外显子测序的低费用和快速完成，近来也让外显子测序很热闹，成为破解疾病的首选方法。作为结果，借助外显子测序确定了以前不明根源的各种各样罕见的孟德尔病（Mendelian disease）。数种癌症，如卵巢透明细胞癌和葡萄膜黑色素瘤，通过外显子测序确定了关键的突变。发现病因的努力也扩展到不明原因的智力障碍、脑畸形、甚至西藏人适应高海拔的能力。因此，外显子测序的第一年就取得了突飞猛进的成绩，全球的基因组团体也在热情地你追我赶。第二阶段的基因组淘金热正在正式展开。

1700863444

1700863445 但是外显子测序并非没有缺点。这个方法并非“无预先假设”，测序有效的前提是基因突变存在在外显子中。真正要在遗传性疾病中解决问题，需要找到制胜的砝码——下一步在更大范围内开展全基因组测序就成为必然。

1700863446

1700863447 全基因组测序

1700863448

1700863449 就像我和我的一位同事在2007年写：“最终，当全基因组测序进入实用阶段，而且检查费用可以承受，基因组相关的健康和疾病的检测会越来越容易得到解决。”目前尚不能开展实用性的全基因组测序，且检测费用也不现实，但过去几年取得的成果远远超出任何人的预想。

1700863450

1700863451 最初的研究开始于1970年代，是手工检测，使用放射性同位素标记。凝胶技术的应用开始于1980年代，到了1990年代开展自动化测序。但是即便在那时，每天也只能对不到10000个碱基对测序，每个碱基检测耗资10美元；到了1990年代中期，毛细管测序得到应用，这项方法最终将每天监测的碱基对从15000个增加到超过100万个，每个碱基的检测成本降低到1美元。像尼古拉斯·沃尔克的医生那样把外显子测序和全基因组测序引入现实生活中的原因在于“大规模并行测序”仪的投入使用，得以同时检测成百上千的基因序列段。2005年在454生命科学平台仪（454 Life Science platform上）每天可以测序100万个碱基对，到2010年（使用Illumina HiSeq和Life Technologies的SoLiD 4测序仪）每天测序增加到250亿个碱基对，检测速度上千倍地提高，而每个碱基的检测成本从0.01美元下降到0.000001美元。这样的提高速度也让摩尔定律见了鬼。

1700863452

1700863453 回顾一些标志性的成果所付出的时间和开支，有助于展望将来。第一次人类基因组测序，实际是众多人参与的一个大混战，用了十三年，花费了27亿美元。2007年，克莱格·凡特博士的基因组研究花了四年时间，耗资1亿美元。沃森（Watson）的基因组2008年只用了四个月的时间，花费掉了150万元。到了2008年11月，许多人类基因组只用一到两个星期测序，成本十万美元。2009年斯坦福大学教授斯蒂芬·夸克（Stephen Quake）在一周内对自己的基因组测序，花费不到五万美元。到了2010年，一家领导基因组科学研究的Illumina公司，花费28000美元进行全基因组测序，新建立的Complete Genomics（完全基因）公司声称，在不久的将来只花费5000美元即可完成全基因组测序。2009年底，他们在《科学》杂志上发表关于多项人类及应组测序的研究结果，并断言“高精准度，用于测序中的支出的可以负担得起的4400美元成本，和可扩展的检测设备，促成完成在大范围的基因研究中检测到罕见的变异的人类全基因组测序。”到2011年底，Complete Gennomics公司每月开展的人类全基因组测序已达约1000例。

1700863454

1700863455 如此高的检测能力令人吃惊，但是只有一部分从临床角度认为全基因组测序是很有必要的。另一方面，是精确度的问题，而实际上，这也是设立的1000万美元的Archon X prize大奖——授予第一个在十天内完成100个人类基因组测序的团队——尚未颁布的原因。测序设备的精确度是测序覆盖的深度所决定的，这个测序深度是指测序时，被测基因组上平均单个碱基被测序的次数。如果平均是40次，这就是通常认为的深度测序，虽然应该记住，这是一个平均值，有些碱基可能被测序100次，而其他的可能只有10次。但在“饱和”点上，进一步的深度测序并不能根本的或实质性地提高精准度。

1700863456

1700863457 另一个关键的测序的度量标准是指测序阅读长度。在毛细管测序时代，当标准的Applied Biosystems（应用生物系统）公司生产的仪器可以测序阅读1000个碱基对时，这不太算是个问题。从对测序阅读低于40个碱基对开始的大规模并行测序，到目前为止，已经可以对几百个碱基对并行测序。但寻找插入和缺失（InDels）、拷贝数变异（CNVs）、染色体倒位以及诸如此类的结构变异时，不幸的是，短片段的测序阅读毫无意义，或甚而起误导作用。要记得，所寻找的罕见的极少发生的基因变异，人群中只有不到百分之一甚至比这低得多的发生率。如果寻找在人群中只有千分之一发生率的变异，测序的精确度为99％，30亿个碱基对的测序假性率为1％，就会出现300万个碱基对的假阳性变异。因此，确切地被发现的罕见变异的数量也达300万，意味着所有阳性发现中有一半是假阳性。将假阴性剔出是个大累赘。相应的，改进测序的覆盖深度和阅读长度，尽可能将测序的精确度提高到100％，为此所做的一切努力都应该让测序和接下来的数据解读具备实用性。尽管测序成本有显著降低，但还远远不够，但这也不意味着竞争后不会达到预期的目标。

1700863458

1700863459 竞争的激烈程度我有幸于2008年2月在佛罗里达马可岛举办的基因组测序年会上亲眼目睹。每个基因组测序公司在会议上全情投入，毫无保留地将公司名字和产品印在多达千种的与会者的会议纪念品上。不同的测序公司——Illuminated，Life Technologies，Pacific Bioscience和Helicos公司承担了会议的用餐。Pacific Bioscience公司，当时公司还在私下运作，把这次年会当做公司“发布会”，承办了海滩上的篝火晚会和庆典。即便我的宾馆房卡上也印着某家测序公司的名字和公司商标。

1700863460

1700863461 我参加了由Pacific Bioscience公司赞助的座谈会，讨论在医学基因组研究方面取得更大进展时，测序还能做到哪些事。照例，会议的重点是用最少的时间做最更多的事；会上，公司代表介绍在未来的某一天，能在15分钟以内对人类基因组测序（然而三年以后，他们也尚未对一个人类基因组完成测序）。当我到达会场时就意识到座谈会错过了一个根本的问题。每个人都在老生常谈关于精确度、覆盖深度、阅读长度、测序能力和成本。但是，我想知道，哪些人，哪些患者应进行测序？为了取得研究遗传性缺失的实质性进展，需要对数以千计的人群——有些人有特定的病情，有些人没有特定的病情作为合适的对照，——进行全基因组测序。而且，需要确定对照组是真正的对照组，对照组中没有人会患特定的病情，否则，就不应该在对照组中。

1700863462

1700863463 事实上没人谈到这类研究。千人基因组计划（1000 Genome project），一项国际性的政府资助的协作项目正在进行中。所进行的测序对象是随机选择、匿名的、健康情况事先未知，呈低的测序深度覆盖。当时或即便在几年以后，也没有我考虑到的人群测序的相关计划。也有少数例外，例如对数千名2型糖尿病病人进行地大规模基因测序。很大的原因是检测费用：即使到2011年，不管是Complete Genomics公司还是Illumina公司全基因测序的价格低于5000美元，任何这方面研究的开支仍然需要1000万美元以上。

1700863464

1700863465 凯文·戴维斯（Kavin Davies）在他2010年出版的书《1000美元基因组》（The 1000$ Genome）中写道，测序的价格会持续走低。但即便是花1000美元进行基因组测序，也未必搞定所有支出。测序成功还只是开始，深入解析才是限速步骤，现在估计这方面的成本在数十万美元。如果每个人的基因组测序覆盖是30次，需要处理多达900亿的碱基对。当然，测序是分段进行地，随后待整合后再与对照参考基因组对照，与已知的功能性变异比对注释。接下来“数量分析专家”（新型数学专家）会接手：将主基因分析、计算生物学、和信息学用于找到有意义的发现，将原始的测序数据转变为真正的信息。典型的人类基因组测序与对照参考基因组对比出现约300万给基因序列变异。大约10万个单核苷酸多态性（SNPs）被视作“异常的”（最早在被测者中找到），其中的15000到20000的SNPs在外显子中存在。由于越来越多的人在做全基因组测序，SNPs被发现的几率会减小，存储在核苷酸多态性数据库中（dbSNP），异常变异的数目也相应日渐减少。

1700863466

1700863467 人类基因组功能临床注释是另一个重要步骤。有关对斯蒂芬·奎克（Stephen Quake）快速自我测序试验的报道有三位作者，为得到相关原始数据花了一个星期。但当开始注释基因组，需要31位研究者耗费数百个小时翻阅基因组变异和相关的文献资料，从而找出哪个基因才是有临床意义的。奎克本人有患糖尿病、冠状动脉疾病、肥胖的风险，但特别让人感兴趣的是63种可被预测的药物基因组学相互作用，其中包括波立维（Plavix）无法代谢、华法林（warfarin）用量需要降低，对β-阻滞剂和常规降血糖药物无反应。另一个罕见变异是，他还患有囊肿性纤维化病，而他以前自己并不知道，由于这属于孟德尔隐性性状（Mendelian recessive trait）需要两份罕见变异的标本，他和他妻子联同进行相同测序得到的数据会更有用。同时还注意到奎克的表亲在十九岁时猝死，死因不明。在2011年，据说他的表亲的DNA将被测序，这是第一例“分子学尸检”。

1700863468

1700863469 因此，从全基因组测序中我们可以了解到很多东西，但这种测序属于，并将继续属于奢侈的范畴。今后其临床应用也是相当有限的。由此目前战略中全基因组测序（WGS）主要应用在癌症。对肿瘤和种系细胞DNA（germ-line DNA）进行配对测序，已找到若干癌症的驱动突变。第一例是白血病患者，8个基因的小子集被确定与癌症驱动相关。在寻找过程中，研究者对980亿个来自白血病细胞的碱基对测序（基因组测序达30次），配对的420亿个碱基对来自种系细胞（取自皮肤细胞，测序十四次）。几种实体肿瘤，包括肺癌、乳腺癌、和胰腺癌，已被测序。在小细胞肺癌，全基因组测序确定的信号与烟草暴露相关。全基因组测序也应用于家族中有四人患有米勒综合征（Miller syndrome），这种罕见的孟德尔性状的疾病，提供超出外显子测序的增量结果，这个方法也曾在先前被用于这类孟德尔性状的疾病（确定第二个基因突变）。全基因组测序也用于在特定家族中寻找夏-马-度病（Charcot-MarieTooth，遗传性运动感觉神经病）的基因缺陷，还用于研究患多发性硬化症的同卵双胞胎的发病差异（一个发病，一个未发病）。74最后这个研究，令人惊讶的是无法解释这样的神经疾病发病情况，这也证明了人类基因组有多么复杂。

[ 上一页 ] [ :1.70086342e+09 ] [ 下一页 ]