打字猴:1.70086334e+09
1700863340 更重要的是,每个人的人类基因组不相同。基因组中特定的碱基在不同人之间也不同。最简单也是最普遍的差别形式就是单核苷酸多态性(SNP)。每个变体就是一个等位基因,每次对个人的DNA进行完全测序,都可以发现成百上千个SNP。全球的基因组科学家呼吁将确认的SNP(其精确度经过复制和交叉验证)存放入公众共享的数据库,即核苷酸多态性数据库(dbSNP)。
1700863341
1700863342 大型的国际性项目——基因组单体型图计划(HapMap,haplotype map),试图确定人类SNP的共同点。在这项计划中,对来自三大主要族裔(非洲裔、亚洲裔和欧洲裔)的269个人进行了DNA基因分型,以确定共同的SNP,得出的结论是在5%以上的人群中会出现共同的SNP。
1700863343
1700863344 基因组单体型是基因组的关键部分,碱基“打包”或以碱基的字符串作为一个单位整体遗传。基因组单体型图计划的理论依据是如果能识别共同的SNP,就可以将之作为基因组的定位物或编码目录。碱基“包”或碱基片段所带的SNP或者等位基因可以出现“连锁不平衡”(LD),有些容易让人误解的专业名词实际上表示其是相互连锁的。所以如果获得基因组的编码目录的信息,由共同的SNP作标记,就可以发现哪种单体型(碱基包)与感兴趣的某种特定情况(如眼睛的颜色、身高或某种疾病)有关。欧洲裔和亚洲裔平均具有50万种以上的连锁不平衡的单体型。非洲裔的差异性更厉害,考虑到非洲是人类进化起源和扩展的阶段,所以大约有100万个单体型。因此,为了“标记”人类基因组,假定每个编码至少一个标记,需要对至少50万个共同的SNP加以基因分型。
1700863345
1700863346 基因组中的SNP并非是结构变化的唯一形式。有大约十分之一的插入因子或基因缺失(合称为“插入缺失”)和SNP类似(见图5.1)。简单地解释就是一个碱基或一系列的碱基被加入或去除。例如图5.1中,四种碱基中,缺少了鸟嘌呤(G),腺嘌呤(A)和胸腺嘧啶(T)三种碱基。如图5.1中描绘的,可以出现碱基块替换或染色体倒位。结构变异种的重要类型是基因拷贝数变异(CNV)。个体间比较,基因组中很大一块甚至可能是上百万的碱基,出现增加或减少。这些变异的具体位置可以通过原来的胸腺嘧啶(T)被代替为胞嘧啶(C)来确定。
1700863347
1700863348
1700863349
1700863350
1700863351 图5.1人类基因组中发生变异的类型。
1700863352
1700863353 注:首行中单核苷酸变异同下面各种其他变异的举例比较。
1700863354
1700863355 基因组一瞥(全基因组关联分析)
1700863356
1700863357 单体型最重要的应用就在全基因组关联分析(GWAS)。因为基因分型技术的飞跃让这些研究成为可能。1997年,还只能一次只对一个单核苷酸多态性(SNP)进行基因分型;到了2007年,使用芯片技术和自动机器系统可以对个人的一百万个SNP进行基因分型。GWAS在特定位置正确识别碱基腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)、胸腺嘧啶(T)的精确度超过99.99%。鉴于相关机械可以处理一百万个SNP,可以从其他平台上高精确度地检测一定数量的基因分型,这项技术取得了卓越的成绩。联合这项技术还可以将单体型图的编码目录检测应用于GWAS领域。
1700863358
1700863359 第一个GWAS的相关论著发表在2005年4月。该项研究是调查同年龄相关的黄斑变性(AMD)。这是最常见的失明病因,美国有700多万人患此病。研究者检查了96个AMD患者和50个未患病者的116204个SNP标记作为合适的对照组。他们发现了一个特殊的编码变异,在染色体1上的基因单体型称作补体因子H(CFH),CFH携带者一生中患AMD的风险比正常人高7倍多。该基因组片段的测序准确地描述了外显子中的变异——简单的编码改变用氨基酸组氨酸代替络氨酸——是该病的根源。值得注意的是,三个独立进行的研究及其发表的论文都重复了这项发现。
1700863360
1700863361 凭借数量有限的患者和很少数量的标记SNP(对欧洲裔进行队列研究至少要250000人),所作的基因组科学研究取得的成绩让人十分吃惊。通过对受累所在基因组段的测序可以粗查到起作用的、与致病有关系的SNP,AMD的疾病易感性高达7倍归因于共同SNP的确带来一种打击。在这之前,我们所有对此病的了解只是认为患者患有视网膜炎症,而有上千种的基因可能与这种炎症有关。一种常见的、复杂的、严重的疾病通过GWAS研究得到了破解!
1700863362
1700863363 “复杂的”这个词在这里具有重要意义。在基因组出现前,遗传疾病唯一得到破解的方法是简单遵循孟德尔遗传表达模式。遗传疾病可以是常染色体显性遗传,(意味着从染色体1到22必须只有一个拷贝);常染色体隐性遗传,(疾病需要两份拷贝才能显现);性联遗传的,(X或Y染色体其中之一上);线粒体损伤,(属于细胞的能源中心,有自身的DNA,反映其自身的细菌来源)。这些病在人群中相当少见,也当然难以在遗传的水平上加以理解。例如囊肿性纤维化(Cystic fibrosis) 、亨廷顿氏舞蹈病、家族性黑蒙性白痴(Tae-sachs disease);这些病和两千多种其他疾病已经被编录在线人类孟德尔遗传病数据库(Online Mendelian Inheritance in Man database)。
1700863364
1700863365 除了少见或常见的特点之外,在孟德尔疾病和复杂性疾病之间还存在明显的差别。对于孟德尔疾病,常见的是单个基因的一个突变或不同的多个突变导致发病。如果某人出现基因突变,很大可能疾病会随之发展,也就是所谓的高度渗透突变,属于较确定致病的。而在另一面,每个复杂性疾病是由多个不同的基因引起的。这些疾病并非按经典的孟德尔遗传模式一代代相传,而且与疾病相关的变异也只有很低的渗透能力,其表达模式也很随机。由此,对黄斑变性这样的复杂疾病,我们只能认为所识别的单体型有高度可能与疾病的进展相关联,而非确定致病。
1700863366
1700863367
1700863368
1700863369
1700863370 尽管黄斑变性的研究成为基因组圈内知名的事件,仍有两点需要说明清楚以免过于乐观。第一点很简单,这个研究结果有点类似中彩。后来,针对复杂的,多基因遗传病所进行的上百个后续的GWAS研究,虽然有几个明显的例外,但现在已经清楚,单个单体型很少会对某特定疾病表达出如此高的风险。第二点,即使是100万SNP也只占基因组的0.03%,即便应用了单体型方法,也只算是粗略地一瞥。虽然如此,GWAS提高了名副其实的雪崩样多的数据,在遗传学领域内还从未见过这种情况。在GWAS研究的早起,我和同事发表的题为《基因组学的淘金热》(The Genomics Gold Rush)的报告中提到了前所未有的连环发现和该领域中令人兴奋的事物。几乎每周有关于疾病易感性基因的主流报道和研究成果突出着这个年代。相关论著在2007年中期最早开始出现,在此之后,几乎每周都会(在生物医学研究领域中最有影响的杂志中的)《自然》、《科学》、《自然·遗传学分册》和《新英格兰医学杂志》上见到有关的论文。图5.2显示1200多项GWAS研究获得的显著成果发表在主流的同行审阅的杂志上;200多种复杂疾病(主要疾病)的基因组的框架按照染色体(和特定编码)区域加以绘制。
1700863371
1700863372 GWAS代表着一种独特类型的科学,无预先假设(hypothesis-free)。而不是预先假设一个特定的基因或一组“候选”基因与某个疾病相关。GWAS可作为公正无偏向的方法可以让人类基因组“申述”。开始搜寻时,没有候选者,没有提名权;如果结果显现,基因组的某个区域被选出,并统计学意义上无可争辩地与所要研究的疾病相关。
1700863373
1700863374 无预先假设的研究有着惊人的影响力。大多数有所发现的基因组区域先前从理论上讲与疾病毫不相干,其中有与黄斑变性有关的CFH基因,与肥胖有关的FTO基因,与糖尿病有关的TCF7L2基因,有长长的一组名单可供举例。GWAS也显示多个基因通过特定的途径也可与疾病关联。例如,克罗恩病(Crohn’s disease),是小肠的衰退性疾病,是“自噬性”疾病的结果,自我消化自身的细胞。通过积累串联多个大型的患有或不患有克罗恩病的队列,通过积累15000多例患者和14000个不患该病的对照组成员,辨识出70多个易感性位点。其中只有少数位点与自噬缺陷有关,在确诊的同样疾病的患者中清楚地发现的许多分子结构可资证明。
1700863375
1700863376 对于2型糖尿病,基因中含有几种不同的致病途径。问题可能在胰岛素的产生、胰岛素分泌、胰岛素转运、或者胰岛素受体。GWAS可以从根本上帮助更准确地确定某个特定人糖尿病的分子学基础。无预先假设的GWAS也揭示同样的基因可能在多个疾病中暗藏。1型糖尿病,被认为属于自身免疫的过程,GWAS研究后与该病相关的第一批26个基因中的19个属于免疫调控基因。令人惊讶的是,例如,指向糖尿病易感的基因变异也暗示着胰腺癌,以及多种其他癌症和多种其他自身免疫性疾病。
1700863377
1700863378 尽管如此,GWAS也有许多不足。例如,80%以上的基因组的识别位点并不在外显子,而且,单纯了解相关的编码远非可以管窥所怀疑疾病的机制那么简单。况且,除了黄斑变性的病例,对于其余的绝大部分疾病的实际根源或其功能性单核苷酸多态性变异尚未被揭示。大部分编码只是表示极小的危险度,一般也就是10%到20%,所以并非特别强的标志信号。重要一点在于,与疾病相关和可以预测疾病存在本质区别。易感度指标来自大样本的人群,将所得到的数据用于特定的个人属于推论。事实上,所有的GWAS属于实时快照,将病例组同对照组相互比较得出是或否的二元排他归属,由此推论出个体的生存危险,而非断定在某特定年龄可能出现的某种情况。除了诸多的不确定性,有数十个单核苷酸多态变异与下述一系列复杂特性中的某个相关:有70多个与节段性回肠炎(Crohn’s disease)有关,有150多个与身高有关,有50多个与2型糖尿病有关,等等。
1700863379
1700863380 通过进行多重比较,大部分的变异存在统计学相关:结果是假阳性相对结果是真阳性的可能性大约只有一亿分之一(称作结果的P值)。然而,其临床意义仍然存疑。当某个患者带有两种不同的与疾病相关的单核苷酸多态基因变异,基因变异之间是否有相加或相乘的相互作用,(也别忘了两种基因变异之间也可能有互减的相互作用),毕竟我们并不知道大多数疾病的基因变异是否相互影响,从而让问题变得更复杂。基因与基因的相互作用称作异位显性,是我们了解人类基因组动态的一个大黑洞。在一系列基因表达中,很少存在单独一个基因成为唯一的主要角色。这个论点,是研究基因网络结构相互作用的系统生物学的基础。基因网络结构非常复杂,其间或需要对生化途径中的多元素或某一“节点”的干扰才会出现有意义的改变。
1700863381
1700863382 此外,将多个对家族性病史疾病作传统预测性GWAS的研究进行比较后,GWAS所提供的我们业已知道的以外的信息极少。尤其是冠状动脉疾病和心房颤动的早期研究所带来的失望特别突出。上述疾病的完整长期的家族病史所提供的总的预测能力和疾病的基因族群的几乎一样。换句话说,需要强调的是对疾病生物学的认识的进展,与“遗传学占星术”的预测能力之间存在差异。
1700863383
1700863384 应用GWAS的数据试图预测易感性的难度所出现的问题部分在于所得到的结果只能解释所研究的疾病的遗传可能性的一小部分。通常是研究单卵双生和异卵双生的双胞胎间的差异来确定遗传可能性。许多常见疾病都有一个重要的遗传成分,但GWAS只是代表性地诠释了其中的十分之一。
1700863385
1700863386 其他未得到揭示的90%的疾病,被称作“遗传失传”,或借用天文学名词,叫做基因组的“暗物质”。在全基因组关联分析(GWAS)和人类基因组单体型图(HapMap)之前普遍认为常见变异导致常见疾病。黄斑变性的研究属于早期阶段的幸运:研究揭示了黄斑变性的主要遗传可能性的根源,从而导致研究者过度自信。如果将“常见”定义为5%的发病率,单核苷酸多态性尚难以大部分解释常见疾病的遗传可能性。
1700863387
1700863388 十年之后:纪念第一个人类基因组测序
1700863389
[ 上一页 ]  [ :1.70086334e+09 ]  [ 下一页 ]