打字猴:1.70086332e+09
1700863320 以这样戏剧化的方法从完成基因的人类基因组计划草案到临床应用花了十年的光景。普及沃克所接受的治疗方法仍然需要相当长的时间。即便这已达到了研究目的,但医学的创新性发展仍然还需要各种努力,简化、找到易于掌握的针对单核苷酸多肽性位点和外显子组测序等的基因组检测工具。这些检测手段看上去令人头晕,但值得促成,因为这些工具不仅能戏剧般地修正错误的基因,而且能更好地更科学地了解疾病的易感程度,以及应该使用哪种药物进行治疗。此外,这种手段既能治疗病人又能普及大众医疗,可以由此让人们了解医学知识,也有益于人们更深入地了解自己。不过,相对其他在医学革新发展中的技术进步,或许教会会强烈反对。但这项成果无论如何都不能放弃。
1700863321
1700863322 基因组学101
1700863323
1700863324 2000年6月26日,白宫举行重要仪式,发布了关于人类基因组测序的第一份草案。比尔·克林顿总统宣布:“今天我们正在学习上帝创造生命的语言……即使不能针对人类所有的疾病,但也能给许许多多疾病的诊断、预防和治疗带来医学进步。”他将该草案称作“人类有史以来制作的最重要且最令人称奇的基因图谱”。《纽约时报》头版标题为《科学家破解人类的基因编码》(Genetic Code of Human Life Is Cracked by Scientists),《时代周刊》专题报道领导美国国家卫生研究院(NIH)公共资助财团的弗朗西斯·柯林斯(Francis Collins)博士,和塞雷拉基因公司(Celera Genomics)的领导人克莱格·凡特(Craig Venter)博士,所用的标题是《破解生命密码!》(Cracking the Code!)。这些成果令人极其兴奋,但是无论是对大众还是医学界,直到今天,或今后的十年间,所发现这些成果仍然有待于被真正地理解。
1700863325
1700863326 人类基因组由23对染色体组成,每对染色体各有30亿个以上的碱基,按双螺旋排列。因为我们是“二倍体”,每个染色体组呈双倍份,一个由父系衍生,另一个是母系派生。DNA中有60亿个碱基,太多的碱基使得DNA测序本身实际上相当简单。每个碱基包含4种成分——4种“生命编码”腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)、胸腺嘧啶(T)。编码尽管很简单,但难以解读,开发的第一台用于解读编码的机器非常昂贵、复杂、而且很耗时。除了编码的总量之外,另一个关于基因组的基本问题,是要弄清具体编码的含义。有时基础生物教育的“真相”在于组成一个或一批氨基酸(如组氨酸和络氨酸)的三个碱基编码的DNA字符串聚集形成的蛋白——或者更简单地说是形成蛋白的基因编码。
1700863327
1700863328 在全部600万碱基中,只有1.5%的碱基真正是编码的要素,称作基因外显子。负责组成蛋白质的这部分DNA统称为外显子。在人类研究基因组项目之前,基因组群体认为DNA中至少会有10万个基因,可能比这个数字还要多。然而,最后的研究结论是基因数低于23000个人类基因组。这意味着,大约98.5%的基因组并不是蛋白质的编码,也不参与传统意义上的“基因”合成。如果基因组不参与蛋白的编码,那么大多数基因组在做什么?
1700863329
1700863330 答案是在做调节。基因中的激活子和内含子,也不参与蛋白的编码。激活子启动和关闭外显子DNA复制为信使RNA(mRNA)的转录过程,自身读序并转译为氨基酸和蛋白质。内含子也不参与蛋白质的编码。虽然内含子转录为信使RNA的前体,但内含子在最后形成和翻译成熟的mRNA过程中会进行编辑(拼接)删除。
1700863331
1700863332 基因组的其余部分,在基因的范围之外,塞满了成千甚至成百万的碱基作为修改基因功能的调控因子。调控通过不同方式进行,例如调控RNA转录的编码及影响蛋白质的合成数量,或其编辑方式。事实上,如此多的不具备直接的蛋白质编码功能的RNA转录的基因组编码,清楚地表明各种各样形式的RNA:如微核糖核酸(microRNAs)、小分子干扰核糖核酸(small interfering RNAs)、长链非编码核糖核酸(long noncoding RNAs)等,好比基因组的传奇故事。有十多万个这类“只有核糖核酸”(RNA-only)的基因(与原先基因是蛋白质的制造者的概念不同),是“传统”基因的四倍多。2007年,《经济学人》杂志的封面以RNA为特写,配以题为《生物学大爆炸:揭开RNA的秘密》(Biology’s Big Bang: Unraveling the Secrets of RNA)的报道。4专题内容是关于一个大型的、政府资助的DNA元件百科全书计划(ENCODE project)项目的结果,全球80个机构组成35个团队,对DNA的各组分(按首字母归纳)进行研究。
1700863333
1700863334 因此,我们对于DNA序列的运作方式及其功能的认识与几十年前的书本教条完全不同,比预期少得多的基因,数量上超出约100比1地对应控制调节复合物,与类似银行系统及其管理监督部门在担保债务和金融危机中所作的相反。对于基因组,过于强调支配作用,而这样做会以为基因组很可能让人的生物机能“崩盘”,其实根本不可能。
1700863335
1700863336 人的DNA序列分为两个类别或版本:一是种系胞DNA(germ-line DNA),代表精子和卵子的主控DNA,管理人类繁衍,负责体内细胞的形成;二是复制衍生DNA,形成体内细胞中的体细胞DNA(somatic DNA)。如果了解癌症就会知道体细胞DNA在细胞复制时会发生突变。然而事实证明并非所有与癌症或其他疾病有关的突变都会导致发病,那些导致发病的称为“驱动”突变,而其他的与发病无关的称为“伴随”突变——只是伴随出现而非实际病因。复杂的是,如果已经错误地在DNA生物学水平上寻找某样事物,则需要集中相关细胞的DNA。于是,(从血白细胞)提取的血液细胞提取物或唾液DNA,通常被认为代表着种系DNA。但对血源性恶性肿瘤,如白血病,就不会选择这样的方式。
1700863337
1700863338 举例来说,如果试图确定心脏疾病的遗传性根源,我们需要对心脏细胞的种系胞DNA和体细胞DNA都加以研究。而在癌症研究中,如果肿瘤细胞的体细胞DNA序列和种系胞DNA进行对比(进行成对测序),这样使情况会变得更复杂,因为在肿瘤中存在DNA序列的异质性,也就是说肿瘤的不同组织部分中的细胞突变的形式存在差异。针对另一个与遗传有关的脑部疾病,则需要对种细胞细胞核脑组织加以研究,以判断是否因某体细胞的突变引发这种疾患。复杂的状况还包括基因组在不同层级进行调控。如微核糖核酸、核糖核酸转录、小分子核糖核酸、基因表达及表观基因组学等(将在后续讨论),都展示出基因组在组织和细胞方面的特定作用。而不是基因组学101!
1700863339
1700863340 更重要的是,每个人的人类基因组不相同。基因组中特定的碱基在不同人之间也不同。最简单也是最普遍的差别形式就是单核苷酸多态性(SNP)。每个变体就是一个等位基因,每次对个人的DNA进行完全测序,都可以发现成百上千个SNP。全球的基因组科学家呼吁将确认的SNP(其精确度经过复制和交叉验证)存放入公众共享的数据库,即核苷酸多态性数据库(dbSNP)。
1700863341
1700863342 大型的国际性项目——基因组单体型图计划(HapMap,haplotype map),试图确定人类SNP的共同点。在这项计划中,对来自三大主要族裔(非洲裔、亚洲裔和欧洲裔)的269个人进行了DNA基因分型,以确定共同的SNP,得出的结论是在5%以上的人群中会出现共同的SNP。
1700863343
1700863344 基因组单体型是基因组的关键部分,碱基“打包”或以碱基的字符串作为一个单位整体遗传。基因组单体型图计划的理论依据是如果能识别共同的SNP,就可以将之作为基因组的定位物或编码目录。碱基“包”或碱基片段所带的SNP或者等位基因可以出现“连锁不平衡”(LD),有些容易让人误解的专业名词实际上表示其是相互连锁的。所以如果获得基因组的编码目录的信息,由共同的SNP作标记,就可以发现哪种单体型(碱基包)与感兴趣的某种特定情况(如眼睛的颜色、身高或某种疾病)有关。欧洲裔和亚洲裔平均具有50万种以上的连锁不平衡的单体型。非洲裔的差异性更厉害,考虑到非洲是人类进化起源和扩展的阶段,所以大约有100万个单体型。因此,为了“标记”人类基因组,假定每个编码至少一个标记,需要对至少50万个共同的SNP加以基因分型。
1700863345
1700863346 基因组中的SNP并非是结构变化的唯一形式。有大约十分之一的插入因子或基因缺失(合称为“插入缺失”)和SNP类似(见图5.1)。简单地解释就是一个碱基或一系列的碱基被加入或去除。例如图5.1中,四种碱基中,缺少了鸟嘌呤(G),腺嘌呤(A)和胸腺嘧啶(T)三种碱基。如图5.1中描绘的,可以出现碱基块替换或染色体倒位。结构变异种的重要类型是基因拷贝数变异(CNV)。个体间比较,基因组中很大一块甚至可能是上百万的碱基,出现增加或减少。这些变异的具体位置可以通过原来的胸腺嘧啶(T)被代替为胞嘧啶(C)来确定。
1700863347
1700863348
1700863349
1700863350
1700863351 图5.1人类基因组中发生变异的类型。
1700863352
1700863353 注:首行中单核苷酸变异同下面各种其他变异的举例比较。
1700863354
1700863355 基因组一瞥(全基因组关联分析)
1700863356
1700863357 单体型最重要的应用就在全基因组关联分析(GWAS)。因为基因分型技术的飞跃让这些研究成为可能。1997年,还只能一次只对一个单核苷酸多态性(SNP)进行基因分型;到了2007年,使用芯片技术和自动机器系统可以对个人的一百万个SNP进行基因分型。GWAS在特定位置正确识别碱基腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)、胸腺嘧啶(T)的精确度超过99.99%。鉴于相关机械可以处理一百万个SNP,可以从其他平台上高精确度地检测一定数量的基因分型,这项技术取得了卓越的成绩。联合这项技术还可以将单体型图的编码目录检测应用于GWAS领域。
1700863358
1700863359 第一个GWAS的相关论著发表在2005年4月。该项研究是调查同年龄相关的黄斑变性(AMD)。这是最常见的失明病因,美国有700多万人患此病。研究者检查了96个AMD患者和50个未患病者的116204个SNP标记作为合适的对照组。他们发现了一个特殊的编码变异,在染色体1上的基因单体型称作补体因子H(CFH),CFH携带者一生中患AMD的风险比正常人高7倍多。该基因组片段的测序准确地描述了外显子中的变异——简单的编码改变用氨基酸组氨酸代替络氨酸——是该病的根源。值得注意的是,三个独立进行的研究及其发表的论文都重复了这项发现。
1700863360
1700863361 凭借数量有限的患者和很少数量的标记SNP(对欧洲裔进行队列研究至少要250000人),所作的基因组科学研究取得的成绩让人十分吃惊。通过对受累所在基因组段的测序可以粗查到起作用的、与致病有关系的SNP,AMD的疾病易感性高达7倍归因于共同SNP的确带来一种打击。在这之前,我们所有对此病的了解只是认为患者患有视网膜炎症,而有上千种的基因可能与这种炎症有关。一种常见的、复杂的、严重的疾病通过GWAS研究得到了破解!
1700863362
1700863363 “复杂的”这个词在这里具有重要意义。在基因组出现前,遗传疾病唯一得到破解的方法是简单遵循孟德尔遗传表达模式。遗传疾病可以是常染色体显性遗传,(意味着从染色体1到22必须只有一个拷贝);常染色体隐性遗传,(疾病需要两份拷贝才能显现);性联遗传的,(X或Y染色体其中之一上);线粒体损伤,(属于细胞的能源中心,有自身的DNA,反映其自身的细菌来源)。这些病在人群中相当少见,也当然难以在遗传的水平上加以理解。例如囊肿性纤维化(Cystic fibrosis) 、亨廷顿氏舞蹈病、家族性黑蒙性白痴(Tae-sachs disease);这些病和两千多种其他疾病已经被编录在线人类孟德尔遗传病数据库(Online Mendelian Inheritance in Man database)。
1700863364
1700863365 除了少见或常见的特点之外,在孟德尔疾病和复杂性疾病之间还存在明显的差别。对于孟德尔疾病,常见的是单个基因的一个突变或不同的多个突变导致发病。如果某人出现基因突变,很大可能疾病会随之发展,也就是所谓的高度渗透突变,属于较确定致病的。而在另一面,每个复杂性疾病是由多个不同的基因引起的。这些疾病并非按经典的孟德尔遗传模式一代代相传,而且与疾病相关的变异也只有很低的渗透能力,其表达模式也很随机。由此,对黄斑变性这样的复杂疾病,我们只能认为所识别的单体型有高度可能与疾病的进展相关联,而非确定致病。
1700863366
1700863367
1700863368
1700863369
[ 上一页 ]  [ :1.70086332e+09 ]  [ 下一页 ]