打字猴:1.700229519e+09
1700229519
1700229520
1700229521
1700229522
1700229523 图3.1 基因分型(全基因组检测)价格的持续下降
1700229524
1700229525 资料来源:Wetterstraiid. KA. DNA Sequencing Costs: Data fioni the NHGRI Genome Sequencing Program (GSP).全文链接:www.genome.gov/sequencingcosts
1700229526
1700229527 注:如果你不想检测全部碱基对(共有30亿个),而只想使用1个基因芯片(大约包含100万个SNP)的话,那么现在的价格连100美元都不到。
1700229528
1700229529 全基因组关联分析得益于SNP基因分型芯片的问世。不同于之前根据动物实验的结果,选取人类一部分DNP片段进行检测的做法,现在SNP芯片可以在整个基因组随机检测成百上千甚至更多的等位基因(目前,大多数芯片能识别超过100万个SNP)。现在,研究者用10年前检测8个候选基因的费用就能检测100万个SNP,以此来探究它们对他所感兴趣的社会现象的影响。科学家不用再像以前那样根据动物实验来猜测该检测哪一部分基因,而是可以直接检测成千上万个基因片段——进行无假设普查,以此探究会出现哪些数据。基因芯片的设计能很好地应用于人群基因变异多态性的分析。然而,新时代带来的也不全是好消息。其中一个坏消息是,由于我们要逐一分析每个基因标记与我们感兴趣的问题是否有关联,所以统计分析的次数上升到了百万级。为了避免假阳性结果,我们必须设置一个严格的阈值才能确定结果的显著性。一般来说,如果一个事件偶然发生的概率小于1/20的话,那么它就会被认为是“真实的”。然而这个标准就相当于,100万个样本中即使有多达5万个样本出现问题,我们也能认为这仅仅是偶然所致。因此我们需要一个比1/20严格得多的统计学阈值:五千万分之一。
1700229530
1700229531 即使有了严格的统计学阈值,研究者还需要评估数百到数千个(如果还没有达到百万级别的话)统计分析的结果。如图3.2所示,各基因标记检测出的结果通常用曼哈顿图(Manhattan plot)来呈现。14如果你的检测图更像曼哈顿(有一些峰值),而不是巴黎(所有的值都很低),那就可能胜利在望了。图上的每个墨点都代表在某SNP位点发生变异时导致的效应(如20号染色体第12256号碱基对的碱基T变成A时会产生哪些影响)。各染色体上的近百万个SNP位点会按照其在染色体上的位置排列,横轴的最左边是1号染色体,最右边是22号染色体(有些研究还会加上性染色体X和Y,通常会在图表的最右边呈现)。纵轴表示的是,当观察并比较两个等位基因时,特定SNP对结果造成的影响所对应的统计显著程度——简单来说,就是造成的影响有多大。15从图3.2中可以看出,影响最大的是19号染色体最上面的一个墨点(墨迹的深浅只是为了便于区别不同染色体)。
1700229532
1700229533 检测成千上万乃至上百万个基因标记的一个好处是,研究者可以控制人群分化带来的干扰。排除起源相同的人群中变化情况趋于一致的基因标记后,我们就能更加肯定地认为,剩下的差异确实与我们感兴趣的表型有关,而不是像“筷子问题”那样,只是反映了文化的共同点而已。早期的单候选基因研究没有考虑其他基因标记,而现在研究的则是上百万个基因,所以人群结构问题可以通过统计学方法发现并消除。
1700229534
1700229535 除了能解决人群结构问题,需要比较保守谨慎的统计学阈值之外,GWAS的另一个特点就是普遍可重复。每当你发现了一个统计显著程度超过百万分之一,很有可能构成重大发现的SNP时,你必须使用另一份重复实验的样本有针对性地做数十次检测,然后再分析一遍重复实验得到的数据。无须检测很多,可以只检查在你第一次(发现这个SNP时)的数据中表现特别突出的几个基因变异。你发现只有一个(更可能连一个都没有)错误结果,而不是5万个,这样你至少就有了两个得到同样结果的独立实验。16到此为止,你的实验结果才有可能在不同时间地点都成立,而不是人为统计失误。即使这个SNP的效应在重复实验中表现出的量级由于“冠军魔咒”现象(winner’s curse)比第一次的分析结果小,甚至接近平均水平,这个发现依然是可接受的。17
1700229536
1700229537
1700229538
1700229539
1700229540 图3.2 显示一个全基因组关联分析结果的曼哈顿图
1700229541
1700229542 资料来源:Visscher. PM. Brown. MA, McCarthy, MI, Yang. J. (2012) Five years of GWAS discovery.Am J Hum Genet90(1): 7-24. Ikram, MK.et al (2010)Four Novel Loci (19ql3. 6q24.12q24. and 5ql4) Influence the microcirculationIn Vivo. PlOS One 6(11): 10.1371.
1700229543
1700229544 注:这幅图非常淸楚,不仅显示出了统计显著程度最高的SNP,还能看出所有SNP统计显著程度的高低次序。所以,如果其中有假阳性的结果,那最可能是一个孤立的点,且远高于所有相邻点,这通常是偶然巧合或基因分型技术问题导致的错误结果。而真阳性是由SNP与各实际结果的独立相关性分析得出的,通常表现为落在同一区域的一选串点,好像在向顶峰攀登一样。在统计显著程度最高的SNP周围的SNP也表现出了很高的统计学相关性,表明邻近的这个位点也跟实际结果有很大的相关性,这是由连锁不平衡现象(linkage disequilibrium)(第五章有更详细的解释)引起的,即同一条染色体的相邻两个SNP可以彼此替代。所以,越靠近统计显著性最高的点信号就越强,反之则越弱。这一点在图最右边的第19号染色体可以看得很淸楚,那里有多个统计显著性最强的SNP的墨点,颇有波洛克的神韵。
1700229545
1700229546 然而,伴随GWAS这个新方法出现的第一个令人失望的结果——候选基因研究的结果几乎都是不可重复的,或者说没有一个能达到GWAS的统计显著程度要求。这种现象的罪魁祸首主要是人群分化和出版偏倚问题。所以,我们必须重新进行反思,对行为遗传学我们到底了解多少。18
1700229547
1700229548 GWAS时代给科研人员带来的第二个失望的结果是,有些基因变异经证明确实与我们感兴趣的表型存在稳定的相关性,但是作用很小,尤其是在涉及社会和行为方面。于是,之前动辄宣称某个基因有重大作用的候选基因研究就更不可信了。当研究者放眼所有达到GWAS统计显著程度(即偶然发生的概率低于百万分之一)的基因多态性,把它们的效应(即它们对于解释人群中各种现象所做的贡献程度)加起来后发现,这个值远远达不到之前估算的加性遗传力水平。例如,最初GWAS使用SNP得出的身高遗传力只有5%,19由此产生了“遗传力缺失”问题。这个谜团引发了广泛关注,2008年还出现在《自然》杂志的封面上。20
1700229549
1700229550 一种相对合理的解释是,GWAS使用的SNP芯片通常只是涵盖了大部分,而非全部遗传变异,这是出于经济性的考虑。还有另一种理论上的可能性,即消失的90%以上的遗传力都来源于芯片没检测到的位置。我们如果转而研究含有30多亿碱基对的全基因组,可能就会发现这些失踪的遗传力,一切问题都将迎刃而解。反对者则认为,要想解决这个问题,这些罕见的等位基因必须对我们感兴趣的实际后果产生极大的影响,这不仅是因为消失的遗传力比例太大,还因为任何一个等位基因对整体变化的贡献都取决于两个因素:①这一观察到的特定位点基因变化对实际后果的影响强度和普遍程度。②这些变化确实非常罕见。即使某位点上是碱基A还是碱基G不会带来多大变化,但两者在人群中的分布是五五开,那么与下面这种情况相比,它对整体差异的解释力可能要更强一些,即在另一个位点上,碱基为C而非G,虽然会对个体造成很大的影响,但是C出现的频率只有0.1%。
1700229551
1700229552 这种区别常常使人们在解释基因标记时感到困惑。就拿与乳腺癌有关的BRCA1基因突变来说,如果一个人携带了这个有害的等位基因,一生中罹患乳腺癌的风险将是非携带者的8倍。很显然,携带了这种基因的人应该对乳腺癌格外重视——如安吉丽娜·朱莉在尚未发病时就接受预防性乳腺切除术与卵巢切除术(oophorectomy)。然而,BRCA1基因的作用只占乳腺癌整体遗传力的很小一部分,并且乳腺癌还受到许多其他遗传方面的影响。APOE4等位基因与阿尔茨海默病的关系也是如此。另外,这些致病基因其实都不算特别罕见,只不过某些表型是高度多基因化的,即受很多基因的影响。事实表明,大部分表型都是多基因化的,亨廷顿病等单基因病反而是例外。所以,即使候选基因研究中完全没有假阳性的问题,这种方法也会像打字时看一次键盘敲一个字那样低效。要想用这个方法得出社会和行为现象的遗传力,我们恐怕得用几千年时间才能做出大量的研究。正如有名的“猴子和打字机”的故事所说:假如把1000只猴子关在一个有打字机的房间里100万年,它们最终也许能够打出莎士比亚的全部作品。然而对于文学创作来说,这确实不是最有效率的方法。21
1700229553
1700229554 对于为何观察到的基因效应没有期望的大,还有一个可能的解释:我们所研究的基因效应都是“非加性”的。测得的遗传力一般被称为“加性”遗传力,因为研究者不会考虑等位基因的效应(即呈显性)可能是非线性的。已知会受到显性影响的身体性状包括棕色眼睛、深色头发、卷发、美人尖、酒窝、雀斑、有无耳垂、关节逆向弯曲等。22以镰刀型贫血为例,当致病的突变基因单独存在时对身体是有好处的,因为它可以让人不易患疟疾。但如果一个人体内该基因成对存在,那就会有不良影响。引起镰状细胞性贫血的等位基因主要存在于疟疾多发地区,原因就在于该基因的杂合子(即该基因单独存在)具有预防疟疾的作用。这是显性,或者说非线性效应(尤指杂种优势)的一个例子,这类基因对健康的效应呈现出非线性的变化趋势,有一个等位基因会提高环境适应力,而有两个基因时适应力又会(急剧)下降。
1700229555
1700229556 但是,计算加性遗传概率时已经排除了单基因显性的影响,所以引起遗传力缺失问题的并不是单基因显性。然而,其他形式的非线性效应可能会影响我们对遗传力的估计。换句话说就是基因互作效应,也就是某个SNP的效应取决于另一个SNP。我们可以再拿多巴胺受体基因来举例子。如果你的DRD2基因存在问题,那么只要你的DRD4基因功能正常,DRD2基因的问题就不会产生任何实际后果。因为这两个基因可以互补,所以你只要有一个正常工作的多巴胺受体基因就可以了。只有当这两个多巴胺受体基因都有缺陷时,表型才会出现问题,这就是所谓的异位显性。
1700229557
1700229558 哮喘就是一个现实例子。哮喘是一种主要由免疫反应导致的支气管炎症。免疫系统的信号分子——白介素(interleukin)起到了重要作用。当控制白介素表达的基因处于某种特定状态时,患支气管炎症的风险就会升高。不仅如此,一些研究者发现,如果一个人的白介素13基因(IL13)和IL4a的受体基因都处于某一特定状态,那么他罹患哮喘的风险会增加数倍。23我们可以把基因放到一个社会关系网一样的网络中去考虑,这样就不难理解基因间的相互作用了。实际上,人类基因组中93%的基因之间都存在一定程度的关联性,而这还仅仅是2005年的数据,现在这个数字可能已经更高了,甚至目前发现的全部基因之间都有关联。这些关联形式多种多样,有些是各自表达产生的蛋白质之间能发生生化交互作用,有些存在共表达性,即一个基因在细胞内的表达加强后,另一个基因的活性会上升或下降。实际上,这意味着如果你对大网一角的某个基因做出微调,就可能对其他基因产生无法预料的影响。例如,如果一个基因发生了某种突变,表达不足,引起某种蛋白质缺乏,那么其他的基因就会进行代偿。这些间接效应都处于一个复杂的网络中,存在着无数代偿反应和基因互作。当然,这种网状通路还可能意味着,某个关键基因失活或者过度表达会产生毁灭性的影响,癌症就是典型例证。
1700229559
1700229560 从基因网络(而非单个基因)的角度来审视人体差异可能意味着,许多“消失”的遗传力就潜伏在这些相互作用中。回到两种多巴胺受体基因的例子,想象一下,在DRD2基因处于某状态时,它对智商的影响要取决于DRD4:如果DRD4为一种状态,则产生正面影响;否则为负面影响。在这种情况下,DRD2基因在GWAS中的净效应可能会被判定为零。然而,DRD2基因和DRD4基因的四种组合可能是智商遗传力的重要部分。这种能够预测表型的相互作用被大量发现,与科学家最初估计遗传力时所做的假设背道而驰,而且构成了遗传力缺失之谜的一种潜在解释,即遗传学家所谓的“幽灵遗传力”(phantom heritability)现象。24
1700229561
1700229562 话虽如此,但正如我们有理由怀疑基因互作是遗传力缺失的罪魁祸首一样,相反的理由同样存在。如果基因间的相互作用影响如此之大,那么杂合了父母双方基因的兄弟姐妹可能就不会像他们实际上那样相似了。再考虑两个多巴胺受体基因的情况。兄弟姐妹之间有1/2的概率共享等位基因1,也有1/2的概率共享等位基因2,所以兄弟姐妹之间拥有完全相同基因的概率仅为1/4。25以此类推,到了3基因或4基因的情况时,兄弟姐妹之间就会像陌生人一样没什么相似之处了。但这与我们实际观察到的现象不同。观察亲缘关系很近的个体之间的表型时,我们会发现,个体间的相似程度会随着亲缘关系接近而呈线性增长。从堂兄弟到表兄弟再到双生子,相似程度在不断增加。这就表明,我们正在寻找的能够与分子生物学研究相对应的“加性”遗传力确实反映出了可加性,而基因互作并没有发挥任何重要作用。
1700229563
1700229564 此外,已经有数学方法证明,在进化过程中,为何起作用的更可能是加性变异而非相互作用。我们可以想象一下,如果每个基因的效果都要取决于10个其他基因,进化该会是多么复杂而低效啊!这意味着,任何一点进步都需要许多基因同时改变才可以实现。想想多巴胺受体基因的那个例子,假设有一种能够带来优势的DRD2基因变体,但只有在DRD4为某种特定的等位基因时,优势才能体现出来,否则就会无效。于是,只有这两个基因都发生有利变异时,生物才会发生相应的进化。由于突变是随机发生的,上述情况的概率对于个体来说实在是微乎其微。
1700229565
1700229566 因此,基因互作不太可能是造成表型遗传差异的主要原因。如果任何基因的效应都高度取决于其他基因,那我们就像被基因连成的蜘蛛网困住了,动弹不得。要想实现进化,只能寄希望于1000只猴子都在同一时间敲下正确的按键;或者这1000只猴子中有1只天赋异禀、卓尔不群,在环境剧烈变化时存活下来,独自担起物种进化的大任;或者它能够通过新的方式利用环境资源,比如,创造石器,学会用火,最终甚至发明了互联网……总之,结论就是,也许一些基因互作对某些结果至关重要(而且在论证基因与环境的相互作用时,也必须排除基因互作),但它们不太可能是遗传力缺失的主要原因。26
1700229567
1700229568 对遗传力缺失的另一个解释是:可能达尔文是错误的,而让-巴蒂斯特·拉马克(Jean-Baptiste Lamarck)才是对的。换言之,也许环境引起的改变其实是能遗传给后代的。拉马克曾经指出,长颈鹿之所以脖子长是因为经常使劲伸脖子,而且能一代代传下去,每一代都比前一代更长。拉马克因为这个假说受尽嘲笑。27达尔文公开否定了获得性遗传的假设。他的主张是,基因的随机突变和生存竞争引起了表型的改变,使生物形态多样化,进而演变出了生态位(ecological niches)中各种各样的生命。然而,近年来随着表观遗传学(epigentics)的迅速发展,拉马克的获得性遗传理念正卷土重来。具体来说,我们除了有DNA密码之外,还有表观遗传的密码,这个密码使细胞能够根据不同的组织、不同的时间、不同的环境或刺激来决定是允许还是禁止一个基因的表达。一直以来,人们认为每一代人体内的表观基因组(epigenome)在下一代人身上都会清零,一切从头开始,这样单个细胞才能分裂、分化,成长为完整的人。然而,现在有些科学家认为,表观遗传标记(epigenetic manks)也许是可遗传的。果真如此的话,通常的分子层面检测方法(只关注碱基对,而不考虑表观遗传标记)可能会忽略这种重要的遗传形式,从而导致遗传力缺失。但是,我们现在几乎没有证据表明,人类真的能将环境导致的表观遗传标记遗传给下一代。即使果真如此,这种标记也不太可能在第二章提到的双生子模型中导致如此高的遗传力。我们在附录4中讨论了几个可能与遗传力缺失有关的最新表观遗传学进展,但我们最后得出的结论是——表观遗传学并不是遗传力缺失的原因。
[ 上一页 ]  [ :1.700229519e+09 ]  [ 下一页 ]