1700230360
基因:不平等的遗传 附录
1700230361
1700230363
附录1 什么是分子遗传学?
1700230364
1700230365
在分子生物学中有一条核心的法则:DNA—RNA—蛋白质。DNA为每一个细胞提供了设计蓝图。除了个别情况,比如,全新的突变(有时会引发癌症)或镶嵌现象(mosaicism,单一受精卵发育来的个体的细胞有着不同的遗传组成,如分别来自父亲和母亲)以外,一个个体体内所有细胞的DNA都是一样的。人类基因组(DNA就在这里)位于每个细胞的细胞核(nucleus)中(人类成熟红细胞等无核细胞例外)。人类基因组是由储存着23对染色体的细胞核与身为能源工厂的线粒体中的DNA共同构成的。线粒体DNA(mtDNA)仅来自母方,这是因为受精卵中的线粒体均来自卵细胞。然而,这一说法也存在一些争议,有人认为进入卵细胞的精子也可能携带部分线粒体,这些线粒体存活于受精卵中,然后会传递给下一代。核DNA来自父母双方。父方与母方各提供每对常染色体(autosomal chromosomes)中的一条;性染色体则由母方提供一条X染色体(代表女性),父方提供一条X或Y染色体(分别令胎儿性别为女或男)。因此,分析mtDNA能让我们了解母系的基因组,而分析Y染色体则能揭示父系的特征。
1700230366
1700230367
总而言之,人体内46条染色体连接起来长度达6英尺,内含30亿个碱基对。碱基共有4种类型:腺嘌呤(adenine,A)、鸟嘌呤(guanine,G)、胸腺嘧啶(thymine,T)与胞嘧啶(cytosine,C)。这4种碱基两两结合(A与T相连,G与C相连),从而形成了结合在一起的碱基双螺旋。在众多的碱基对中间,大约每1000个碱基对中就会发生1次变异(有的估计会达4次之多)。这样一来,整个基因组中会有300万个碱基对发生变异。正因如此,我们才会说“从遗传学角度看,人类的相似程度达到99.9%”。如果再考虑拷贝数变异(Copy Number Variants,CNV)的话,相似度就是99.5%。还有一些其他形式的变异,比如,染色体数目增加或减少这样的结构性变异。这些相似度数字可能有一定的误导性,因为微小的基因差别也会带来巨大的表型差异。
1700230368
1700230369
在编码信使RNA(mRNA,负责将蛋白质模板输送到核糖体,也就是蛋白质合成的地方)的区域内,参与蛋白质合成的氨基酸是由三联体密码子(condon)确定的。上百个氨基酸像珠子一样串起来就构成了蛋白质。此外,同样有表示“起始”与“终止”的密码子存在。假如密码子的第三位碱基发生变化(如CTA变为CTG),一般不会带来变化,因为它编码的氨基酸是一样的,因而也不会改变蛋白质的构成。虽然合成效率会受影响,但若是三联体密码子的前两位发生变化,编码的氨基酸就很可能发生结构性变化,比如,氨基酸替换,即错义突变(missense mutation)或者转录终止,即无义突变(nonsense mutation)。
1700230370
1700230371
基因通常是指编码蛋白质的DNA,其中不只包括转录区域,还包括启动子(promoter)、增强子(enhancer)等调控区域。所谓启动子,就是在编码区域前面,转录复合体(transcriptome)与之结合后,蛋白质合成启动;增强子起调控作用,大部分位于第一个内含子中,但也有的与编码区域距离数千个碱基对。在mRNA被转录之后,它将会在生化作用下剪除内含子,拼接外显子(exon)。外显子最后会被翻译为蛋白质。在转录完成后,3’UTR(非转录区域,Untranslated Region)会发挥进一步的调控作用,影响mRAN的翻译进程,甚至控制mRNA的目的地。3’UTR区域位于编码最后一个氨基酸的密码子之后。
1700230372
1700230373
在人类基因组中基因只有2万个左右,其中每个基因平均负责合成3种蛋白质(通过选择性地剪切或修剪内含子)。这个数字比绝大多数遗传学家预言的要少得多。例如,连老鼠这种曾被认为比人类更简单的生物体基因都有4.6万个左右。这着实令人费解。于是,基因调控的重要性就体现了出来,因此这个发现也更加值得一提。换言之,每个细胞的遗传资料都是相同的,但其最终分化为神经细胞、肝细胞还是上皮细胞是由基因在调控下的选择性表达导致的。同样,人类之间的差异在很大程度上并非只由蛋白质结构差异决定,还要受发育关键点上的基因表达调控。与此同时,曾经被科学家称为“垃圾基因”的部分也被重新认识,人们意识到基因组中的非编码基因实际上对于人类的正常生理活动很重要。比如,有一种叫作小RNA(micro-RNA,miRNA)的非编码核酸,它们一般接在RNA的3’UTR区域上,对于翻译的调控起到至关重要的作用。基因组的其他一些区域不负责合成完整的蛋白质,而是较为短小的多肽链。这些多肽链能够形成激素或是神经递质,内啡肽(endorphins)就是一个例子。
1700230374
1700230375
基因表达的变化受到多种因素调控,其中的一些被统称为表观遗传学(epigenetics)。在社会科学领域,表观遗传学逐渐成为一大热点。这可能是由于表观遗传学颠覆了传统遗传学的因果关系,不再是从基因型指向表型,而是从表型指向基因型。这种因果关系体现了环境对于基因的重要影响,比较符合社会学家的一贯思维方式。传统遗传学对于行为的分析往往是将精力集中于影响生命活动的核酸上,而社会表观遗传学关注的则是环境对于基因表达的影响,比如,组蛋白(histone)的乙酰化(即在DNA缠绕的组蛋白上引入乙酰基)以及DNA的甲基化(即向G、C碱基所在的序列上引入甲基)。这些变化可能会在特定的时间在特定机体内起作用。实际上,对环境因素敏感的表观遗传学标志或许能够代代相传,这一观点令有些学者兴奋不已。若是如此,很多遗传特性的根源或许都与环境有关。贫富差异、监禁刑罚、奴役、家境、爱好都可能被基因组记录下来。然而值得注意的是,尽管代际联系会通过DNA甲基标记等反映出来,但这并不意味着就会排除其他备选机制。与此同时,动物实验也给出了受环境影响的表观遗传学标志会被后代继承这一基础理论的实证证据。目前证明表观遗传“技艺”的阈值被设定得很高,这是合理的,因为目前的公认看法是,绝大多数(甚至可能是全部)表观遗传标记都会在减数分裂中被消除,以便能够在胚胎发育过程中成为各类细胞的全能干细胞(而表观遗传标记会倾向于限制发育的方向)。同时,除表观遗传标记外,还有许多其他途径可将环境影响传递给后代。不管隔代表观遗传学最终是否会发展为一场革命,颠覆人们对遗传与环境的既有观念,但在未来的10年或20年中,它都很有可能成为热门研究的话题。至少分子生物学家已经对核心法则进行了补充,增加了许多新的因果关系链以及DNA、RNA和蛋白质间的通路。如果社会科学研究者希望全面认识人类行为的话,那么忽视这场表观遗传学革命必将是一大损失。
1700230376
1700230377
1700230378
1700230379
1700230381
基因:不平等的遗传 附录2 降低遗传力估算值的另一种尝试: 采用全基因组复杂性状分析与主成分分析方法
1700230382
1700230383
在GCTA或GREML(全基因组复杂性状分析)中,1为了确保遗传力分析是在没有血缘关系的个体间进行的,科学家排除了两类人:如果两个人有明显的血缘关系,他们会被排除;而如果两个人的前几位主成分高度相似,他们也会被排除。这样的话,任何体现在测试数据中的相似性都是随机的。由此,我们就能确认环境差异并不会对观察到的遗传差异造成影响。值得一提的是,由基因差异引发环境差异,术语叫作“内表型”(endophenotype),只是基因借以发挥作用的多种方式之一。
1700230384
1700230385
但是,会不会依然存在某些造成混淆的环境差异呢?我们观察了一些个体无法改变的环境变量,比如,是在城市还是乡村,或是父母的教育水平。然而结论是这些因素本身就是可遗传的。有些人说自己喜欢住在乡村可能就是因为遗传。另外,由于子女和父母各拥有一半相同的基因组,我们或许仅仅是在父母的居住偏好中寻找遗传上的影响。但是这种影响很弱,因为在传代的过程中遗传信号会被稀释。但是,因为我们想要研究的是兄弟姐妹之间的差异,所以应该再稀释一次:在假设随机交配的情况下,实际值只有(通过测量父母基因组得到的)预测值的1/4左右。2事实上,在城市/乡村的选择上,我们发现了30%的遗传力。如果提取的主成分数量从5个增加到25个,这一概率会降低至15%。从15%的下限可以推导出,对父亲来说,这一性状的遗传力高达60%以上。这个数字是令人难以信服的(60%的比率已经接近一些生理性状了,如身高或者体重,这些性状的遗传力在80%左右)。对母亲教育程度的研究得到了相似而且同样不可信的结果。因此,我们认为,或许是GCTA这一方法本身有问题。也许环境潜藏在遗传信息中,正如我们在双生子模型中分析的一样。
1700230386
1700230387
《自然–遗传学》副刊的一篇研究证实了这一推测。该文以精神分裂症为指标。3在此之前,他们还做过一次稳健性检验,但这一次他们做得更精明:每次只看一条染色体。如果影响实验结论的只有基因重组而非环境,那么两个人在某一条染色体上的遗传相关性应该和另一条染色体上的相关性无关。比如,在4号染色体上的相关性应该和他们两人在12号染色体上的相关性毫无关系。这是因为我们基因组中的23张牌并不是一整副,而是有23套独立的牌组,基因组是它们的累加。所以,某一条染色体的重组情况是与其他染色体独立的,除非存在群体分层或祖先相同等情况使某人群内部的相似度较高。换句话说,如果遗传相关性在一定程度上受(祖先导致的)人群结构影响,我们应该能从染色体之间的关联中看出来。具体地讲,在8号染色体上更相近的两个人在4号染色体上也会显示出更多的相似性,其他染色体亦然。除此之外,没有其他方法能解释这种跨染色体的相关性。让我们再用洗牌举例:上面提到的相似性并不是因为洗牌时的运气,而是因为不同的牌出现在牌堆的概率不同。
1700230388
1700230389
该文的作者在补充材料中给出了上述测试的结果。有一些染色体确实和其他染色体相关联,尽管理论上并非如此。当然,这也可能只是随机误差。作者并没有进行统计上的计算,来证明观察到的现象是否代表着染色体相关性的整体移动。
1700230390
1700230391
1700230392
1700230393
1700230394
图A2.1 个体间的染色体相关度
1700230395
1700230396
注:如果真的只是由于染色体随机重组导致一些个体之间有更高的遗传相关性,那么染色体之间应该不存在相关性,因为它们都是各自分离的。然而,观测到的结果是个体间的染色体相关度在概率分布图中向左偏移,这表明染色体倾向于依相关度聚集。这一发现暗示人群结构(即族裔)是整体相关性分布的部分驱动因素,进而表明环境差异可能干扰遗传力估算。
1700230397
1700230398
图A2.1是一个简单的条形图,表明相关性很高。如果这真的是由随机误差导致的,那么应该只有10%左右的点落在p< 0.1的地方。相反,我们看到右侧的点显然更多。统计学计算表明,随机分布呈现出这种形状的概率不到千万分之一。所以作者的核心假设,即遗传相似性是由随机重组而非群体层面的差异导致的,成立的可能性只有千万分之一。4
1700230399
1700230400
为了避免在双生子分析中造成失败,我们重新计算了一大批性状的遗传力,从身高(它大概是可能混淆估算值的变量中受环境差异影响最小的一个了)到教育(它受环境因素的影响可能是最大的),等等,以此来解释城市/乡村选择所体现的环境差异。我们算出的遗传力基本不变,但这也许是因为我们选错了环境指标,于是我们把能想到的都加进去了,结果并没有发生太大的变化。遗传学家又赢了,虽然对手是他们自己。
1700230401
1700230402
1700230403
1700230404
1700230406
基因:不平等的遗传 附录3 一种尚未实践的思路: 主成分分析与家庭样本结合
1700230407
1700230408
我们试图努力验证由估算所得的社会性状遗传力是否过高,但遗传学革命带来了一项关于兄弟姐妹间的研究,这项研究给了我们一个沉重的打击。正如我们之前所言,排除选型婚配的情况,兄弟姐妹之间的基因相似程度平均是50%。但这只是一个平均值,事实上可能存在较大波动性。如果你觉得有些兄弟长得比其他兄弟更像,那么你的感觉可能是对的。由于父母双方的基因重组,基因相似性在不同子女间可能确实不同。1结合前文提及的GCTA分析,我们就可以把遗传相似性与表型相似性结合起来,共同估算遗传力。
[
上一页 ]
[ :1.700230359e+09 ]
[
下一页 ]