1700230509
基因:不平等的遗传 附录6 基因型填补
1700230510
1700230511
《钟形曲线:美国社会中的智力与阶层结构》是在基因组革命前写的,所以当时根本不可能回答关于种族、智商、基因相互作用的研究所提出的问题。但现在我们也许能够回答了。如果我们把第二章中讨论的针对教育的多基因分数在分析中换成针对智商,结果会发生哪些变化?如果在这个维度上黑人(平均)得分低于白人,这是否能告诉我们,在教育和认知能力方面的种族差异确实存在遗传基础?
1700230512
1700230513
首先,目前这个分数能预测白人中教育或认知能力差异的6%。所以,对于智商这个据称遗传力高达40%的指标来说,这并不是一个好消息。智商遗传差异的另外34%可能遵循与我们所观察到的那6%截然不同的分布。欧裔和非裔有不同的连锁结构更增加了这种可能性。让我们回想一下,这个分数的数据横跨众多国家,无数研究,数十万人。但他们全都是白人。已被大型基因分型芯片公司(如Illumina或Affymetrix)分型的遗传标记都是人类群体中最常见的变异(在给定位点通常只有两种标记,如G或T,其中较不常见的等位基因出现的频率至少为1%)。由于基因分型服务最常见的消费者是欧裔和其他白人(例如,23andme的客户中约77%为欧裔,只有5%为非裔美国人1),其芯片在设计时就旨在检测欧裔人口中常见的遗传变异标记。因此,由于多基因分数是从白人样本得出的,所以在应用于非裔美国人时,它们只能检测出相对较少的常见变异。
1700230514
1700230515
但这只是问题的一部分。更大的问题是被分型的标记(也是多基因分数计算的基础)并不一定是SNP,即能带来某些实际生理影响,并通过其他机制影响大脑发育或行为习惯的单核苷酸变异(如能提高身高,进而增强自信心的SNP)。它们就像长途铁路沿线插的旗子,沿着染色体轨道相间分布,起标记区域的作用。人类基因组中有30亿个核苷酸,其中1%在今天的人类群体中表现出了已知的变异。这意味着有3000万种基于SNP的遗传差异来源。当然,其中大部分是无意义的。一般来说,基因分型芯片可以直接测量100万个标记(10年前大约为50万个)。这意味着我们仅仅测量了人类遗传变异的1/30。
1700230516
1700230517
由于千人基因组计划(以及更早的国际人类基因组单体型图计划,Hap-Map Project),我们对基因组的了解远远不止100万个已测等位基因。利用来自世界各地的人类样本,千人基因组计划对2500名个体进行了新一代的全基因组测序(千人基因组的名字来源于第一阶段测定者为1092人)。新一代测序包括扩增个体的DNA,然后将其分解成许多随机小片段,并读取这些片段。为了获取个人基因组(全部30亿个碱基对)的完整“记录”需要约28次读取。不过,只是为了检测大多数变异(至少存在于1%的人口中)的话,通常读取4次就足够了。每人读取4次乘以2500人意味着该项目能够检测出发生于至少1%的人口中的变异。对于基因的编码区,他们进行了额外的读取以获得更多“深度”(即较稀少的变异)。而且,与对变异仅进行有限采样的商业芯片不同,千人基因组几乎涵盖了全部基因组。此外,它不仅适用于白人,也适用于从中国的汉族到塞拉利昂的曼德族再到越南的京族等人群。
1700230518
1700230519
研究者还通过元分析手段为基因分数测量做出自己的贡献,将自己测量的SNP添加到了千人基因组平台,以便所有人(无论使用哪种芯片)都能够接收更多的相关人群信息(至少在理论上如此,因为一些研究也许存在数据缺失,或者其他妨碍等位基因被填补的变异)。“填补”活动需要利用染色体轨道周围的SNP,通过将它们和特定单倍型(同方向变动的SNP组合)进行匹配的方式来推测其周围发生的变异。想象一下,Illumina芯片在1号染色体的10号位(从链的一端数起的第十个碱基对)测量C和A的变异。在1000号位,该芯片还测量了变异T和A。填补平台(10号位和1000号位之间的位置序列)也许还存在6个显示出显著变异的其他标记。
1700230520
1700230521
对于这段DNA,我们的样本中的每个1号染色体有4种可能性——C和T,C和A,A和T以及A和A(前一位是10号位点的,后一位是1000号位点的)。如果我们发现C和T之间包着一个特殊的中间序列,它几乎存在于每一个千人基因组样本中,如ATGGA,那么我们可以把那些变异填补进来,从而增加纳入分数计算中的等位基因数量。以上是一个过度简化的过程,因为填补不仅基于夹着某个特定序列的两个碱基,而且也不是每次都有如此确定的一个固定序列,但基本思想是一样的。填补的一个好处是,不同芯片可以获取大致相同位点的信息;另一个好处是我们得到了更多的信息。这样做的效果虽然不如去测量中间片段,但也有不少好处。事实上,对于欧裔人口,在重复样本(希望能预测其结果的样本)中,使用填补碱基在已测的碱基之上所增加的预测力非常小。
1700230522
1700230523
为什么走填补这条路会绕很大弯?答案是,填补是在种族群内部进行的。也就是说,这个分数(以及大多数针对其他结果的分数)是基于填补到欧洲HapMap或千人基因组样本的数据计算的。我们回想一下,非裔的单倍型结构与其他人十分不同。具体来说,撒哈拉以南人口的变异要多得多。这就意味着,即使已测的基因型在欧洲和非洲裔美国人群中恰好显示相同的双等位基因变异(即C和T分别为10号位和1000号位的锚定SNP),它们中间夹着的变异序列在两类人群中也很可能截然不同。也就是说,非裔人口会有更多、更不同的单倍型,因此对美国黑人来说,填补会更加困难和不准确。
1700230524
1700230525
图A6.1表示了实际情形。我们从23andme读取了我们的原始数据,并选择了一个随机的SNP——它恰好在8号染色体上,标签为rs1380994。当我们使用来自千人基因组的欧裔人群(实际上是来自美国犹他州的北欧和西欧裔人组成的一个样本,种群代码为CEU),在8号染色体上该SNP的区域的连锁结构中画出该SNP时,可以看到,给定的连锁(即排在一起的碱基)阈值R2=0.3,于是这个SNP就让我们能够观察到四个基因,加上基因之间的序列。这意味着,如果rs1380994在我们的多基因分数中,它可能会检测到跨越四个不同蛋白编码区的遗传效应。对尼日利亚伊巴丹的约鲁巴人的千人基因组样本中的同一个SNP(rs1380994)做同样处理后,我们发现SNP只代表了一个蛋白质编码基因。2由于非裔样本中的变异较大,所以收到的效果较差。而且,这还只是非洲的一个城市的一个部落!与此同时,一般认为,美国人样本综合了大部分西欧族裔。想象一下,如果我们在西非同样地理跨度内的受访者中取样,这一个SNP能提供的观测范围就要小得多。关键在于,SNP承载的含义因种族而异,因此并不具有真正的可比性。
1700230526
1700230527
1700230528
1700230529
1700230530
图A6.1 从欧裔人口和尼日利亚人口中随机选取一个SNP的连锁结构
1700230531
1700230532
无论我们是否真的使用填补数据,或者只使用已测的等位基因,填补的低精度都很重要。染色体轨道两侧的SNP可能碰巧插在对我们感兴趣的结果有意义的地方。也许Affymetrix测量的SNP之一恰好对应密码子的3个位置中的1位或2位,因此造成了蛋白质中间有一个氨基酸被置换。(在全身其他地方之中)那个蛋白恰好是大脑海马区的关键受体,在突触后神经元中会被神经递质触发,而氨基酸的改变影响了它结合神经递质的能力。这个影响将是巨大的。但绝大多数被测量的SNP并不属于这一类;相反,它们带来的遗传变异重要程度大小不一(主要取决于在基因组的调控机制中,在多个位点和各人体组织中开关基因表达的效应是强还是弱)。
1700230533
1700230534
由于非裔人口中遗传变异量较大,比起白人(或任何非撒哈拉以南的人),沿着染色体插的这些SNP的信息量要少得多。它们标记的是有相关性的SNP,但因果性就不太确定了。无论我们是否进行填补都是如此。而且,由于非洲民族遗传差异较大,测定人数较少,所以千人基因组计划对他们进行的填补效果不太好。结果是,在没有大样本和全面基因分型的条件下,即使我们用针对非裔群体的芯片对非洲人口进行专门的分析,并用非裔参考人群填补等位基因,预测能力也很可能较差。即使这不完全是真的(其中确实有可商榷之处),现状仍然是,我们使用的芯片是为欧裔设计的,分析也是为他们做的,那么如果我们将同样的分数用来分析非裔美国人,预测能力就大打折扣了。实际上,那些试图利用社会科学与遗传学联合协会的教育测量结果(甚至是关于身高等结果的多基因分数)的人也已经发现,它们对黑人的预测结果并不好。这就像用天称量长或用尺子称重。每个共祖人群都需要不同的工具,甚至需要多种工具。
1700230535
1700230536
所有这些问题加在一起,意味着我们不能仅仅因为白人和黑人的教育多基因分数存在差异,就得出测试分数的差距存在遗传基础这样的结论。这就好比给一群孩子称体重,发现他们比另一群孩子轻,由此得出结论:第一群孩子比较矮;他们较轻的体重可能是也可能不是源于较矮的身高。也许有一天,当这些全国代表性样本中的每个人都有完整测序的基因组时,我们可以根据每个等位基因构建分数并实现可比性。目前,这是不可能的。然而即便可以实现,它也不能回答我们希望理解的根本性问题。
1700230537
1700230538
最终,我们将会拥有大量具有全国代表性的被深度测序的样本,以便我们生成多基因分数,而它预测智商和学业成果的程度也会接近其总可加性遗传基础(约40%)。我们甚至可能会发现不同种族群体的多基因分数的共同要素存在差异。但即便如此,我们还是无法理解其预测能力背后的内在或外在机制。这是固有的权衡。利用单一候选基因法,我们可以尝试研究源于变异的生物学和社会学途径。(我们可能仍然无法绘制出所有的途径,但是我们有可能把主要的途径弄清楚。)但候选基因法几乎无法解释我们观察到的表型变异。你基因组中一个字母的变化不可能显著改变你上大学的可能性。相比之下,多基因分数方法通过综合整个基因组的变异,牺牲了理解途径的任何希望。即使我们发现列表顶端的基因一般在大脑中表达,我们也不知道是否这就能解释为何它们可能与智商相关,而不是与智商有关的可能在身体其他部位发生的机制。再强调一遍,多效性是规律,而不是个例。即使这些基因在且只在大脑中表达,除了能让我们知道一个事实——它已经被种族化,因而表现出一种和我们称为社会的系统所不同的反应,我们并不能知道它们是否和(本身对认知没有影响的)说话语调、走路方式等相关。
1700230539
1700230540
这把我们置于何处?通过可靠的观察我们会发现,非裔美国人群体比白人拥有更多遗传变异,据此我们可能会凭经验预测:假设其他所有方面都是平等的(显然并非如此),在连续、高度多基因性状(如身高或智商)上,我们应该更多的观察黑人而非白人。想要给经常被媒体用来做文章的“平均差异”下任何结论是非常困难的。
1700230541
1700230542
在健康领域,我们能看到这些关于种族和基因变异性的初步观察已经产生一些真实可测的后果。如社会学家乔纳森·道(Jonathan Daw)所证明的,遗传多样性变得更高将导致严重后果,那就是美国黑人比美国白人更难找到匹配的器官。无论是陌生人还是兄弟姐妹,黑人群体内更高程度的遗传变异意味着,即使是亲兄弟或姐妹,与相同情况的一对有器官移植需求的白人相比,黑人更不可能配型成功。因此,诸如受到医院的歧视或缺乏黑人家庭捐献者(由于整合程度较低的家庭结构)这样简单的说辞可能并不能完全解释不同人种的肾移植等待时间的巨大差异。通过在肤色之外的观察并承认不同遗传历史的事实,即使在最堪忧的、历史争端最多的地区、种族之中,分子分析(当没有政治的斧子干预时)也可以增加我们对社会动态的理解。
1700230543
1700230544
1700230545
1700230546
1700230548
基因:不平等的遗传 致谢
1700230549
1700230550
至少有两个关键因素为我们完成本书奠定了基础。第一个是由我们的朋友和合作者Jason Boardman指导的整合遗传与社会科学会议(IGSS)。我们早期的互动之一是我在第一届年度会议上解读了弗莱彻的文章,该会议现在已经在科罗拉多大学行为科学研究所举办了7年。这次会议形成了我们在本书中强调的大部分科学理论的中心思想,感谢Jason Boardman、Jane Menken、Richard Jessor和会议的工作人员,以及资助者美国人口学会、美国国家儿童健康与人类发展中心(NICHD) 、国际生物统计学会(IBS)以及科罗拉多州人口中心,感谢他们举办的如此振奋人心、引人入胜以及持之以恒的活动。第二个是哥伦比亚大学的罗伯特·伍德·约翰逊基金会健康与社会学者计划(Robert Wood Johnson Foundation Health & Society Scholars Program)。弗莱彻于2010—2012年投身于该计划,这使我们能够讨论一些为本书奠定基础的工作。弗莱彻还非常感谢Peter Bearman、Bruce Link和Zoe Donaldson在此期间提供建议、支持和参与以及建立起这一研究方向的耶鲁的前同事们,特别是Paul Cleary、Joel Gelernter和Mark Schlesinger。我要感谢纽约大学生物系,让我能回校了解siRNA、miRNA和piRNA之间的区别。还要感谢纽约大学的行政部门接受如此不寻常的安排,特别感谢牧师David McLaughlin。
1700230551
1700230552
一路走来,我们受益于大量同事和合作者的建议与支持。我们在这个研究领域的朋友和合作者包括但不限于(按字母顺序排列):Daniel Belsky、Daniel Benjamin、Richard Benne、Richard Bonneau、Richard Cesarini、Justin Cook、Christopher Dawes、Ben Domingue、Kathleen Mullan Harris、Phillip Koellinger、Thomas Laidley、Steve Lehrer、Patrick Magnusson、Matthew McQueen、Michael Purugganan、Emily Rauscher、Niels Rietveld、Lauren Schmitz和Mark Siegal。他们大大提高了我们研究工作的效率,并为更广泛的领域探索做出了贡献。我们还感谢Jason Boardman、Justin Cook、Mitchell Duneier、Angela Forgues、Joel Gelernter、Joel Han、Ryne Marksteiner、Ann Morning、Jessica Polos、Matthew Salganik和Maria Serakos对本书各章的全面评论。在普林斯顿社会学系,Amanda Rowe复制编辑了手稿的几个版本,每次都对它进行了改进。
1700230553
1700230554
过去几年来,我们受到了各种组织的慷慨资助。
1700230555
1700230556
我非常感谢Russell Sage基金会在对部分工作的研究资助[资助#83-15-29:“生命进程中的基因—环境相互作用(GxE)与健康不平等性”]。我还要感谢John Simon Guggenheim基金会的个人研究基金(“寻找失去的遗传性”)。最后,我要感谢国家科学基金会以艾伦·沃特曼奖(SES-0540543)的形式支持我的第二个博士研究。纽约大学和普林斯顿大学的内部研究支持也使得这一工作成为可能。对奥克兰大学,比勒费尔德大学,耶鲁大学生命进程与不平等中心以及科罗拉多大学博尔德分校行为科学研究所的访问都是我发展思路的有益机会。特别地,要感谢主办者Richard Breen(牛津)、Peter Davis(奥克兰)、Martin Diewald(比勒费尔德)和Jason Boardman(科罗拉多)。
1700230557
[
上一页 ]
[ :1.700230508e+09 ]
[
下一页 ]