本文图片来自Broad研究所


gnomAD,是保存了60706个个体的外显子的2016年的ExAC数据库的升级版,它总共收集了125748个外显子和15708个全基因组序列。

本周《Nature》,有四篇论文提供了从基因组聚集数据库(Genome Aggregation Database)收集到的深入见解。

这种规模和范围的增加使得gnomAD联盟不仅可以对个体之间的单核苷酸变异进行分类,还可以对由50个或更多核苷酸组成的更复杂的结构变异进行分类。在本期Nature重点论文中,康拉德•卡泽夫斯基(Konrad Karczewski)和同事们回顾了这个数据库,并探索了能够使蛋白质编码基因失活的变体。在第二篇论文中,贝丽尔•卡明斯(Beryl Cummings)和同事证明,RNA表达数据可以用来指导变异的演绎方式。在另一篇论文中,埃里克•米尼克尔(Eric Minikel)和同事们探讨了gnomAD数据如何帮助识别药物的基因靶点。在第四篇论文中,瑞恩•柯林斯(Ryan Collins)团队则列出了433371个结构变异的目录,并分析了它们对生理特性的影响。

下面让我们详细介绍一下这几篇本期重点文章。

在过去的八年里,基因组聚集数据库(gnomAD)联盟(和它的前身,外显子集合联盟,简称ExAC)一直与世界各地的遗传学家合作,从世界各地的人群中收集和研究超过125000个外显子和15000个全基因组。

最近,《Nautre》、《Nature Communications》和《Nature Medicine》上总计发表了七篇论文。gnomAD 联盟的科学家描述了他们从数据库中获得的第一组发现,显示了这一海量数据收集的威力。这一系列旗舰队论文的收获是:

一、提出一个更完整的目录和理解一类罕见的遗传变异,被称为功能丧失(loss-of-function,LoF)变异,它被认为会破坏基因编码蛋白质;

二、介绍了一个尚未研究但重要的遗传变异类型,结构变异(structural variants)的最大综合参考图;

三、说明独特变异形式和变异生物背景的工具如何帮助临床遗传学家诊断罕见遗传病患者;

四、举例说明像gnomAD这样的规模的数据集如何帮助评估拟议的药物靶点。

麻省理工大学Broad研究所、哈佛大学和麻省总医院(MGH)的研究人员担任所有研究的联合第一或联合高级作者,英国伦敦帝国理工学院、直接面向消费者的遗传学公司23andMe和其他机构的科学家为论文个人作者。国际上有100多名科学家和团体向该联盟提供了数据和/或分析工作。

“这些研究代表了gnomAD联盟的第一次重大发现浪潮,”gnomAD项目的科学负责人丹尼尔•麦克阿瑟(Daniel MacArthur)说,他是其中六项研究的资深作者,是Broad 研究所医学和人口遗传学项目的研究所成员。”这一数据库的力量来自其庞大的规模和人口多样性,我们之所以能够接触到这一点,是因为向其提供数据的研究人员和参与这些贡献研究的研究人员的慷慨捐助。”

“从某种意义上说,gnomAD是一个联盟产物,因为基础数据代表了许多团体的工作和贡献,他们一直在收集外显子和基因组序列,以此来理解人类生物学,”Konrad Karczewski说,他是发表在《Nature》杂志旗舰论文的第一作者,也是Broad和MGH分析和转化遗传学部门的计算生物学家。“这些论文中的每一篇都代表着有人给数据集带来了一个新的视角……我有一个想法,我们可以把所有这些都付诸实践,”他说。“并为遗传学界创造了一个新的资源。看到它展开真是太神奇了。”

“巨人”的成长史

Karczewski和他的同事建立了ExAC,然后gnomAD扩展了际上第一个大规模的人类遗传变异分类“1000个基因组”项目和其他项目的工作。


Karczewski回忆说:“2012年,我的实验室正在对罕见疾病患者的基因组进行测序,发现现有的正常变异目录不够大或多样,不足以帮助我们解释我们所看到的基因变化。与此同时,我们在世界各地的同事已经对数万人进行了测序,以研究常见的、复杂的疾病。因此,我们着手将这些数据集整合在一起,为罕见疾病研究创建一个参考数据集。”

ExAC联盟于2014年10月发布了其首次收集的全部外显子组数据。然后开始收集全基因组数据,演变成gnomAD联盟,并于2017年2月发布gnomAD v1.0。

随后的gnomAD版本关注于增加外显子和基因组的数量、数据中突出显示的变体的数量以及数据集的多样性。

这些新的论文基于gnomAD v2.1.1数据集,其中包括来自超过25000名东亚和南亚后裔、近18000名拉丁裔和12000名非裔或非裔美国人的基因组和外显子。

一款全面的综合目录

七篇论文中有两篇展示了大的基因组数据集如何帮助研究人员更多地了解稀有或未被研究的基因变异类型。

由Karczewski和MacArthur领导,发表在《Nature》杂志上这两篇研究描述了gnomAD和功能丧失(LoF)变异图谱,LoF被认为是完全破坏蛋白质编码基因功能的基因变化。作者在gnomAD数据集中发现了443000多个LoF变体,大大超过了以前的所有目录。通过比较每个基因中这些罕见变异的数量和人类基因组突变率的新模型的预测,作者还能够将所有编码蛋白质的基因对破坏性突变的耐受程度来对它们进行分类,也就是说,当基因被基因变异破坏时,基因引起重大疾病的可能性有多大。这一新的分类方案确定了更可能与诸如智力残疾等严重疾病有关的基因。

Karczewski解释说:“gnomAD目录为我们提供了迄今为止对基因变异敏感性谱的最佳观察,并为支持常见和罕见疾病中的基因发现提供了资源。”

当Karczewski和MacArthur的研究集中于小的变异(点突变、小的插入或删除等)时,研究生Ryan Collins、Broad的科学家Harrison Brand、Michael Talkowski和同事使用gnomAD来探索结构变异。这类基因组变异包括重复、缺失、反转和其他涉及较大DNA片段(通常大于50-100碱基长)的变化。他们的研究也发表在《Nature》杂志上,展示了一个包含433000个结构变异的目录,gnomAD-SV。这些在将近15000个gnomAD基因组中识别出的结构变异,代表了大多数已知的主要结构变化类别,并共同形成了迄今为止最大的结构变异图谱。

“众所周知,在全基因组数据中识别结构变异是一项艰巨的任务,而且以前从未进行过这种规模的调查,”Talkowski指出,他也是MGH基因组医学中心的一名教员。“但它们比任何其他变异形式都能改变基因组中更多的个体碱基,是人类进化和疾病的可靠驱动力。”

他们的调查得出了几个令人惊讶的发现。例如,平均每个基因组中至少有25%的罕见LoF变异实际上是结构变异,许多人携带的是有毒有害的结构改变,但没有预期的表型或临床结果。

他们还指出,许多基因对复制和缺失同样敏感;也就是说,从进化的角度来看,获得一个或多个基因拷贝和失去同样不受欢迎。

“我们通过从gnomAD建立这个目录学到了很多东西,但我们显然只触及了了解基因组结构对生物学和疾病影响的表层,”Talkowski说。

更好的诊断工具

另外三篇论文揭示了gnomAD对不同类型遗传变异和变异产生的细胞环境的深入分类如何帮助临床遗传学家更准确地确定给定变异在患者中是保护性的、中性的还是有害的。

在《Nature》杂志的一篇论文中,前Broad/MGH研究生Beryl Cummings,现在Maze疗法工作,MacArthur和他们的同事发现,基于组织的特定基因片段表达方式的差异可以改变这些片段内的变体对生物学和疾病风险的下游影响。研究小组将来自gnomAD和基因型组织表达(GTEx)项目的数据结合起来,开发出一种利用这些差异来评估变异的临床意义的方法。

在《Nature Communications》杂志上,MacArthur、研究生Qingbo Wang和合作者调查了多核苷酸变异,这些变异是由两个或多个相邻碱基对的变化共同遗传而成的。这种变异可能有复杂的影响,本研究首次尝试系统地分类这些变异,检查它们在整个基因组中的分布,并预测它们对基因结构和功能的影响。

在另一篇Nature Communications文章中,MacArthur、Nicola Whiffin和伦敦帝国理工学院的詹姆斯•威尔(James Ware)等人探索了5’非编码区的DNA变异的影响,这些区域正好位于细胞转录机器开始读取基因蛋白质代码的地方。这些区域的变异可以诱使细胞在错误的地方开始阅读基因,这些信息以前并没有很好的综合记录。

“临床实验室每天都在使用gnomAD,”临床遗传学家Heidi Rehm说,他是Broad MpG的研究所成员,也是Broad临床研究测序平台的医学主任;MGH医学部的首席基因组学官员。“这些研究中的方法已经在帮助我们更好地解释患者的基因测试结果。”

指导药物开发

剩下的两篇论文描述了gnomAD多样性、群体规模的遗传数据如何帮助研究人员评估和选择最佳药物靶点。

2018年,Broad的科学家埃里克•米尼克尔(Eric Minikel)在他的研究博客上思考,是否可以利用具有自然发生的预测性LoF变异的基因来评估用药物靶向这些基因的安全性。他写道,如果一个自然失活的基因似乎没有有害影响,也许该基因也可以安全地被药物抑制。那篇博文成为了一篇Nature论文的基础,Minikel,MacArthur和他的同事们应用gnomAD数据集来探讨了这个问题。他们提出了将LoF变异体的见解纳入药物开发过程的方法。


利用Broad研究所的专业知识,Whiffin,MacArthur,Broad博士后研究员伊琳娜•阿姆恩(Irina Armean),23andMe公司的亚伦•克莱曼(Aaron Kleinman)和保罗•坎农(paul Cannon),以及其他人用UK Biobank、gnomAD和23andMe中的LoF变体目录,研究减少一种与帕金森病风险有关叫做LRRK2的基因的表达。

在《Nature Medicine》文中,他们利用这些数据预测降低LRRK2蛋白水平或部分阻断基因活性的药物不太可能有严重的副作用。

MacArthur说:“我们整理了gnomAD中大量基因-破坏变体。通过这两项研究,我们展示了如何利用这些变异来阐明和评估潜在的药物靶点。”

gnomAD共享信息的未来价值,不可限量

所有数据的公开共享从一开始就是gnomAD项目的核心原则。这7篇论文背后的数据已在2016年通过gnomAD浏览器公开发布,没有使用或发布限制。

MacArthur说:“这个资源已经对现在的医学研究和临床实践产生了广泛的影响,这证明了基因组数据共享和聚合的难以置信的价值。自从我们提供数据以来,已有350多个独立的研究利用gnomAD对癌症易感性、心血管疾病、罕见的遗传性疾病等进行了探究。

“但我们还远远未达到发现饱和,或变体解释饱和。该联盟下一步的重点将是增加这些资源的规模和种群多样性,并将由此产生的大规模遗传数据集与临床信息联系起来。”

相关文献检索:
1.Nature volume 581. The mutational constraint spectrum quantified from variation in 141,456 humans

2.Nature volume 581.A structural variation reference for medical and population genetics
3.Nature volume 581.Transcript expression-aware annotation improves rare variant interpretation
4.Nature volume 581.Evaluating drug targets through human loss-of-function genetic variation
5.Nature Communications volume 11. Landscape of multi-nucleotide variants in 125,748 human exomes and 15,708 genomes
6.Nature Communications volume 11. Characterising the loss-of-function impact of 5’ untranslated region variants in 15,708 individuals
7.Nature Medicine volume 26. The effect of LRRK2 loss-of-function variants in humans

(生物通:伍松)