《Science》基因组比对的革命性技术
自从20多年前人类基因组的第一次测序以来,人类基因组的研究几乎完全依赖于一个参考基因组,并与其他基因组进行比较,以确定遗传变异。科学家们早就认识到,单一的参考基因组不能代表人类的多样性,而且使用它会给这些研究带来普遍的偏见。现在,他们终于有了一个可行的选择。
在12月16日发表在《科学》(Science)杂志上的一篇论文中,加州大学圣克鲁斯基因组研究所(UC Santa Cruz Genomics Institute)的研究人员介绍了一种名为长颈鹿(Giraffe)的新工具,它可以有效地将新的基因组序列绘制到代表多种不同人类基因组序列的“整体基因组”。他们表明,这种方法可以对遗传变异进行更全面的表征,并可以改进广泛使用的研究人员和临床医生的基因组分析。
通讯作者Benedict paten是加州大学圣克鲁兹分校的生物分子工程学副教授,也是基因组研究所的副主任,他说:“我们已经为此努力了多年,现在我们第一次有了比单一参考基因组更快、更好的实用方法。对生物医学的未来来说,基因组学平等地帮助每个人是很重要的,所以我们需要考虑到人类群体多样性而不带有偏见的工具。”
所有人类都有相同的基因,但在基因的确切序列上有许多变化——这意味着DNA亚基(缩写为A, C, T, G)的序列,以及在蛋白质编码基因之外的基因组的大部分区域。单个编码字母的差异被称为单核苷酸变异(SNV),短序列的插入或删除被统称为“indels”。
最复杂的变体是结构上的变体,包括重新安排大段代码(50个或更多字母)。使用单一的参考基因组很难找到这些基因,但它们可以产生显著影响,并且已知在某些疾病中发挥重要作用。每个人都有数百万个SNVs和indels,还有成千上万个更大的结构变体,这些结构变体总体上比其他类型的变体包含更多的代码字母。
paten说:“基因组学的主力一直是SNVs和indels,因为结构变异一直隐藏在视野之外。泛基因组学让结构变异变得可见,所以我们可以像研究SNVs和短indels一样研究它们。有很多结构变异,它们可以产生很大的影响,所以这对疾病的遗传研究的未来至关重要。”
可以从多个基因组序列中创建泛基因组参考,使用数学图结构来表示不同序列之间的关系。在这篇新论文中,研究人员利用公开数据绘制了两张人类基因组参考图。这些数据被用于评估新工具Giraffe,这是一组将新的序列数据映射到泛基因组参考的算法。
第一作者Jouni Sirén是基因组学研究所的研究科学家,开创了Giraffe的许多关键算法创新。Giraffe可以准确地将新的序列数据映射到嵌入在泛体基因组参考中的数千个基因组,就像现有工具映射到单个参考基因组一样快。该研究还表明,使用Giraffe减少了绘制偏差,即不正确地绘制与参考基因组不同的序列的倾向。
“这种分析方法不仅更好,而且和目前使用线性参考基因组的方法一样快,”基因组研究所的博士后研究员、共同第一作者Jean Monlong说。
廉价的短读测序是现代基因组学的支柱,产生的序列片段必须被绘制到参考基因组上才能理解。测绘显示每个片段属于23条人类染色体中的一条,并识别出个体基因组中每个位置的变异,这个过程被称为基因分型。
研究人员发现,谷歌健康公司的深度学习变异调用者DeepVariant,使用Giraffe对泛基因组的比对比使用对单个参考基因组的比对可以更准确地识别SNVs和indels。
Monlong说他最兴奋的是使用泛基因组学来研究结构变异。
他说:“最近通过长读测序发现了许多结构变异。有了泛基因组,我们可以在短读测序的大型数据集中寻找这些结构变异。这很令人兴奋,因为这将使我们能够在许多人身上研究这些新的结构变异,并就它们的功能影响、与疾病的关联或在进化中的作用提出问题。”
研究人员使用Giraffe绘制了来自5202人的不同群体的序列解读图,并确定了16.7万最近发现的结构变异的基因型。这使他们能够估计这些结构变异的不同版本在整个人类群体中以及在单个亚群体中出现的频率。他们发现,某些变异的频率在不同的亚种群之间存在很大差异,如果只在某些特定变异频率较低的欧洲血统种群中进行分析,可能会被误解。
一个单一的参考基因组必须选择任何变异的一个版本来表示,而留下其他版本不表示。通过使更广泛的具有代表性的泛基因组参考实用,Giraffe可以使基因组学更具包容性。
paten和加州大学圣克鲁斯基因组研究所的其他人参与了一项由美国国家人类基因组研究所资助的重大努力,以建立一个全面的人类泛体基因组参考,他们预计将于明年发布,作为科学界的资源。