随着测序技术的飞速发展,组装一个个人的基因组的成本在快速下降。1990-2003年,六国科学家耗费13年时间和30亿美元,利用海量的BAC克隆,组装成功第一个人的个人基因组,人类基因组计划宣告完成。2007年,借助二代测序仪454,人们组装成了第二个个人基因组,耗时4个月,成本150万美元,但此时费时费力的BAC克隆仍然是拼接的必需。2008年,李瑞强等人发明了仅使用二代测序法拼接大型真核基因组的方法,虽然受限于Illumina测序仪读长短的劣势,拼接完整度有限,但由于其绕开了费时费力的BAC克隆,让个人基因组拼接的速度提升到了一个新的境界,成本也因此进一步下降。近年来,随着长读长的三代测序(单分子测序)技术的发展,基因组组装的完整性有了大幅度提升。2016年,暨南大学等单位的研究人员利用三代测序和二代测序相结合的方式,组装出了迄今为止完整度最高的个人基因组“华夏一号”汉族个人基因组(HX1)。该基因组填补了现行标准人类参考基因组GRCh38中数百个空缺,并测定了12.8Mb的汉族人特有序列,树立了个人基因组拼接的新高度。

众所周知,由于各民族的遗传背景差异很大,各民族的基因序列和基因组结构也有其独特之处。以高加索人种(白人)和非洲人为对象组装而成的标准人类参考基因组GRCh37/38等必然无法反映其他种族人群的特有序列和结构,在精准医学领域可能造成一定的误差。使用这些从头组装出的“民族特异性”个人基因组,理论上应该更贴金该民族的基因组,理应适合该民族的精准医学研究。那么事实究竟是不是这样呢?

暨南大学张弓教授研究组最新发表的论文对此给出了否定的回答。不仅如此,他们还发现了现有的各种个人基因组都有严重的错误,不适合精准医学使用。

研究者以目前组装完整度最高的华夏一号(HX1)汉族人基因组为例,将数十个汉族人的全基因组、全外显子组测序的数据集分别比对到HX1和GRCh38上,使用的是目前准确率和稳健性最高的比对算法FANSe3,。结果发现HX1的比对率更低、错误率更高。这与预期完全相反。

由于三代测序的错误率普遍高达12-20%,因此研究者先是怀疑三代测序组装出的基因组序列中含有大量的单碱基错误。于是,研究组用之前发表的方法,使用FANSe算法和二代测序数据对基因组进行修正。这种方法在以前被近2000个位点的一代测序验证为无一假阳性、无一假阴性,准确率极高。在这种极为精密方法的修正下,确实修正了HX1基因组中数百万个单碱基错误。然而,即便是基本修正完毕的基因组,仍然在比对汉族人测序数据时逊于GRCh38。这一结果说明,HX1的主要问题并不是在单碱基错误上,而很有可能在于大片段组装错误——这种问题更加致命,因为没有任何后期手段能予以有效纠正。

在研究团队的仔细分析下,HX1大片段组装错误的问题逐渐浮出水面,并且问题触目惊心。

首先,研究者注意到HX1无法组装出完整的线粒体基因组。众所周知,线粒体是约17kb的环状DNA,在人类中高度保守、不可或缺。HX1的二代测序数据比对到GRCh38上,得到了完整覆盖的线粒体基因组,证明这个人的线粒体是完整的。然而HX1个人基因组中,线粒体却分散在了7个scaffold中,而这些scaffold均是来自于核染色体的片段。这很清晰地证明了HX1对线粒体的组装存在严重错误。研究者又分析了Venter, NA12878, AK1等个人基因组,虽然这些个人基因组是用不同的方法进行组装,但他们无一例外地都未能组装出线粒体,说明现有的个人基因组组装技术存在致命缺陷。

不仅如此,研究者还发现HX1基因组中许多基因存在大量的外显子缺失情况,其中包括数十个对人细胞极端重要的管家基因。HX1的二代测序数据则清楚表明了这些外显子实际上是存在的,却在HX1的三代测序组装的过程中丢失掉了。这些丢失掉的外显子中包含了大量已知与疾病密切相关联的SNp位点,使HX1基因组不适用于精准医学的目的。与其使用HX1作为汉族人的参考基因组,还不如使用GRCh38参考基因组,并使用高容错性、高稳健性、高精度的FANSe3来进行比对。

研究者分析认为,虽然三代测序的长读长简化了基因组的初级组装,但其超高的错误率造成了普遍性的大片段组装错误。在基因组中普遍存在着一些颇为相似的区段,例如核染色体中有一些与线粒体相似的区段NUMT,这些区段与线粒体之间的序列相似度最高可达94%。如此高的相似度根本无法用错误率高达12-20%的三代测序来分辨,因此三代测序数据在组装这些区段时极易出错。这不是算法能解决的事,因为三代测序原始错误率就远高于基因组中的相似区段的差异。这个问题理论上可以通过拉高通量来解决,但三代测序的成本迄今为止依然远高于二代测序,且由于错误率太高,HX1以102x的深度依然远远解决不了这个问题,而传统的二代测序进行拼接只需要30x的深度即可,这使得三代测序纠错的策略从经济上变得不可行。一旦三代测序组装失败,这种错误根本无法用短读长、错误率低的二代测序来予以弥补。

那么,为什么标准基因组GRCh38没有这个问题呢?这是因为GRCh38为了追求组装质量,不辞辛劳地使用BAC克隆,将人基因组打碎成数万个长度约150-350kb的BAC,这样就可以先将这些BAC进行分别的测序组装,采用高精度的二代测序,在这么小的片段上可以得到非常好的组装效果,而且很难在这么小的片段里遇上相似的序列,自然不容易遇到NUMT与线粒体序列相似这种问题。然后再将这些高精度的BAC片段组装为染色体。而2008年李瑞强所发明的直接使用大规模测序的方法组装基因组,虽然绕过了费时费力的BAC,但使得组装规模由几百kb陡然增大至3Gb,并会遇到极多的高相似序列,再加上测序仪的错误,使得大片段组装正确性成为了数学上不可完成的任务。这个问题不仅在组装个人基因组上会出现,在组装其他物种基因组上同样也会出现。
因此,研究者提出了个人基因组组装的质控标准:

1.使用原始错误率低于5%的测序技术。
2.使用BAC克隆。
3.同种族的测序结果对个人基因组的比对率应该好于其他种族基因组(包括GRCh38),错误率应该低于其他种族基因组。
4.线粒体必须作为独立且完整的一个contig存在。
5.看家基因的完整性必须得到保证。

虽然这项研究结果给目前三代测序组装基因组泼了一盆冷水,但也是对这个领域的数据质量提出了可行的标准。目前,大规模测序技术在临床实践中饱受不准确、不稳健的诟病,数据质量控制标准是解决这些问题的核心。本研究为基因组组装提供了质控标准与行动指引,将有助于大规模测序技术规范化、标准化、精准化。

本研究是国家重点研发计划《医学生命组学数据质量控制关键技术研发与应用》的成果之一。


Mai Z, Liu W, Ding W, Zhang G *
Misassembly of long reads undermines de novo assembled ethnicity-specific genomes: Validation in a Chinese Han population
Human Genetics (2019) https://doi.org/10.1007/s00439-019-02032-6.