震惊!人类参考基因组组装更上一层楼
人类参考基因组(GRCh38)是目前已经打造出来的最精确和完整的脊椎动物基因组。但是迄今为止没有构建出一条从端粒到端粒完整的染色体DNA序列,仍有数百个Gaps。之所以很难检测出来是因为这些区域富含DNA重复片段,且这些片段的长度都大于数百个碱基。由于在这些重复片段的缺失,这些片段总是被排除在遗传学和基因组学的研究中,导致分析的局限性,也可能会造成意想不到的后果,比如基因家族成员间的变异(pSVs)被错误的认为是等位基因突变或者细菌基因数据库的污染。所以对人类基因组的完整组装有助于我们对染色体功能、人类疾病和基因组变异的理解。
近日,美国国家卫生研究院(NIH)下属的国家人类基因组研究所(NHGRI)的研究人员在《Nature》发表了一篇名为"Telomere-to-telomere assembly of a complete human X chromosome"的文章,作者表示其团队已经打造出一条连续性超过GRCh38的全新的人类参考基因组,完成X染色体从端粒到端粒(T2T)DNA序列的检测。
作者表示,目前重新组装一个完整的基因组面临的挑战,往往是那些短读长的测序技术无法区分的重复序列区域。在2019年的AGBT大会上,这篇文章的通讯作者phillippy展示了已组装完毕的人类X染色体序列。该成果使用了来自Nanopore 的超长读长技术(Ultra Long reads,UL reads)以及pacBio的CLR,HiFi reads。然而由于UL reads错误率高,尽管能够跨越很长的序列,也无法根据独特的变异来区分每个重复序,即无法确定重复序列的具体关系。
基于这样的目的,作者对于T2T的更为准确的诠释,pacBio HiFi reads成为数据中的重要组成部分。通过高准确度,长读长的HiFi reads,重复序列之间的关系才能得以充分的确定。
NHGRI 350个人类泛基因组序列的测序策略,在UL reads的数据下,同样选择pacBio HiFi reads对重复序列进行更为精准的读取。
也就是说,如果没有HiFi reads,真正意义上的T2T染色体基因组将难以实现。正如作者在访问中所提到的:
"我们开始发现,这些参考序列存在Gap的区域实际上是人类变异最丰富的区域,因此我们一直在丢失许多可能对于了解人类生物学和疾病非常重要的信息。”
这意味着在这些从未见过的重复序列中可能埋藏着非常重要的变异,这些变异很有可能最终与疾病之间存在因果关系。很明显,如果没有HiFi,您将无法真正利用此类信息。
下面,我们简要的了解一下这篇X染色体从端粒到端粒DNA序列的检测的样本、测序策略,以及相应的组装结果。
样本选择策略
为了规避组装二倍体基因组的两个单倍型的复杂性,作者选择了一种特殊的细胞系CHM13hTERT细胞系进行测序。该细胞系来源于一个完整的葡萄胎,核型为46,xx,具有两个完全一样的X染色体。并且使用荧光显微镜以及Applied Spectral Imaging软件进行核型分析(见图1),显示染色体并未异常。
a:CHM13细胞系的染色体和核型分析;
b:CHM13 G-banding 核型分析。
测序策略
文中作者通过结合pacBio HiFi长读长测序技术和几家其他测序平台得到的数据结合分析和polish,同时结合Hi-C和Bionano光学图谱技术进行组装。使作者更加自信的得到结论。
组装结果
文中重构了一条大约3.1Mb的着丝粒卫星DNA阵列,并补充了现有参考序列中29个剩余的缺失序列,这些新的序列将被整合到未来的人类参考基因组中。
最后文末提及,因为目前的研究表明其他染色体的复制区域和着丝粒卫星区域大于X染色体的同位置区域。并且其着丝粒卫星区域可能与非同源染色体有相似的片段。所以接下来的研究面临的更大的挑战是在研究二倍体以及上述区域时,需要准确的进行单体型定相分析。而目前可以准确的定相分析的测序方法就是既能保证长度长,又能保证其准确性的pacBio HiFi测序。
事实上,近期运用pacBio HiFi reads进行人类基因组组装已经发表了多篇文献,其中,包括了准确度超99.999%,Contig N50达到77Mb的人类基因组组装结果,以及Nature Biotechnology上发表的使用pacBio 13.5kb CCS文库组装高精度人类基因组结果发布。在这一系列的组装成果中,越来越多的过去无法触碰的空白区域,例如端粒、着丝粒等等,在逐渐借助于pacBio HiFi reads 得到了更为清晰的解读。
更多经典应用详情可以参考以下几篇微信文章:
长读长测序在人类基因组研究中的应用及展望
pacBio HiFi+HiCanu完成准确度超99.999%,Contig N50达到77Mb的人类基因组组装结果!
Nature Biotech文章验证了pacBio HiFi Reads进行基因组组装及变异检测的出色性能
只要两周!只要两周!27G基因组测序用不着两年!
在SMRT测序中应该怎样提升HiFi reads组装的连续性?
pacBio HiFi测序是什么?
pacBio HiFi数据是pacBio SMRT测序技术独有的HiFi read形成的数据,它通过环形测序生成的一系列subreads来进行自我打磨,从而获得测序精度在99%以上的高质量长读长HiFi reads。不仅提供了更为准确的序列信息,在后续的运算方面,分析的流程更为简单,消耗的时间也大大减少。
参考文献:Miga K H , Koren S , Rhie A , et al. Telomere-to-telomere assembly of a complete human X chromosome[J]. Nature.
如果想了解更多的有关pacBio SMRT测序技术、Bionano光学图谱以及Applied Spectral Imaging数字化病理扫描系统详情,请添加下方技术人员的二维码,进行一对一的交流。
基因有限公司作为pacBio公司在中国区的独家代理商,自2011年以来将pacBio第三代单分子实时测序技术引入国内,一直为国内用户提供专业的三代测序系统的安装培训,技术支持,应用培训与售后维护工作,赢得客户的一致好评与信任。基因有限公司将一如既往的支持越来越多的pacBio用户。