大多数动植物具有复杂的基因组,具有体积大、杂合度高、多倍体等特点。生物具有遗传多样性,杂合的基因组区域可能为表型变异的主要贡献者,这种复杂性对基因组组装提出了挑战,而pacBio HiFi测序则是迎接这一挑战的重要利器。

通常我们认为人的基因组是3 Gb左右,但这实际上是指单倍型的大小,真正意义上人的基因组却是两倍于此的6 Gb。也可以理解为实际上几乎每个人都有两套分别来自父亲和母亲的染色体。每个细胞中完整的染色体组或单倍体的数量称之为倍性。因而人和许多种动物都是二倍体(2N),但自然界中还有很多植物是多倍体,例如我们曾经介绍过的加州红木就是六倍体(6N),即每个染色体有6个拷贝。

染色体组数量的增加不仅增加了基因组中DNA的总量,而且还通过增加等位基因或基因的其他形式而增加了基因组的复杂性。尽管成对染色单体之间的大多数序列都是相同的,但正是这些差异提供了物种内部生物学差异的广度。下面,我们就从几个方面介绍一下具有更多定相信息的HiFi测序技术,在构建单倍体基因组,研究物种起源,确定功能基因及药物靶点方面具有怎样的优势。

单倍型定相分析以获得遗传变异全貌

无论是对超大复杂的多倍体还是二倍体测序,目的都是要获得全基因组,或者是感兴趣的目标区域每个拷贝的完整而准确的信息。通常组装一个单倍体(单拷贝)基因组,再通过识别变异,以及等位基因的位置来呈现基因组变异的情况。一些物种经过深入研究,比如人类基因组,具有标准的单倍体基因组,可以用于其他个体的比对。

但是仅仅通过鉴定单倍型基因组的变异不能体现全基因组完整的变异信息,往往需要进行变异的定相分析。区分哪些变异位于同一等位基因上(顺式),哪些来自不同等位基因上(反式)。一种方法是对父本母本子代都进行测序:孩子染色体中的变异只存在于父母一方,且应在同一条染色体上。第二种方法是人口推断,推断出在同一人中经常出现的变异可能是同相的。但这些方法都是不完美的,因为它们需要更多的信息,并且定相分析的能力也是有限的。


定相包括将每个染色体的父本母本遗传的拷贝分离成单倍型,以获得遗传变异的完整图谱。

随着DNA测序技术的发展,高准确度、长读长的HiFi reads可提供检测单核苷酸变体(SNVs)所需的高准确度,并且长读长可将相距很远的突变体进行测序和定相。因而特别适合进行单倍型定相分析。

在过去的一段时间,科学家们已经完成了复杂四倍体玫瑰、加州红杉(California redwood)和人类的分相基因组组装。这些高质量的项目无一例外都采用了HiFi技术,或者是这一技术与Hi-C和Strand-seq等其他技术相结合。这些定相基因组为功能上重要的变异提供了新见解。

定相基因鉴别变异等位基因构型

科学家们分析了pIK3CA癌基因的变异后发现了一种复合双重突变,对于乳腺癌患者,此双重突变可能会对靶向的pI3Kα抑制剂alpelisib产生持续且良好的临床获益。通过对全基因组进行测序和分相分析,研究人员发现,当pIK3CA双突变在同一等位基因上(顺式)时。会产生一个带有两个突变的蛋白,而当pIK3CA双突变在不同等位基因上(反式)时。会产生两个带有单独突变的蛋白质,而这导致了不同功能的结果。该信息对许多癌症患者具有重大临床意义,可使患者在靶向治疗中获益,但如果采用短读长的NGS,又或者是没有准度的保证,将无法获得变异定相的信息,这些不同功能结果的原因将不得而知。1


phasing of breast cancer tumors revealed allelic configuration that impacts treatment response.
Vasan et al. (2019) Science.

对于隐性疾病基因,了解基因中出现的两个变体是反式(从而破坏一个基因的两个拷贝)还是顺式(从而保留一个完整的拷贝)也是至关重要的。例如,在一个患有多种癌症的9岁男孩的病例中,MSH6基因的定相显示父本和母本的等位基因均携带突变体,从而导致结构性错配修复缺陷综合征。2

利用单倍型定相研究物种的遗传起源

研究人员对栽培苹果及其野生种杂合基因组的单倍型基因组组装,以更好地了解该农作物的遗传历史,探索苹果驯化。通过测序和组装完整的单倍体基因组,显示出高水平的杂合性,超过20%的Gala苹果基因组含有来自不同野生祖先的等位基因,表明Gala为杂合起源。此外,研究人员发现新基因和等位基因的导入是苹果通过杂交驯化的关键。这些信息可以更好地了解性状变异,给苹果的驯化和重要果实性状提供了详细的遗传学见解,有助于培育出更理想的性状,帮助育种者改良苹果的风味、口感和抗性。3


栽培苹果和野生祖先之间的遗传图谱确定了Gala基因组的大部分起源于杂交。
Sun et al. (2020) Nature Genetics.

长读长分相等位基因组装“找回”短读长缺失的变异

研究者评估了SLC6A4基因启动子的作用,该启动子被认为会导致提高精神疾病易感性。研究者发现长读长测序对于低复杂度重复区域至关重要。基因启动子处重复序列的长度影响了基因表达水平。将重复序列长度与基因编码区中的变异进行定相比较,可判断编码区中的变异导致表达水平的高低。而短读长会“遗漏”重复序列区域,相反长读长测序能有效解决这一技术难点,成功“找回”变异,具有重大临床意义,是医药遗传学检测研究的得力助手。4


长读长可检测和定相短读长测序缺失的等位基因
Botton, et al. (2020) Genes.

如何通过HiFi reads获取相位信息?

现在我们已经了解了定相组装的意义,下面是如何获取分相信息:

• 用HiFi reads对单个个体进行测序,HiFi reads兼具高精准及长读长的优势,可以获得大型定相单体型的信息。
•利用二倍体基因组的组装软件,如IpA,hifiasm或HiCanu进行基因组组装。
•使用包括Google DeepVariant等软件进行变异检测,并使用WhatHap进行单倍型定相。
•将HiFi数据与Hi-C或Strand seq等其他技术相结合,将单倍型定相扩展到染色体,可对整个基因组进行相位分析。如果有父母双方以及子代三个样本,在基因组组装之前,可使用来自父母代的短读长数据,将HiFi数据定相到各自亲本数据中。

参考文献
1、Vasan, N. 2019. Double pIK3CA mutations in cis increase oncogenicity and sensitivity to pI3Kα inhibitors. Science 366: 714-723
2、Ling, Chao et al. “Rare compound heterozygous mutations in gene MSH6 cause constitutive mismatch repair deficiency syndrome.” Clinical case reports vol. 6,8 1448-1451. 8 Jun. 2018, doi:10.1002/ccr3.1564
3、Sun, X., Jiao, C., Schwaninger, H. et al. phased diploid genome assemblies and pan-genomes provide insights into the genetic history of apple domestication. Nat Genet (2020). https://doi.org/10.1038/s41588-020-00723-9
4、Botton, M.R.; Yang, Y.; Scott, E.R.; Desnick, R.J.; Scott, S.A. phased Haplotype Resolution of the SLC6A4 promoter Using Long-Read Single Molecule Real-Time (SMRT) Sequencing. Genes 2020, 11, 1333.

基因有限公司作为pacBio公司在中国区的独家代理商,自2011年以来将pacBio第三代单分子实时测序技术引入国内,一直为国内用户提供专业的三代测序系统的安装培训,技术支持,应用培训与售后维护工作,赢得客户的一致好评与信任。基因有限公司将一如既往的支持越来越多的pacBio用户。