一睹为快!PacBio Iso-Seq揭示家兔转录组学的复杂性
近日,来自于四川农业大学Song-Jia Lai团队在Scientific Reports杂志上发表了一篇运用pacBio SMRT测序技术,对家兔(Oryctolagus cuniculus)转录组进行测序分析的文章。
家兔(Oryctolagus cuniculus)是兔形目,兔科中非常重要的物种。家兔这一哺乳动物,以其与人的系统发育密切相关,并且生命周期短,性格温顺等特点,在生物医学研究中通常作为典型的模式生物。目前组装的家兔基因组大小为2.66Gb,经Ensembl genebuild算法预测有22668个基因,包含了24964个转录本。然而正如作者在文中所提到的,“大多数现有的基因模型,实际上只不过是用计算机对可变的isoform以及非翻译区域进行的预测,而这种计算机预测却又极度的缺乏可信注释。”因此对兔子的研究,正受到了来自基因水平的数据缺乏所带来的挑战。
作者将来自三只新西兰白兔不同器官和组织的RNA样品混合建库,并在pacBio RS II平台上进行测序。过滤后,得到了来自14474个基因的36186个高可信度的转录本。
表1. pacBio文库,SMRT cell和测序结果。
在pacBio RS II平台上,运用分段建库的测序方式,共使用了13个SMRT cell。
小编悄悄地透露一下,若采用pacBio新一代Sequel测序系统完成同样的转录组测序项目,相比RS II测序系统而言,具有更高的测序通量和更简化Iso-Seq实验流程,大大缩短项目周期,显著降低成本噢!
图1. pacBio转录本(蓝色)的基因结构与Illumina短读长覆盖度分析(灰色)的比较。
通过对pacBio转录本的分析,作者发现,“超过23%的基因以及超过66%的isoform在现有的参考基因组中还没有注释。”并且,还找到了有关可变剪切的结果:*终得到的转录组包含了24797个可变剪切事件,以及11184个可变聚腺苷酸化事件。相比通过Ensembl算法分析参考基因组,得到的2398个可变剪接事件的分析结果,可变剪切事件的数量整整放大了一个数量级。同时,这篇文章还发现,非编码RNA占转录本的17%,这同样也是一个非常可观的数量。
表2. 可变剪切分析。通过pacBio进行转录组的de novo测序,作者得到了24794个可变剪接事件,包含了3479个内含子保留事件(intron retention,IR),7096个外显子跳跃事件(exon skipping,ES),6906个5’端可变剪接事件,以及7316个3’端可变剪接事件。
作者对这些发现进行了几次验证研究,包括主要组织相容性复合物(Major Histocompatibility Complex,MHC)中的基因分析。他们的分析证明了“通过pacBio测序得到的转录本,在10个MHC基因中重建高度同源序列的能力明显高于来自短读长组装的转录本数据”。而“短读长通过de novo组装,往往容易得到片段化或是混乱的转录本”。
图2. 10个MHC基因的pacBio转录本和短读长序列组装的转录本比较。
黑色:Ensembl分析结果;红色:pacBio 转录本结果;绿色:Cufinks组装分析的结果;橄榄绿:Trinity分析结果。相比之下,通过短读长序列组装得到的转录本,在基因结构的重建和isoform数量方面明显着低于pacBio技术得到的转录本结果。
作者通过pacBio全长转录本测序技术得到了更具表征的家兔转录组学数据。在这一过程中,避免了短读长转录本数据拼接时容易遇到的陷阱。文中作者提到,“我们选择这一技术来对兔的多聚腺苷酸化RNA进行测序,并提供了与基因模型和可变isoform相关的转录组水平的全貌。”
原文信息:
Chen, Shi-Yi, et al. "A transcriptome atlas of rabbit revealed by pacBio single-molecule long-read sequencing." Scientific Reports 7 (2017).
基因有限公司作为pacific Biosciences公司在中国区的独家代理商,自2011年以来将pacBio第三代单分子实时测序技术引入国内,一直为国内用户提供专业的三代测序系统的安装培训,技术支持,应用培训与售后维护工作,赢得客户的一致好评与信任。基因有限公司将一如既往的支持越来越多的pacBio用户。
欢迎索取pacBio SMRT长读长测序技术的详细资料