驯养苹果(Malus X domestica Borkh)是一种非常受欢迎的具有极高营养价值和多样化风味的温带水果。在2012年,全球苹果的产量至少占了全球丰收的水果总量的十分之一,具有很高的经济效益。

一个高质量的苹果基因组对于新品种的选育非常关键,来自西北农林科技大学和云南农业大学的科研团队采用illumina测序技术和以长读长著称的pacBio单分子测序技术进行de novo测序和拼接,打造了新版苹果参考基因组序列并完成了基因注释。

文章中的关键信息:

苹果基因组预估大小:701Mb,heterozygous apple genome

技术路线及组装结果:

组装结果比较:

illumina only (102× genome coverage):
contig N50:534bp (组装效果差主要受杂合度和重复序列影响)
illumina+pacBio (29× genome coverage) hybrid assembly:
contig N50:111.619kb,组装获得632.4Mb基因组,能代表90%苹果总基因组大小。

已公布version1参考基因组序列(Sanger+454: 16.9× genome coverage):contig N50为16.7kb,且组装的基因组序列只能代表89%非重复区域的基因组序列,完整性和连续性较差,不足以进行后续的转录组以及全基因组重测序分析。

总体来说:相比纯粹的illumina短读长测序数据,采用混合拼接方式将contig N50提高了202倍,比之前已经公布的version 1苹果基因组参考序列的contig N50提升了7倍,不难看出,少量pacBio长读长数据的加入,使苹果基因组组装效果得到质的飞跃!

串联重复序列分析和基因注释

通过illumina+pacBio混合拼接的方式获得更高质量的苹果参考基因组序列后,作者对苹果基因组中的串联重复序列进行分析,并完成了基因组注释。作者发现该品种基因组中的串联重复序列达382 Mb,覆盖了苹果基因组的60%,这就不难理解为什么高测序深度的illumina短读长测序也无法得到满意的组装结果了。下表列出了串联重复序列的类型和比例。

pacBio长读长测序数据的加入,显著提升了基因组组装效果,改善了苹果基因(蛋白编码基因及非编码基因)注释(88.71%的基因可以被完整注释),为未来苹果的分子育种提供了一个非常有价值的工具。

原文信息:Xuewei Li, et al. "Improved hybrid de novo genome assembly of domesticated apple (Malus x domestica)" GigaScience 2016 5:35

原文链接:
http://gigascience.biomedcentral.com/articles/10.1186/s13742-016-0139-0

中国地区pacBio独家代理商基因有限公司,欢迎您索取pacBio测序仪的更多详细资料