生物通报道 近日,华大基因的研究人员对云南瑞丽植物园内部及周边近700种植物的基因组进行了测序和分析。这项工作有助于推动地球生物基因组计划(EBp)以及万种植物基因组计划(10Kp)。

在华大基因研究院副院长刘心的领导下,研究团队收集了761个植物样本,并产生了54 Tb的测序数据,每个物种的平均测序深度达60倍。这使得他们不仅能够构建参考系统发育,还能够开发植物测序数据的开放参考集。这项成果发表在《GigaScience》上。

“这项研究可作为一个基准项目,用来调整和标准化大规模基因组计划的采样、方法、数据积累和分析技术,”刘心补充说。

刘心及其同事采集了云南瑞丽植物园种植的689种植物的样本。他们从幼叶中提取DNA,并利用BGISEQ-500测序仪开展测序。每个样本产生了70 Gb的原始测序数据,在过滤后,每个样本的数据大约是60 Gb。

基于形态学和叶绿体序列,研究人员在种的水平上鉴定了257个样本,在科的水平上鉴定了504个样本。总之,这些样本代表了137个科,其中最常见的是豆科、禾本科和菊科植物。

对于每个物种,研究人员组装了叶绿体基因组,其大小范围在113,621个碱基对到183,602个碱基对。除了买麻藤科、锦葵科、杜英科和三叉蕨科,几乎所有植物都有72个蛋白编码基因。

此外,研究人员还对多个物种开展了初步的基因组组装。他们选择了17个杂合度低且重复内容少的物种进行组装。平均而言,这些组装的完整性达到89%,其中contig N50为4.62 kb,而scaffold N50达到32.3 kb。由于初步组装的质量很好,他们认为这可以协助后续生成完整的参考基因组。

他们还指出,所有的数据,包括图像、原始测序数据,以及组装好的叶绿体基因组和初步组装的核基因组,都是可访问且可追溯的,而凭证标本也保存在CNGB植物标本馆。他们认为,这有助于数据的重复利用,例如改善这些植物基因组的组装,或开发新的物种鉴定方法。

研究人员表示,这项工作也测试了大规模植物全基因组测序的可行性。他们已经优化并发布了DNA提取方案,即将推出高分子量基因组DNA的提取试剂盒,并正在开发向万种植物基因组计划提交样本的指南。(生物通 薄荷)

原文检索

Molecular digitization of a botanical garden: high-depth whole genome sequencing of 689 vascular plant species from the Ruili Botanical Garden

GigaScience, giz007, https://doi.org/10.1093/gigascience/giz007