科研有时候就像赛跑,赢得时间非常重要。华大基于自主测序数据库SEQdata-BEACON,建立了自主平台测序结果预测模型,对最终产量的有效预测率达到96%,大大减少了数据加测等待时间,有效缩短交付周期,为您的科研赛跑赢得更多时间!

此外,通过对测序性能数据的深入分析,华大从大规模生产维度证实了自主平台测序的稳定性。结果表明,自主平台测序表现出色且稳定,是高通量测序和科研服务的优秀可靠的服务平台。相关研究结果已在最新一期的《BioData Mining》发表,知识产权内容已申请专利。

文章标题:《SEQdata-BEACON: a comprehensive database of sequencing performance and statistical tools for performance evaluation and yield simulation in BGISEQ-500》

期刊名称:《BioData Mining》

发表时间:2019.11.15

研究团队:武汉华大科技服务测序技术组周晏秋、刘晨、周荣芳为论文第一作者, 黄金、田志坚为通讯作者

原文链接:

https://biodatamining.biomedcentral.com/articles/10.1186/s13040-019-0209-9

研究背景

2015年起,华大开始推出拥有完全自主知识产权、具有国际先进水平的DNBSEQ[注]系列测序仪,实现了我国基因科技布局产业上游的突破。目前,包括BGISEQ-500在内的自主测序仪已广泛应用于WGS、WES、RNA-seq、small RNA和宏基因组测序等领域,其测序数据与通用的生物信息学工具兼容,相关文献已在各类顶级期刊发表。(华大自主平台实现CNS三大主刊大满贯)

为了进一步监测测序仪的表现情况,并及时对可能出现的故障进行处理,华大在武汉搭建了全球最大的测序仪监控平台,同时开发设计了数据库SEQdata-BEACON,实现测序仪生产数据的自动收集。该数据库在MySQL服务器(版本号8.0)中构建,并关注到样本敏感信息过滤,保护客户隐私。此外,基于SEQdata-BEACON的网站用户界面在Apache上构建,用户可以使用Google Chrome浏览器访问该网站。同时,基于测序原理、参数的意义和线性相关结果,采用线性回归和逐步回归反向消除方法构建了的产量模拟模型。


图1 SEQdata-BEACON结构示意图

研究成果

1. 自主平台在大规模平行测序运行中稳定而且可靠

目前,在BGI-武汉实验室的60台BGISEQ-500测序仪中,测序类型pE100含10bp条形码主要用于WGS、WES和RNA-seq,而且测序文库来源于植物、动物、微生物和人的DNA或RNA样品。在Q30与Reads散点图中,大约90.6%的lanes读数超过650M,Q30超过85%,这表明BGISEQ-500在大规模平行测序运行中稳定而且可靠。因此,在无需顾虑索引跳跃的风险下,DNBSEQ可以提供出色的测序数据,具有较低重复率和错误率,这在大规模平行测序项目中有广泛的应用。


图2 参数分布特征

2. 产量预测模型有助于缩短交付周期

基于数据库,生产部门构建了独家线性回归模型SEQdata-BEACON,在测序第一天就能预测到测序的最终产量,准确率达到96%。相对于以往在测序完成时才能得知的最终产量,该模型极大减少了测序数据量偏低造成的数据加测等待时间,大大缩短数据交付周期。实验室人员不仅据此实现了对产量的精准预测,通过对测序性能参数的深入挖掘,针对测序问题的Trouble shooting也变得迎刃而解。


图3 预测模型评估

3. 首次建立测序大数据分析综合网站

基于SEQdata-BEACON数据库,开发人员开发了数据的开放访问和综合网站,以展示数据库和数据挖掘应用。所有仪器使用者均可使用网站提供的大数据,进行测序仪表现分析和产量预测。具体而言,网站展示了数据库的架构,用户可以查看数值型参数数据特征,包括pearson相关性热图和参数数据分布,还可以测试模拟模型,并以EXCEL格式获取数据。其中网站中所有数据和分析结果将每两个月更新一次。网站链接:http://seqBEACON.genomics.cn:443/home.html.


图4 SEQdata-BEACON网页可视化界面

4. 节省人力,提高测序仪监控效率,保证测序及时性

自动收集参数值的方法能够有效地解放人力,减少时间成本并提高数据准确性。数据库SEQdata-BEACON已收录了2236个条目和65个参数,其中包含样品、产量、质量、机器状态和供应信息。

研究人员期望SEQdata-BEACON成为一个综合平台:通过数据积累,呈现测序平台的实际性能;通过开发更多的数据挖掘应用程序,丰富功能工具,如QC指标模型和指标标准;通过在网站上显示数据和统计结果,为用户提供有用的优化和故障排除建议。

未来,自主平台测序仪均能应用该数据库提供的测序仪生产数据基线,助力信息化发展,为数据交付保驾护航。

注:BGISEQ-500、MGISEQ-2000等华大自主测序平台都是基于DNBSEQ™技术,所以统称为DNBSEQ平台。