新的基于云的平台向所有人开放基因组学数据
利用基因组学的力量来寻找重大疾病的风险因素或寻找亲属依赖于分析大量基因组的昂贵且耗时的能力。由约翰霍普金斯大学计算机科学家共同领导的一个团队通过创建一个基于云的平台来公平竞争,该平台使基因组学研究人员能够轻松访问世界上最大的基因组学数据库之一。
被称为 AnVIL(基因组数据科学分析、可视化和信息学实验室空间)的新平台使任何研究人员都能通过互联网连接访问数千种分析工具、患者记录和超过 300,000 个基因组。这项工作是国家人类基因组研究所 (NHGRI) 的一个项目,今天发表在Cell Genomics上。
“AnVIL 正在颠覆基因组学数据共享的模式,通过以新方式连接研究人员和数据集,为科学提供前所未有的新机会,并有望实现令人兴奋的新发现,”项目联合负责人、彭博计算机科学与生物学杰出教授 Michael Schatz 说。在约翰霍普金斯大学。
通常,基因组分析始于研究人员将大量数据从中央仓库下载到他们自己的数据中心,这一过程不仅耗时、低效且昂贵,而且还使与其他机构的研究人员合作变得困难。
“AnVIL 将为各种规模的机构带来变革,尤其是那些没有资源建立自己的数据中心的小型机构。我们希望 AnVIL 能够公平竞争,让每个人都有平等的机会进行发现,”沙茨说。
癌症或心血管疾病等疾病的遗传风险因素通常非常微妙,需要研究人员分析数千名患者的基因组以发现新的关联。单个人类基因组的原始数据包含约 40GB,因此下载数千个基因组可能需要几天到几周的时间:单个基因组需要大约 10 张 DVD 的数据,因此传输数千意味着移动“数万张 DVD”数据,沙茨说。
此外,许多研究需要整合在多个机构收集的数据,这意味着每个机构都必须下载自己的副本,同时确保维护患者数据的安全。随着研究人员开始进行规模越来越大的研究,需要同时分析数十万到数百万个基因组,预计这一挑战在未来会变得更大。