来自172个国家和地区的120多万个新冠病毒基因组序列在一个流行的在线数据平台上被共享,这是全球研究人员在疫情期间付出的努力的证明。

序列数据对科学家研究SARS-CoV-2的起源、COVID-19爆发的流行病学和病毒变异在全球的移动至关重要。

有几个基因组序列数据库,但迄今为止,GISAID是SARS-CoV-2最常用的数据库。它于2006年被构想为一个流感病毒基因组数据的存储库。当时,许多国家出于一系列原因而隐瞒基因组信息。一种担心是,产生数据的国家不会得到任何功劳,或者不会从他们最初的测序工作中获得研究的好处。但是在政府和科学家就数据共享协议进行了两年的谈判之后,GISAID启动了。

当COVID-19报道在中国开始传播时,GISAID团队立即联系了世界各地的研究人员和政界人士,以了解是什么障碍可能阻止他们分享SARS-CoV-2的基因组数据。

例如,当西非的研究人员说他们缺乏生物信息学培训时,GISAID的一位科学家就开始举办关于测序、分析和如何使用平台上的工具的研讨会。GISAID的一些功能可以让研究人员看到他们上传的基因组是如何与其他基因组相关联的,或者探索每天新的变异在哪里出现。

该网站的受欢迎程度主要是由于它的分享机制和序列显示和分析工具的质量。

一些富裕国家已经上传了大量的序列,例如,截至4月20日,美国共有303,359个序列,而英国共有379,510个序列。

不完全是全面的

但存在着明显的差距。坦桑尼亚已故总统约翰·马古富利(John Magufuli)曾在好几个月的时间里否认大流行的存在,因此没有一个SARS-CoV-2的序列是从那里上传的。有严重疫情的几个国家,包括萨尔瓦多(67851例,但只上传了6个序列)和黎巴嫩(513,006例,上传了49个序列)远远落后。

搜索、下载序列GISAID或使用平台的基因分析工具,人们必须以自己的名字注册,并同意条款,包括不出版的研究基于科学家们却不承认上传的数据序列,甚至联系他们询问的合作。这种把关的做法让一些科学家感到不安,他们认为不应该有任何障碍阻挡访问。

但是,南非德班夸祖鲁-纳塔尔研究创新和测序平台的负责人Tulio de Oliveira推测,如果没有这样的方法,GISAID可能不会达到100万的目标,因为它将缺乏防止开发利用的保证。他表示:“这是我第一次看到人们在发表之前分享这么多数据。”