自从DeepMind在2020年的结构预测关键评估(CASp14)会议上展示了这一领域的显著进展以来,科学家们为获得高精度的蛋白质结构预测已经等待了数月。等待现在结束了。

西雅图华盛顿大学医学院(University of Washington School of Medicine)蛋白质设计研究所(Institute for protein Design)的研究人员在很大程度上重现了DeepMind在这项重要任务上的表现。这些研究结果将于7月15日周四发表在《科学》杂志的在线版上。

与DeepMind不同,华盛顿大学医学团队的方法被称为RoseTTAFold,可以免费获得。来自世界各地的科学家现在用它来建立蛋白质模型,以加速他们自己的研究。自7月以来,该程序已被超过140个独立研究团队从GitHub上下载。

蛋白质由一系列的氨基酸组成,这些氨基酸折叠成复杂的微观形状。这些独特的形状反过来又导致了生物体内几乎所有的化学过程。通过更好地了解蛋白质的形状,科学家可以加快癌症、COVID-19和数千种其他健康疾病的新疗法的开发。

“这是蛋白质设计研究所忙碌的一年,设计了COVID-19治疗方法和疫苗并将其投入临床试验,同时开发了用于高精度蛋白质结构预测的RoseTTAFold。我很高兴科学界已经开始使用RoseTTAFold服务器来解决突出的生物问题,”华盛顿大学医学院生物化学教授、霍华德·休斯医学研究所研究员、蛋白质设计研究所所长、资深作者大卫·贝克说。

在这项新的研究中,由贝克领导的计算生物学家团队开发了RoseTTAFold软件工具。它利用深度学习在有限信息的基础上快速准确地预测蛋白质结构。如果没有这种软件的帮助,仅仅确定一种蛋白质的结构就需要数年的实验室工作。

另一方面,RoseTTAFold可以在一台游戏电脑上十分钟内准确地计算出蛋白质结构。

该团队使用RoseTTAFold计算了数百种新的蛋白质结构,包括许多鲜为人知的人类基因组蛋白质。他们还生成了与人类健康直接相关的结构,包括那些与问题脂质代谢、炎症疾病和癌细胞生长相关的蛋白质。他们还表明,RoseTTAFold可以用于构建复杂生物组件的模型,所需时间比以前少得多。

RoseTTAFold是一个“三轨道”神经网络,这意味着它同时考虑蛋白质序列的模式,蛋白质的氨基酸如何相互作用,以及蛋白质可能的三维结构。在这种结构中,一个、两个和三维的信息来回流动,从而使网络能够集体推理蛋白质的化学部分和其折叠结构之间的关系。

“我们希望这个新工具将继续造福整个研究界,”Minkyung Baek说。Minkyung Baek是华盛顿大学医学院贝克实验室的博士后学者,他领导了这个项目。