生命所必需的几乎所有基本生物过程都是由蛋白质完成的。它们创造并保持细胞和组织的形状;构成催化维持生命的化学反应的酶;充当分子工厂,运输工具和电机;用作蜂窝通信的信号和接收器;以及更多。

蛋白质由长链氨基酸组成,通过将自身折叠成精确的3D结构来控制它们与其他分子的相互作用,从而完成这些无数的任务。由于蛋白质的形状决定了它的功能及其在疾病中的功能障碍程度,因此阐明蛋白质结构的努力是所有分子生物学的核心 - 特别是治疗科学以及拯救生命和改变生命的药物的发展。

近年来,计算方法在基于其氨基酸序列的知识预测蛋白质如何折叠方面取得了重大进展。如果完全实现,这些方法有可能改变生物医学研究的几乎所有方面。然而,目前的方法在可以确定的蛋白质的规模和范围方面受到限制。

现在,哈佛医学院的一位科学家使用了一种称为深度学习的人工智能来预测基于其氨基酸序列的任何蛋白质的三维结构。

系统生物学家Mohammed AlQuraishi于4月17日在Cell Systems上在线报道,详细介绍了一种计算确定蛋白质结构的新方法 - 实现与当前最先进方法相当的精确度,但速度提高了一百万倍。

“在过去的半个世纪里,蛋白质折叠一直是生物化学家最重要的问题之一,这种方法代表了应对这一挑战的一种全新方式,”AlQuraishi说,他是HMS Blavatnik研究所系统生物学讲师,同时也是系统药理学实验室。“我们现在有一个全新的远景来探索蛋白质折叠,我想我们刚刚开始划伤表面。”

容易说明

虽然非常成功,但使用物理工具识别蛋白质结构的过程既昂贵又耗时,即使使用低温电子显微镜等现代技术也是如此。因此,绝大多数蛋白质结构 - 以及引起疾病的突变对这些结构的影响 - 仍然在很大程度上是未知的。

计算蛋白质折叠方式的计算方法有可能显着降低确定结构所需的成本和时间。但是,经过近四十年的紧张努力,这个问题很难解决。

蛋白质由20种不同氨基酸的文库构建。这些行为像字母表中的字母,组合成单词,句子和段落,以产生天文数字的可能文本。然而,与字母不同,氨基酸是位于3D空间中的物理对象。通常,蛋白质的部分将在物理上接近,但在序列方面间隔很远,因为其氨基酸链形成环,螺旋,片和扭曲。

“这个问题引人注目的是它很容易陈述:采取一个序列并找出形状,”AlQuraishi说。“一种蛋白质起源于一种非结构化的细胞系,必须具有三维形状,一根细绳可以折叠成可能形状的形状是巨大的。许多蛋白质长达数千个氨基酸,并且复杂性很快超过了人类直觉甚至是最强大的计算机。“

很难解决

为了应对这一挑战,科学家利用氨基酸根据物理定律相互作用的事实,寻找能量有利的状态,如滚球下坡到山谷底部。

最先进的算法通过在超级计算机上运行来计算蛋白质结构 - 或者在Rosetta @ Home和Folding @ Home等项目中利用众包计算能力来模拟氨基酸相互作用的复杂物理通过蛮力。为了减少大量的计算需求,这些项目依赖于将新序列映射到预定义的模板上,这些模板是先前通过实验确定的蛋白质结构。

其他项目,如谷歌的AlphaFold,通过利用人工智能的进步来预测蛋白质的结构,最近产生了巨大的兴奋。为此,这些方法解析了大量的基因组数据,其中包含蛋白质序列的蓝图。他们寻找可能一起进化的许多物种的序列,使用这样的序列作为与指导结构组件紧密物理接近的指示物。

然而,这些AI方法不能仅基于蛋白质的氨基酸序列预测结构。因此,它们对于没有先验知识的蛋白质,进化独特蛋白质或人类设计的新蛋白质具有有限的功效。

深入培训

为了开发新方法,AlQuraishi应用了所谓的端到端可微分深度学习。人工智能的这一分支极大地降低了解决图像和语音识别等问题所需的计算能力和时间,从而实现了Apple的Siri和Google Translate等应用程序。

本质上,可微分学习涉及单一的,巨大的数学函数 - 高中微积分方程的更复杂版本 - 被安排为神经网络,网络的每个组成部分向前和向后馈送信息。

该功能可以在难以想象的复杂程度上反复调整和调整自身,以便“精确地”学习蛋白质序列在数学上与其结构的关系。

AlQuraishi开发了一种深度学习模型,称为复发几何网络,侧重于蛋白质折叠的关键特征。但在它可以进行新的预测之前,必须使用先前确定的序列和结构进行训练。

对于每种氨基酸,该模型预测将氨基酸与其邻居连接的化学键的最可能角度。它还预测围绕这些键的旋转角度,这会影响蛋白质的任何局部区域与整个结构的几何关系。

这是重复进行的,每次计算都通过每个其他氨基酸的相对位置进行通知和改进。一旦整个结构完成,模型通过将其与蛋白质的“基础事实”结构进行比较来检查其预测的准确性。

对于数千种已知蛋白质,重复整个过程,模型学习并在每次迭代时提高其准确性。

新的远景

一旦他的模型被训练,AlQuraishi测试了它的预测能力。他将其性能与最近几年蛋白质结构预测的关键评估中的其他方法进行了比较 - 这是一项年度实验,测试计算方法是否能够使用已经确定但未公开发布的蛋白质结构进行预测。

他发现新模型在预测蛋白质结构方面优于所有其他方法,其中没有预先存在的模板,包括使用共同进化数据的方法。当预先存在的模板可用于进行预测时,它也优于除最佳方法之外的所有方法。

虽然这些准确度的提高相对较小,但AlQuraishi指出,这些测试最高端的任何改进都难以实现。并且因为这种方法代表了一种全新的蛋白质折叠方法,它可以补充现有的计算和物理方法,以确定比以前更广泛的结构。

引人注目的是,新模型的预测速度比现有的计算方法快6到7个数量级。训练模型可能需要数月,但一旦训练,它可以在几毫秒内进行预测,与使用其他方法所花费的时间相比。这种显着的改进部分是由于它所基于的单一数学函数,只需要几千行计算机代码而不是数百万。

AlQuraishi说,这种模型预测的快速速度使得以前缓慢或难以实现的新应用成为可能,例如预测蛋白质在与其他分子相互作用时如何改变其形状。

“深度学习方法,不仅仅是我的方法,将继续增强其预测能力和普及性,因为它们代表了一种简单,简单的范例,可以比现有的复杂模型更容易地整合新思想,”他补充道。

AlQuraishi说,新模型还没有立即用于药物发现或设计,因为它的准确度目前大约在6埃左右 - 距离解决完整原子结构所需的1到2埃还有一段距离。一种蛋白质。但他说,有很多机会可以优化这种方法,包括进一步整合化学和物理学的规则。

“准确有效地预测蛋白质折叠一直是该领域的圣杯,我希望并期望这种方法与已开发的所有其他卓越方法相结合,能够在不久的将来实现这一目标, “AlQuraishi说。“我们很快就可以解决这个问题,而且我认为五年前没有人会这么说。这是非常令人兴奋的,同时也是令人震惊的。”

为了帮助其他人参与方法开发,AlQuraishi通过GitHub软件共享平台免费提供他的软件和结果。

“AlQuraishi工作的一个显着特点是,嵌入哈佛医学院和波士顿生物医学界丰富的研究生态系统的单一研究人员可以与谷歌等公司在计算机科学最热门的领域竞争,”彼得说。 Sorger,HMS Otto Krayer HMS Blavatnik研究所系统药理学教授,HMS系统药理学实验室主任和AlQuraishi的学术导师。

“低估像AlQuraishi这样的优秀研究员在公共领域使用开源软件的破坏性影响是不明智的,”Sorger说。