生物学界最大的挑战之一——蛋白质三维结构解析如今有望被破解。借由深度学习程序AlphaFold,谷歌旗下人工智能公司DeepMind能够精确预测其三维形状。

如果把生物体比作工地,那么蛋白质就是工地上的砖头。人体内有成千上万种不同的蛋白质,每种蛋白质包括数十上百个氨基酸,这些氨基酸的顺序决定着蛋白质的形状和功能。“结构即功能”是分子生物学的定理,若能根据根据蛋白质的氨基酸序列推出其结构,有助于人们加速了解细胞的组成和运作规律,一些新药物的研发也能更快推进。

长久以来,人们需要借助实验确定完整的蛋白质结构,比如X射线晶体学和冷冻电镜,这些方法往往需要数月甚至数年时间,目前人类已发现的2亿蛋白质中,只有不到20万的结构被解析。

而现在,人工智能也有能力给出精确预测的计算方法,甚至只要几天甚至半个小时。近日,在蛋白质预测结构挑战赛CASp上,DeepMind推出的AlphaFold程序在百余支队伍中脱颖而出。CASp的比赛规则之一是参赛者预测的蛋白质结构必须已经通过实验验证但未公开发表。预测出的结果会通过实验方法进行匿名检验,二者相似度越高,得分也就越高。

比赛中,DeepMind的AlphaFold将深度学习与张力控制算法结合,并应用于结构和遗传数据,该深度学习网络利用目前已知的170,000种解析完毕的蛋白质进行了训练。结合蛋白质折叠的物理结构和几何约束信息,AlphaFold可以预测出目标蛋白质的序列结构——甚至还包括楔入细胞膜的蛋白质,这是理解许多人类疾病的关键。

但AlphaFold也不是十全十美,比赛中,在预测一个由52个小重复片段组成的蛋白质结构时,AlphaFold拿到的分数并不高。目前,DeepMind已经公布了AlphaFold首个版本的详细信息,以便其他研究者复制使用。DeepMind有关研发团队表示,还将继续对AlphaFold展开训练,以便更好地解析更复杂的蛋白质结构。