通过将分子结构转化为声音研究人员可以深入了解蛋白质结构并创造新的变异

想要创造一种可能具有有用特性的全新蛋白质?没问题。只是哼几个酒吧。

在科学与艺术的惊人结合中，麻省理工学院的研究人员开发出一种系统，用于将蛋白质的分子结构(所有生物的基本构建块)转换为类似音乐段落的可听声音。然后，逆转这个过程，他们可以在音乐中引入一些变化，并将其转换回自然界中从未见过的新蛋白质。

虽然它不像哼唱新蛋白质那么简单，但新系统却很接近。它提供了一种将蛋白质的氨基酸序列翻译成音乐序列的系统方法，利用分子的物理特性来确定声音。虽然声音被转置以使它们在人类的可听范围内，但是音调及其关系是基于每个氨基酸分子本身的实际振动频率，使用量子化学的理论计算。

该系统由迈克菲工程学教授兼麻省理工学院土木与环境工程系主任Markus Buehler以及博士后Chi Hua Yu和其他两位人员共同开发。正如ACS Nano杂志所述，该系统将20种氨基酸转化为20色调，这些氨基酸是连接在一起形成所有蛋白质的构建模块。然后，任何蛋白质的长序列氨基酸都会成为一系列的音符。

虽然对于习惯于西方音乐传统的人来说，这种音阶听起来并不熟悉，但听众在熟悉声音后可以很容易地认识到这种关系和差异。Buehler说，在听完所产生的旋律之后，他现在能够区分对应于具有特定结构功能的蛋白质的某些氨基酸序列。“这是一张测试版，”他可能会说，或者说“这是一个alpha螺旋线”。

学习蛋白质的语言

Buehler解释说，整个概念是为了更好地理解蛋白质及其各种变异。蛋白质构成皮肤，骨骼和肌肉的结构材料，但也是酶，信号化学物质，分子开关，以及构成所有生物机器的许多其他功能材料。但是它们的结构，包括它们将自身折叠成通常决定其功能的形状的方式，都非常复杂。“他们有自己的语言，我们不知道它是如何运作的，”他说。“我们不知道是什么使丝蛋白成为丝蛋白或什么模式反映了酶中发现的功能。我们不知道代码。”

通过将该语言翻译成人类特别适应的不同形式，并允许信息的不同方面以不同的维度编码 - 音调，音量和持续时间 - Buehler和他的团队希望收集到新的见解了解不同蛋白质家族及其变异之间的关系和差异，并将其用作探索其结构和功能的许多可能的调整和修改的方式。与音乐一样，蛋白质的结构是分层的，在不同的长度或时间尺度上具有不同的结构水平。

然后，该团队使用人工智能系统研究由各种不同蛋白质产生的旋律目录。他们让AI系统在音乐序列中引入了微小的变化或创建了全新的序列，然后将声音翻译成与修改或新设计版本相对应的蛋白质。通过这个过程，他们能够创造出现有蛋白质的变体 - 例如蜘蛛丝中的一种，这是自然界最强的材料之一 - 从而制造出与进化产生的蛋白质不同的新蛋白质。

虽然研究人员本身可能不了解基本规则，但“人工智能已经学会了蛋白质的设计语言”，它可以对其进行编码，以创建现有版本的变体，或全新的蛋白质设计，Buehler说。他说，鉴于存在“数万亿和数万亿”的潜在组合，当涉及到创造新的蛋白质时，“你将无法从头开始，但这就是人工智能所能做到的。”

“组成”新蛋白质

通过使用这样一个系统，他说用一组特定蛋白质的数据训练AI系统可能需要几天时间，但它可以在几微秒内产生一个新变种的设计。“没有其他方法可以接近，”他说。“缺点是模型没有告诉我们里面究竟发生了什么。我们只知道它有效。”

这种将结构编码为音乐的方式确实反映了更深层次的现实。“当你在教科书中看一个分子时，它是静态的，”Buehler说。“但它根本不是静止的。它在移动和振动。每一点物质都是一组振动。我们可以用这个概念来描述物质。”

该方法尚不允许任何类型的定向修改 - 诸如机械强度，弹性或化学反应性等性质的任何变化基本上是随机的。“你仍然需要做实验，”他说。当一种新的蛋白质变体产生时，“没有办法预测它会做什么。”

该团队还创作了由氨基酸声音开发的音乐作品，定义了这种新的20音音阶。他们构造的艺术作品完全由氨基酸产生的声音组成。“没有使用合成或自然乐器，展示了这种新的声音源如何被用作创意平台，”Buehler说。在整个实施例中使用源自天然存在的蛋白质和AI产生的蛋白质的音乐图案，并且所有声音，包括类似于低音或小鼓的声音，也是由氨基酸的声音产生的。

研究人员创建了一款免费的Android智能手机应用程序，称为氨基酸合成器，用于播放氨基酸的声音并将蛋白质序列记录为音乐作品。