今天Shulgina终于完成了这个短期项目的另一端,找到了一种破解遗传之谜的方法。她与哈佛大学生物学家Sean Eddy在《eLife》杂志上发表的一篇新论文中描述了这一现象。

该报告详细介绍了一种新的计算机程序,该程序可以读取任何生物体的基因组序列,然后确定其遗传密码。这个名为Codetta的项目有可能帮助科学家扩大对遗传密码演变的理解,并正确解释新测序生物体的遗传密码。

“这本身就是一个非常基础的生物学问题,”在Eddy实验室进行研究生研究的Shulgina说。

遗传密码是一套规则,它告诉细胞如何将核苷酸的三个字母组合解释为蛋白质,蛋白质通常被称为生命的基石。从大肠杆菌到人类,几乎每一种生物都使用相同的遗传密码。这就是为什么这个准则曾经被认为是一成不变的。但是,科学家们已经发现了少数异常情况,即使用不同遗传密码的生物体,它们的指令集是不同的。

这就是Codetta的闪光点。该项目可以帮助识别更多使用这些替代遗传密码的生物体,帮助阐明遗传密码在最初是如何改变的。

Shulgina说:“理解这是如何发生的,将有助于我们理解为什么我们最初认为这是不可能的,以及这些真正的基本过程实际上是如何工作的。”

Codetta已经分析了超过25万个细菌和其他被称为古生菌的单细胞生物的基因组序列,找出了5个从未见过的基因序列。在所有五种情况下,精氨酸的编码被重新分配到不同的氨基酸。据信,这标志着科学家首次发现细菌之间的这种交换,并可能暗示了改变遗传密码的进化力量。

研究人员表示,这项研究标志着对替代遗传密码的最大筛选。Codetta基本上分析了细菌和古生菌的每一个基因组。这个程序的命名灵感源于密码子和Rosetta Stone,罗塞塔石碑,是一块刻有三种语言的石板。

这项工作标志着Shulgina的最终成果。Shulgina花了五年时间开发Codetta背后的统计理论,编写程序,测试它,然后分析基因组。它的工作原理是读取一个有机体的基因组,然后进入已知蛋白质数据库,生成一个可能的遗传密码。它不同于其他类似的方法,因为它可以分析基因组的规模。

2016年,Shulgina加入了Eddy的实验室,该实验室专门研究比较基因组。此前,她曾就自己设计的解释遗传密码的算法向Eddy寻求建议。

到目前为止,还没有人对替代基因密码做过如此广泛的调查。

“看到新的代码真是太好了,因为据我们所知,Codetta会做所有这些工作,而不会发现任何新的代码,”Eddy说,他也是霍华德休斯医疗调查员。他还指出,该系统有可能被用于确保包含蛋白质序列的许多数据库的准确性。

“如今,数据库中的许多蛋白质序列只是基因组DNA序列的概念翻译,”Eddy说。“人们从这些蛋白质序列中寻找各种有用的东西,比如新的酶或新的基因编辑工具等等。你希望这些蛋白质序列是准确的,但如果生物体使用的是非标准编码,它们就会被错误地翻译。”

研究人员说,下一步的工作是使用Codetta在病毒、真核生物和细胞器基因组(如线粒体和叶绿体)中寻找替代密码。

Shulgina说:“我们还没有对许多生物进行系统的筛选。”

参考文献:“A computational screen for alternative genetic codes in over 250,000 genomes” by Yekaterina Shulgina and Sean R Eddy, 9 November 2021, eLife.
DOI: 10.7554/eLife.71402