科学家们早就知道,人类基因会依照我们DNA的精确顺序传递的指令付诸行动,这些指令由四种不同类型的单个的碱基分别编码:A,C,G和T。

众所周知,将近25%的基因被类似于TATAAA的序列(称为“ TATA框”)转录,那其它75%的基因是如何开启的呢?这依然是一个谜。

最新一项研究中,加州大学圣地亚哥分校的研究人员确定了一种DNA激活码,他们称其为下游核心启动子区域(downstream core promoter region,DpR),这一发现最终可用于控制生物技术和生物医学应用中的基因激活。

相关成果公布在9月9日的Nature杂志上。

文章深作者James T. Kadonaga说:“DpR的鉴定揭示了激活我们大约四分之一至三分之一基因的关键步骤。DpR一直是一个谜,它是否甚至存在于人类中一直存在争议。幸运的是,我们已经能够通过使用机器学习解决这个难题。”

1996年,Kadonaga及其同事在果蝇中发现了一种新的基因激活序列,称为DpE(DpR的一部分),该序列可使基因在没有TATA框的情况下被打开。之后在1997年,他们在人类中发现了一个类似DpE的序列。但是,从那时起,对人类DpE的细节和流行程度的解读就变得扑朔迷离。最惊人的是,在成千上万的人类基因中仅发现了两个或三个活跃的DpE样序列。

20多年后,为了解答这个谜题,Kadonaga与博士后学者Long Vo ngoc,Cassidy Yunyun Huang,Jack Cassidy(已退休的计算机科学家)合作利用强大的人工智能工具得到了答案。

研究人员汇集了500,000个随机版本的DNA序列,并对每个序列的DpR活性进行了评估。从那里开始,使用200,000个版本创建可以准确预测人类DNA中DpR活性的机器学习模型。

结果正如Kadonaga所描述的那样,“非常好”。他们创建了类似的机器学习模型,作为识别TATA框序列的新方法。他们用成千上万的测试评估了新模型,其中的TATA盒和DpR结果是已知的,而且研究人员发现其预测能力是“令人难以置信的”。

这些结果清楚地揭示了人类基因中DpR基序的存在。此外,DpR的出现频率似乎与TATA盒的发生频率相当。研究人员观察到了DpR和TATA之间的有趣双重性——用TATA框序列激活的基因缺少DpR序列,反之亦然。

Kadonaga指出,在TATA框序列中找到6个碱基很简单。在19个基准点上,破解DpR的代码更具挑战性。

“找不到DpR,因为它没有明显的序列模式。在DNA序列中存在被加密的隐藏信息,使其成为活跃的DpR元素。机器学习模型可以解密该代码,但是我们人类却不能。”

展望未来,将人工智能进一步用于分析DNA序列模式应会提高研究人员对人细胞中基因激活的理解和控制能力。 Kadonaga说,这种知识可能对生物技术和生物医学领域有用。

“机器学习使我们能够识别DpR,相关的人工智能方法可能对研究其他重要的DNA序列基序很有用。许多无法解释的事情现在可以解释了。”

(生物通:万纹)

原文标题:

Identification of the human DpR core promoter element using machine learning