科学家们发明了一种量身定制的基因测序方法,这种方法依靠一种新的机器学习算法来精确测量标记DNA的来源和水平。这有助于他们区分细菌DNA与人类和其他非细菌细胞的DNA。

发表在《科学》(Science)杂志上的研究结果支持了这种系统可能会在非细菌细胞中自然发生的观点,但其水平远低于此前报道的一些研究,而且很容易受到细菌污染或当前实验方法的影响。在人类脑癌细胞上的实验也产生了类似的结果。

“推动医学研究的边界可能是一项挑战。有时候,这些想法太新奇了,我们不得不重新思考我们用来测试它们的实验方法,”伊坎山西奈山遗传学和基因组科学副教授Gang Fang博士说。“在这项研究中,我们开发了一种新方法,可以有效地测量多种物种和细胞类型中的这种DNA标记。我们希望这将有助于科学家揭示这些过程在进化和人类疾病中可能发挥的许多作用。”

这项研究的重点是DNA腺嘌呤甲基化,这是一种生化反应,可以将一种叫做甲基的化学物质附着在腺嘌呤上。腺嘌呤是用于构建长链DNA和编码基因的四个积木分子之一。这可以“表观遗传”激活或沉默基因,而不改变DNA序列。例如,已知腺嘌呤甲基化在某些细菌防御病毒的过程中起着关键作用。

几十年来,科学家们认为腺嘌呤甲基化严格地发生在细菌中,而人类和其他非细菌细胞依赖于另一种不同的组成部分——胞嘧啶的甲基化来调节基因。然后,大约从2015年开始,这种观点发生了改变。科学家们在植物、果蝇、小鼠和人类细胞中发现了高水平的腺嘌呤甲基化,这表明这种反应在整个进化过程中发挥着更广泛的作用。

然而,进行这些初步实验的科学家面临着困难的权衡。一些人使用的技术可以精确测量任何细胞类型的腺嘌呤甲基化水平,但没有能力识别每一个DNA片段来自哪个细胞,而另一些人则依赖于可以检测不同细胞类型甲基化的方法,但可能高估了反应水平。

在这项研究中,Fang博士的团队开发了一种名为6mASCOpE的方法,克服了这些权衡。在这种装置中,DNA从组织或细胞样本中提取出来,然后被一种叫做酶的蛋白质剪成短链。这些链被放置在显微镜下的孔中,用酶处理,使每条链产生新的副本。然后,一台先进的测序机会实时测量每个核苷酸组成部分被添加到新链上的速率。甲基化腺嘌呤略微延迟了这一过程。然后将结果输入机器学习算法,研究人员训练该算法从测序数据中估计甲基化水平。

“在机器学习模型分别量化每个物种的甲基化水平时,DNA序列让我们能够识别哪些细胞——人类细胞或细菌细胞——发生了甲基化,”Fang博士说。

在简单的单细胞生物(如绿藻)上进行的初步实验表明,6mASCOpE方法是有效的,因为它可以检测出两种具有高水平腺嘌呤甲基化的生物之间的差异。

该方法也似乎是有效的量化腺嘌呤甲基化复杂的生物体。例如,之前的研究表明,高水平的甲基化可能在黑腹果蝇和开花杂草拟南芥的早期生长中发挥作用。在这项研究中,研究人员发现,这些高水平的甲基化主要是污染细菌DNA的结果。事实上,这些实验中的果蝇和植物的DNA只有微量的甲基化。

同样,对人类细胞的实验表明,在健康和疾病条件下,甲基化水平都很低。从病人血液样本中获得的免疫细胞DNA只有微量的甲基化。

从胶质母细胞瘤脑肿瘤样本中分离的DNA也得到了类似的结果。这一结果与之前的研究不同,之前的研究报道了肿瘤细胞中更高水平的腺嘌呤甲基化。然而,正如作者所指出的,可能需要更多的研究来确定这种差异有多少可能是由于肿瘤亚型的差异以及其他潜在的甲基化来源。

最后,研究人员发现,质粒DNA(科学家经常用来操纵基因的工具)可能受到源自细菌的高水平甲基化的污染,这表明这种DNA可能是未来实验中的污染源。

“我们的结果表明,测量腺嘌呤甲基化的方式可以对实验结果产生深远的影响。我们并不是要排除某些人体组织或疾病亚型可能具有高度丰富的DNA腺嘌呤甲基化的可能性,但我们确实希望6mASCOpE能够通过排除细菌污染的偏见,帮助科学家全面调查这一问题。”Gang博士说。“为了帮助实现这一目标,我们为其他研究人员提供了6mASCOpE分析软件和详细的操作手册。”

Yimeng Kong, Lei Cao, Gintaras Deikus, Yu Fan, Edward A. Mead, Weiyi Lai, Yizhou Zhang, Raymund Yong, Robert Sebra, Hailin Wang, Xue-Song Zhang, Gang Fang. Critical assessment of DNA adenine methylation in eukaryotes using quantitative deconvolution. Science, 2022; 375 (6580): 515