Nature子刊开发RNA结构测序数据缺失信号恢复的人工智能方法
RNA结构是RNA发挥功能的基础。传统解析RNA结构的方法包括X射线、核磁共振和冷冻电子显微镜。这些方法无法做到高通量,更不能解析出细胞内高度动态的RNA结构。近年来,研究者们开发出了许多细胞内高通量探测RNA结构的技术,极大推动了RNA结构和功能的研究。但是这些技术探测到的RNA结构信号经常包含大量的缺失值,影响了后续对RNA功能的深入研究。人工智能方法在科学、技术多个领域都取得了成功应用,如果将其用于恢复由于实验和技术限制而缺失的RNA结构信号,很有可能解决上述问题。
2021年11月16日,清华大学张强锋课题组在Nature Machine Intelligence杂志上发表了题为 “一种恢复从探测实验得到的全转录组RNA结构图谱中缺失信号的深度学习方法”(A deep learning method for recovering missing signals in transcriptome-wide RNA structure profiles from probing experiments)的研究文章。该工作受自动驾驶领域中稀疏雷达信号恢复算法的启发,将RNA序列与其对应的RNA结构信号相结合,并通过屏蔽部分已知RNA结构信号来进行自监督式训练,建立了一种恢复实验缺失的RNA结构信号的新方法--StructureImpute(图1)。
图1 StructureImpute模型
RNA结构测序经常会因覆盖度不够深而导致RNA结构信号缺失,极端情况下甚至会使RNA结构信号非常稀疏。准确地恢复出缺失的信号,将有利于RNA结构及功能的分析。非常有意思的是,在自动驾驶中也存在类似的信号缺失问题。雷达信号提供的周围物体的距离信息对于自动驾驶非常重要。在自动驾驶中通常采用多线雷达获得物体的三维点云信号。由于多线雷达设备昂贵,自动驾驶方案往往面临雷达信号非常稀疏(大量缺失)的挑战。大量的研究表明,可通过结合二维图像和稀疏的雷达信号,设计人工智能算法,实现缺失的雷达信号的恢复补全。GuideNet就是这样的一种雷达信号恢复补全方法。其使用配对的二维RGB图像和稀疏的三维雷达信号作为输入,采用自编码器的深度网络结构,通过二维物体信息的RGB图像引导缺失的三维物体雷达信号的恢复,从而实现三维雷达信号的补全。GuideNet 在多个数据集上的表现明显优于其他方法,也曾长期处在自动驾驶KITTI数据集雷达信号补全任务的榜首。
受 GuideNet 的启发,作者开发了一种名为 StructureImpute 的深度学习模型,该模型将一维的RNA序列与含缺失值的RNA二级结构信号相结合,通过构建残差神经网络和长短时记忆网络模型(图1),采用随机屏蔽部分已知RNA结构信号来进行自监督式训练,从而得到具有恢复缺失RNA结构信号能力的人工智能模型。结果表明,StructureImpute具有优良的恢复效果(图2 A),并且其准确性远远优于仅基于RNA序列进行恢复的方法。不同缺失值比例下也具有很好的表现(图2 B)。从18S核糖体RNA的结构图谱中可以看出,在不同缺失比例下碱基的结构信号的预测值(蓝色)和真实值(红色)的分布很接近,说明模型在一定缺失比例范围内具有较好的鲁棒性(图2 C-D)。另外,与仅基于序列预测结构信号图谱的方法ShaKer相比,StructureImpute展现出了巨大的优势(图2 E)。作者还在多个生物学意义的RNA调控和功能位点上进行了测试,发现StructureImpute可以可靠地重建具有这些位点的RNA结构模式,包括蛋白结合位点、RNA修饰位点、翻译起始和终止位点等。
图2 StructureImpute的性能表现。A,实例展示StructureImpute从缺失的区域(灰色)恢复出的结构信号(绿色),实验测得的真实值为蓝色。B,不同比例的缺失值的恢复效果。C,StructureImpute与其他方法的效果比较。D-E, 不同缺失值比例下预测的 18S 核糖体 RNA 结构图谱与真实结构图谱的分布。
为了探究StructureImpute实现准确预测的根源,作者通过反向传播方法对神经网络中RNA序列分支和RNA结构信号分支分别进行了梯度分析。结果发现,缺失值区域本身的RNA序列信息对于预测其结构信号值是最为重要,邻近的序列随着距离增大而减小;同样,不管是结构单链还是双链区域,缺失值区域相邻位置的RNA结构信号也在恢复缺失值过程中提供了相对更加重要的信息。
作者还通过迁移学习的方法,将在全细胞数据集上训练的RNA结构信号恢复模型迁移到不同的细胞组分,包括细胞质、细胞核、染色质,并通过在各自细胞环境上的数据集上进行微调,最终发现迁移到各自组织上的模型的效果超越了全细胞数据集上的效果。另外,为探究StructureImpute在不同RNA结构探测技术上的效果,作者不仅在icSHApE技术上进行了以上分析,还在DMS-Seq技术的数据集上进行了模型的训练以及整套流程的分析,发现StructureImpute也能在DMS-Seq的数据上取得很好的恢复效果,说明了StructureImpute具有很好的实用性,能应用于不同的探测技术。
清华大学生命科学学院、结构生物学高精尖创新中心、清华-北大生命科学联合中心的张强锋副教授为该文章的通讯作者。清华大学生命学院博士毕业生龚警、博士后徐魁为该文章的共同第一作者,鲁志副教授、博士生马梓源为工作提供了宝贵的建议。该研究得到了清华大学蛋白质研究技术中心的大力支持,同时还得到了国家自然科学基金委、科技部重点研发计划、北京市结构生物学高精尖创新中心、清华-北大生命联合中的资助。
原文链接:https://www.nature.com/articles/s42256-021-00412-0