基于细胞内RNA结构预测蛋白质-RNA动态相互作用的人工智能方法
清华大学张强锋课题组在Cell Research杂志上,发表了题为“使用人工智能方法基于细胞内RNA结构预测蛋白质-RNA动态相互作用”(predicting dynamic cellular protein–RNA interactions by deep learning using in vivo RNA structures)的研究长文。该工作首先使用icSHApE实验解析了七种常用细胞类型的RNA二级结构图谱,并开发人工智能算法整合实验获得的细胞内RNA结构以及对应细胞环境的RBp结合信息,建立了基于细胞内RNA结构信息预测细胞内RBp动态结合的新方法prismNet。
RNA结合蛋白(RBp)在转录、RNA代谢以及翻译过程中起重要的调控作用。CLIp实验技术作为RNA研究最重要的技术之一,可以解析RBp在整个转录组上的结合图谱,是系统理解一个RBp功能及其调控机制的基础。但CLIp实验费时费力,一次只能提供某一RBp在特定细胞环境下的RNA结合位点,而且对于实验材料要求较高,很多情况下不能顺利开展。然而研究发现,蛋白质和RNA的结合随着细胞环境的变化可能发生很大的改变,因而研究蛋白质对RNA的调控需要相同细胞环境的结合信息。这两方面因素加起来对使用CLIp研究蛋白质-RNA结合提出了很大的挑战。从计算角度来说,目前已有的预测RBp结合位点的方法,毫无例外都是基于RNA序列以及从序列出发预测的RNA结构。序列本身在不同细胞环境里面是没有什么变化的,因而这些方法都不能解决RBp在不同细胞环境下结合动态变化的问题。
RNA结构是RBp 结合和动态变化的基础。科研工作者通过X射线晶体衍射、核磁共振、冷冻电子显微镜等方法解析了大量RNA结构,揭示了许多体外RNA结构的重要功能。近年来,通过人为引入细胞内RNA化学修饰,开发高通量测序技术,可以在全转录组水平检测细胞内的RNA二级结构。这种新的RNA系统生物学的研究方法,揭示了RNA结构参与转录后调控的规律和机制。张强锋课题组一直致力于RNA结构领域的研究。张强锋研究员作为主要开发者参与开发了探测细胞内RNA结构和相互作用的icSHApE技术与pARIS技术 (Lu et al., 2016; Spitale et al., 2015)。在此基础上,通过整合亚细胞分离技术,张强锋课题组发现细胞内RNA结构在细胞内不同亚细胞环境会发生动态变化,并且RNA结构的变化会影响RBp的结合 (Sun et al., 2019)。张强锋课题组与杨运桂、刘峰课题组合作,通过斑马鱼胚胎发育过程不同阶段RNA结构动态变化的研究,发现RNA结合蛋白Elavl1a及其靶标RNA结构变化共同作用,调控斑马鱼早期胚胎母源RNA降解的新机制(Shi et al., 2020)。
在之前研究的基础上,作者系统比较了多个RBp在K562和HepG2细胞之间结合位点的差异,发现相同RBp在不同类型细胞之间结合位点差异巨大。进一步通过关联比较两个细胞系的全转录组RNA结构,作者发现在不同细胞系间RBp结合差异位点显著富集在RNA结构差异位点。这显示了RNA结构信息对不同细胞内RBp结合位点的预测具有重要作用。
作者通过整合细胞内RNA结构信息以及对应细胞系的RBp结合信息,利用深度神经网络,构建了预测RBp结合位点的prismNet模型。该模型在168个人类RBp结合的CLIp数据集上进行了训练学习和检验,发现其预测准确率显著高于之前仅仅利用RNA序列以及整合基于序列预测得到的RNA结构的方法,预测和CLIp实验结果的吻合度甚至达到或超过同一条件下两个CLIp实验的吻合度。显然,细胞内RNA结构信息对于预测准确率的提高起到了重要作用。有意思的是,作者发现RNA结构信息对于提高双链结合蛋白预测准确率的帮助更大。
利用深度学习模型中的注意力机制,作者提取了RBp结合RNA的关键识别位点,构建了序列与结构的整合motif来描述RBp结合位点的RNA序列和结构偏好。长久以来,人们都依赖于传统的序列motif来刻画RBp结合RNA的特征,对于同样重要的结合位点的结构特征,由于信息缺乏,只能选择忽略。这里的工作表明,和人们的期望一样,序列与结构整合motif可以更全面地体现RBp的结合特征,可以用在通过简单的motif匹配,方便快捷地在整个转录组中更准确地找到RBp的结合位点。
有意思的是,这些通过prismNet找到的RBp结合RNA的关键识别位点比其它转录本区域更加保守,同时也更加富集包括自闭症,精神分裂症等精神类疾病的突变位点。同时,作者发现,相对于RNA结构没有改变的突变位点,造成RNA结构改变的突变位点(riboSNitch)更容易造成疾病。这些研究暗示了prismNet模型未来在研究RBp结合、RNA结构变化在疾病中作用的潜在应用价值。
RBp和RNA研究领域内多年的积累,产生了大约200个基于CLIp实验的RBp转录组结合图谱,是研究RNA调控的重要资源。prismNet的一个重要应用价值在于大大扩充了这个资源。比如,对于任意一个RBp,只要在这七个细胞系的任意一个细胞系内做了CLIp实验,prismNet就可以通过构建准确的深度神经网络模型,把结合信息外推到所有七个细胞系中。对该研究所产生的大量细胞内RNA结构、所预测的不同RBp结合位点的信息资源,作者提供了查询以及下载网站(http://prismnet.zhanglab.net/)供其他研究组访问和使用。
最后要提到的是,张强锋研究组利用prismNet模型,使用新冠病毒SARS-CoV-2在宿主细胞内的RNA基因组结构信息,预测了多个新冠病毒的宿主结合蛋白;从这些宿主蛋白出发,找到了一些对抑制新冠传播有效的重定位药物(Sun et al., 2021)。这个研究再次证明了prismNet的广阔应用前景。
据悉,清华大学生命学院博士后孙磊、博士生徐魁、博士生黄文泽等为论文第一作者,张强锋为论文通讯作者。课题组李盼、唐磊、熊团林博士、朴美玲博士等为本研究做出了重要贡献。生命中心pI、清华大学医学院沈晓骅实验室尹亚飞博士、清华大学医学院纪家葵实验室王楠提供了相关细胞系。香港中文大学王晓刚教授与邵静博士为深度学习模型设计提供了宝贵建议。商汤研究院在GpU计算设施上提供了帮助。研究工作获得国家自然科学基金委、科技部重点研发计划、北京结构生物学高精尖创新中心、生命科学联合中心的资助。
Lu, Z., Zhang, Q.C., Lee, B., Flynn, R.A., Smith, M.A., Robinson, J.T., Davidovich, C., Gooding, A.R., Goodrich, K.J., Mattick, J.S., et al. (2016). RNA Duplex Map in Living Cells Reveals Higher-Order Transcriptome Structure. Cell 165, 1267-1279.
Shi, B., Zhang, J., Heng, J., Gong, J., Zhang, T., Li, p., Sun, B.F., Yang, Y., Zhang, N., Zhao, Y.L., et al. (2020). RNA structural dynamics regulate early embryogenesis through controlling transcriptome fate and function. Genome Biol 21, 120.
Spitale, R.C., Flynn, R.A., Zhang, Q.C., Crisalli, p., Lee, B., Jung, J.W., Kuchelmeister, H.Y., Batista, p.J., Torre, E.A., Kool, E.T., et al. (2015). Structural imprints in vivo decode RNA regulatory mechanisms. Nature 519, 486-490.
Sun, L., Fazal, F.M., Li, p., Broughton, J.p., Lee, B., Tang, L., Huang, W., Kool, E.T., Chang, H.Y., and Zhang, Q.C. (2019). RNA structure maps across mammalian cellular compartments. Nature structural & molecular biology 26, 322-330.
Sun, L., Li, p., Ju, X., Rao, J., Huang, W., Zhang, S., Xiong, T., Xu, K., Zhou, X., Ren, L., et al. (2021). In vivo structural characterization of the whole SARS-CoV-2 RNA genome identifies host cell target proteins vulnerable to re-purposed drugs. Cell https://doi.org/10.1016/j.cell.2021.02.008.