生物质谱具有高通量、高灵敏度的分析特点,是蛋白质组学研究的核心技术之一。基于数据库搜索的肽段质谱图谱鉴定方法是目前最有效和最广泛使用的蛋白质鉴定方法,然而仅有25%的图谱能被该方法识别。这些被丢弃的图谱中除低质量图谱外,还包含了大量因翻译后修饰和单氨基酸突变(Single Amino acid Variations,SAV)导致的质量偏移图谱,这不但严重影响数据整体解析率还丢失了许多重要蛋白质信息。为此,人们采用非限制性搜库策略的开放式搜索方法(Open search),在母离子质量高容差设定下鉴定常规方法难以发现的修饰和SAV事件,图谱利用率能达到50%以上,超过一般搜库方法的两倍有余。

虽然目前已有大量开放性搜索工具被开发,但开放式搜索却并没有得到广泛使用。其中一个非常重要的原因是没有一个准确的FDR评价体系对开放式搜索进行有效评估,导致开放式搜索出来的结果不知道是否可信。由于开放式搜索中的修饰和SAV事件是不可预知的,因此传统的FDR评估方法失效。蛋白质组学界一直没能拿出一个有效的FDR评估方法,开放式搜索也就没多少人敢用。

暨南大学张弓课题组利用其在翻译组方面的绝对优势一举解决了这个困扰学界多年的问题。在稳态细胞中,翻译组测序(RNC-seq)可以测定所有正在翻译的mRNA,RNC-seq数据因与蛋白质组数据具有良好的对应关系,可作为蛋白质组的独立参考数据集,被人类蛋白质组组织(Human proteome Organization,HUpO)认定为人类蛋白质组计划(Human proteome project,Hpp)的核心支柱之一。运用翻译组数据对蛋白组数据进行质控最先应用在该研究团队2017年的多算法结果整合策略中,可在提高蛋白质的检测数目的同时保证鉴定可靠度。(零成本大幅提高蛋白质组鉴定能力?暨大研发另类质谱鉴定算法策略)

在本研究中,作者使用稳态细胞翻译组数据作为“标准答案”来评价开放式搜索蛋白质鉴定结果,质谱搜库结果中没有翻译证据的蛋白被认为是假阳性蛋白,属于“可疑鉴定”(Suspicious Identifications,SI),而利用SI和有翻译证据的蛋白质(Translation-supported Identifications,TI)则可计算可疑鉴定率(Suspicious Discovery Rate,SDR),以此来反映蛋白质的潜在错误鉴定率。

研究者发现,开放式搜索结果的SDR可达限制性搜索的两倍甚至更多,强调开放性搜索若不进行有效质量控制难以保证鉴定结果可靠性,而将肽段FDR严格控制在0.001以下,则可控制SDR与限制性搜库一样水平。对比开放式搜索不同参数设置下的结果,发现FDR控制是开放式搜索质控最重要的影响因素,而质量容差值、可变修饰、酶切方式和色谱分离条件并不是影响SDR的主要因素。

有了质控标准,开放式搜索的结果可靠性就有了保证,就可以在在蛋白质修饰和SAV检测中展现独特优势。测试结果表明,开放式搜索即便在未预设修饰类型下亦可在磷酸化质谱数据中集鉴定大量磷酸化修饰肽段和蛋白质。不仅如此,使用开放式搜索策略分析两株肝癌细胞质谱数据,鉴定到27个COSMIC未收录的SAV,其中的两个SAV被认为可能会引起与癌症相关的蛋白质结构和功能的改变。这些结果均预示着开放式搜索在鉴定未知修饰和SAV的巨大潜力。

该研究首次将翻译组数据应用于开放式搜索策略的质控评估中,有效挖掘质谱数据中的“暗物质”,为蛋白质组开放式搜索策略制定了简便易行的质控标准。

作者简介:

暨南大学翻译组学实验室的负责人张弓教授,翻译组学领域的建立者,其成果被选入国家统编教材。目前,张弓教授是中国生化与分子生物学学会蛋白质组学专业委员会(CNHUpO)理事,中国分子系统生物学专业委员会委员,国家优秀青年基金获得者,国家863青年科学家,国家****“青年拔尖人才”,深圳市龙华区第一届政协常委。

原文标题:
Li D, Lu S, Liu W, Zhao X, Mai Z, Zhang G *.
Optimal settings of mass spectrometry open search strategy for higher confidence
Journal of proteome Research (2018) in press.