Science:用于研究语言的算法可预测SARS-CoV-2和其它病毒的“逃逸”突变
通过弥合人类语言和病毒演化间的概念鸿沟,研究人员开发出了一种功能强大的新型工具,它能用来预测允许病毒“逃脱”人类免疫或疫苗的突变。它的应用可避免目前需要用高通量实验技术来发现允许病毒躲避识别的潜在突变。
Yoo-Ah Kim和Teresa przytycka在相关的《视角》中写道:“这些作者发现了病毒及其被宿主免疫系统的解读与自然语言中的句子及其被人类解读属性之间的相似处。”
病毒有时会以旨在令其能逃避人体免疫系统并引起感染的方式突变,它也被称为病毒逃逸。病毒的这一能力是疫苗和抗病毒药物开发中的重大挑战,它尤其体现在创制通用型流感疫苗和HIV有效疗法之中。此外,病毒逃逸已迅速成为在争竞SARS-CoV-2感染解决方案中的紧迫问题。
尽管对支配逃逸突变演变规则的了解可为治疗设计提供信息,但目前用于识别潜在逃逸突变的技术仍然有限。受语法(或句法)和含义(或语义)等语言学概念的启发,Brian Hie和同事应用自然语言处理(最初是为了训练计算机使用一系列单词来理解人类语言而开发的一种机器学习技术)来预测可能导致病毒利用氨基酸序列改变而逃逸的突变。
与单词更改如何可以令句子保持语法正确但又能改变其含义类似,Hie等人证明,病毒如何能通过保持生物学“句法”正确的突变而实现免疫逃避;该“句法”控制着病毒的感染能力但又改变了病毒的“语义”,从而令中和抗体不再能识别该病毒。
根据这些结果,针对甲型流感、HIV-1和SARS-CoV-2蛋白所研发的不同语言模型可准确预测有因果关系的逃逸突变,确定具高潜力逃逸的结构区域。这些模型无需事先培训且仅用原始序列数据就能取得这些结果。他们发现,对SARS-CoV-2而言,刺突蛋白(即病毒感染细胞所用蛋白)中的逃逸潜能在两个结构域中呈显著富集,但在另一结构域中却大量减少。