调整语言模型以跟踪病毒变种
来自美国能源部 (DOE) 阿贡国家实验室的科学家和一个合作团队因其快速识别病毒进化方式的新方法获得了2022 年基于高性能计算的 COVID-19 研究戈登贝尔特别奖。他们在训练大型语言模型 (LLM) 以发现 SARS-CoV-2 变体方面的工作对 COVID-19 以外的生物学具有影响。
作为人工智能 (AI) 的一种形式,LLM 通常用于总结和翻译文本,或者根据模型在初始训练阶段学到的内容预测接下来可能出现的单词。例如,在巨大的语言数据集的帮助下,可以训练法学硕士将文本从英语翻译成西班牙语。
赢得今年奖项的研究人员利用阿贡强大的超级计算和人工智能资源开发和应用法学硕士来追踪病毒如何变异成更危险或更易传播的变体。
当病毒进化时,它会变异成新的变种,这些变种可能与过去的变种相似,甚至比以前的迭代更致命。当特定变体被认为更危险或有害时,它被标记为关注变体 (VOC)。快速有效地发现这些 VOC 可以为科学家提供时间来设计和开发有效的疫苗和治疗策略,从而挽救生命。
跟踪这些变体的现有方法可能很慢。为了解决这个问题,计算生物学家 Arvind Ramanathan 和他在 Argonne 的同事与来自芝加哥大学、NVIDIA、Cerebras Inc.、伊利诺伊大学芝加哥分校、北伊利诺伊大学、加州理工学院、纽约大学和技术大学的合作者一起慕尼黑大学着手创建一种识别 VOC 的方法。他们的论文“GenSLMs: Genome-scale language models reveal SARS-CoV-2 evolutionary dynamics”是该团队研究结果的结晶。
“当大流行开始时,我们发现了几种真正有害的病毒变种,比如 Delta 变种,”Ramanathan 说。“它导致大量死亡。但 Delta 的进化是病毒面对人类宿主时发生的某些突变的结果。这是病毒在人类细胞内进化的过程。”