癌细胞与健康细胞有何不同?MDC生物信息学家Altuna Akalin领导的团队在《基因组生物学》杂志上报道,一种名为“ikarus”的新机器学习算法知道答案。该人工智能程序发现了肿瘤的基因特征。

在海量数据中识别模式方面,人类根本不是人工智能(AI)的对手。特别值得一提的是,人工智能的一个叫做机器学习的分支经常被用于在数据集中发现规律——无论是股票市场分析、图像和语音识别,还是细胞分类。为了可靠地区分癌细胞和健康细胞,Helmholtz协会(MDC) Max Delbrück分子医学中心生物信息学和组学数据科学平台负责人Altuna Akalin博士领导的团队现在开发了一个名为“ikarus”的机器学习程序。该程序在肿瘤细胞中发现了一种不同类型的癌症所共有的模式,由一种特有的基因组合组成。根据该团队发表在《基因组生物学》(Genome Biology)杂志上的论文,该算法还检测出了以前从未被明确认为与癌症有关的基因类型。

机器学习本质上是指一种算法使用训练数据来学习如何自己回答某些问题。它通过在数据中搜索帮助它解决问题的模式来实现这一点。经过训练阶段后,系统可以根据所学知识进行归纳,以评估未知数据。该论文的第一作者Jan Dohmen说:“在专家们已经明确区分‘健康’和‘癌变’细胞的地方,获得合适的训练数据是一个重大挑战。”

惊人的高成功率

此外,单细胞测序数据集往往是嘈杂的。这意味着它们所包含的关于单个细胞的分子特征的信息不是很精确——也许是因为在每个细胞中检测到的基因数量不同,或者是因为样品并不总是以相同的方式处理。正如Dohmen和他的同事Vedran Franke博士,这项研究的共同负责人,报告说,他们筛选了无数的出版物,并联系了相当多的研究小组,以获得足够的数据集。该团队最终使用了来自肺癌和结直肠癌细胞的数据来训练算法,然后将其应用于其他类型的肿瘤的数据集。

在训练阶段,ikarus必须找到一组特征基因,然后用来对细胞进行分类。“我们尝试并完善了各种方法,”多曼说。正如三位科学家所说,这是一项耗时的工作。弗兰克解释说:“关键是小karus最终使用两个列表:一个用于癌症基因列表,另一个用于其他细胞的基因列表。”在学习阶段之后,该算法也能够可靠地区分其他类型癌症中的健康细胞和肿瘤细胞,比如肝癌或神经母细胞瘤患者的组织样本。它的成功率往往非常高,这甚至让研究小组都感到惊讶。阿卡林说:“我们没有想到会有一个共同的特征,可以如此精确地定义不同类型癌症的肿瘤细胞。”“但我们仍然不能说这种方法是否适用于所有类型的癌症,”多曼补充说。为了将ikarus变成一种可靠的癌症诊断工具,研究人员现在想在其他种类的肿瘤上测试它。

人工智能是一个完全自动化的诊断工具

该项目旨在远远超出“健康”细胞与“癌变”细胞的分类。在最初的测试中,ikarus已经证明该方法也可以区分其他类型(以及某些亚型)的细胞和肿瘤细胞。阿卡林说:“我们希望使这种方法更加全面,进一步发展,以便能够在活检中区分所有可能的细胞类型。”

在医院,病理学家往往只是在显微镜下检查肿瘤的组织样本,以确定各种细胞类型。这是一项费时费力的工作。有了ikarus,这个步骤有一天可能会成为一个完全自动化的过程。此外,阿卡林指出,这些数据可以用来得出关于肿瘤的直接环境的结论。这可以帮助医生选择最好的治疗方法。因为癌变组织的构成和微环境往往表明某种治疗或药物是否有效。此外,人工智能还可能有助于开发新药物。阿卡林说:“小张让我们识别出了潜在的癌症驱动基因。”新的治疗药物可以用于靶向这些分子结构。

家庭办公协作

该出版物的一个值得注意的方面是,它完全是在COVID大流行期间编写的。所有的参与者都不在MDC下属的柏林医学系统生物学研究所(BIMSB)的日常办公桌旁。相反,他们呆在家里的办公室里,只通过数字方式交流。因此,在弗兰克看来,“该项目表明,可以创建一个数字化结构,以促进在这些条件下的科学工作。”

文章标题Identifying tumor cells at the single-cell level using machine learning