用深度神经网络将医学成像和癌症生物学相结合
尽管我们在医学和医疗保健方面取得了显著的进步,但癌症的治愈方法仍未问世。乐观的一面是,我们在检测几种早期癌症方面取得了相当大的进展,使医生能够选择提高长期存活率的治疗。这归功于“综合诊断”,这是一种结合分子信息和医学成像数据来诊断癌症类型并预测治疗结果的治疗方法。
精准医疗推动了分子和医学影像数据的高通量分析,用以识别具体的肿瘤亚型,从而更好地预测生存和治疗结果。分子模式如基因表达和突变,与图像特征(例如,肿瘤在CT扫描中的表现)的相关性通常被称为“放射基因组学”。放射基因组学研究试图整合两种互补的数据类型,以利用分子信息来解释肿瘤成像模式,反之亦然。例如,放射基因组学研究表明,图像特征(例如,计算机断层扫描(CT)或磁共振成像中的肿瘤外观)可预测分子模式(例如,基因表达,基因突变或分子亚型)。放射基因组学研究支持从无创成像以及分子信息和表型成像的相关性推导肿瘤的生物学状态,以更好地了解癌症的异质性。但是,放射基因组学研究通常受到数据的高维度,简化的模型假设(例如线性)和缺乏验证数据集的限制。
深度学习技术已被广泛应用于分子和影像数据集,因为它们可处理高维输入数据,并具有呈现模型输入与输出之间的非线性和层次关系的能力。已有多项研究使用深度学习模型(例如卷积神经网络,生成对抗网络和自动编码器)来发现放射基因组关联。然而,尽管这些机器学习技术可以通过基因表达模式精确预测图像特征,但它们并未提供对模型学到知识的生物学解释。尽管分类精度很重要,但拷问模型的能力对于验证学习到的放射基因组关联至关重要。
加州大学洛杉矶分校放射科学副教授、综合诊断共享资源主任William Hsu教授的实验室研究的问题与数据集成、机器学习和成像信息学有关。在一项较早的研究中,Hsu教授和他的同事们使用一种被称为“基因掩蔽(gene masking)”的神经网络的解释方法来拷问训练过的神经网络,以理解基因和成像表现型之间的习得关联。他们证明了他们的模型所发现的放射基因组关联与先验知识是一致的。然而,由于之前的研究中只使用了单一的脑瘤数据集,这意味着他们的方法的普遍性仍有待确定。
在这样的背景下,Hsu和他的同事Nova Smedley(前研究生和第一作者),以及Denise Aberle(胸外科放射学家)进行了一项研究,研究深度神经网络是否能够描绘出基因表达、组织学(生物组织的微观特征与CT图像特征之间的关联。结果发现,该神经网络不仅可以复制以前已发现的关联,还可以识别新的关联。这项研究的结果发表在医学影像杂志上。
研究人员使用262名患者的数据集,训练神经网络从21766种基因表达中预测101种特征。然后,他们在一个89名患者的独立数据集上验证了神经网络的预测结果,并与训练数据集内的其他模型进行了对比。最后再应用基因掩蔽来确定基因亚群和肺癌类型之间的已知关联。结果发现,他们的神经网络能够将非小细胞肺癌的高维度基因表达数据建模,关联并预测放射影像学特征和组织学类型特征。神经网络在表示这些数据集方面的整体性能优于其他模型,并且可推广到来自其他群体的数据集。每个成像特征的预测与受生物过程控制的独特基因表达谱有关。“虽然放射基因组关联已被证明能够准确地对患者进行风险分层,但我们对我们的模型能够更好地识别和理解这些关联的重要性的前景感到兴奋。”我们希望这种方法能增加放射科医生评估CT扫描肺癌类型的信心。这些信息将非常有利于告知个体化治疗计划,”Hsu说。