人体细胞图谱是一个具有巨大范围的有远见的项目,旨在在不同的时间点绘制出人体的所有组织,目标是为个性化医疗的发展创建一个参考数据库,即区分健康细胞和病变细胞的能力。 。这是通过一种称为单细胞RNA测序的技术实现的,该技术可帮助研究人员准确了解哪些基因在生命的这些微小成分中的任何特定时刻开启或关闭。“从方法论的角度来看,这代表了一个巨大的飞跃。以前,这些数据只能从大量细胞群中获得,因为测量需要如此多的RNA,”MarenBüttner解释道。“所以结果总是只是所有细胞的平均值。现在我们'

然而,该技术的灵敏度增加也意味着对批次效应的敏感性增加。“批次效应描述了可能发生的测量之间的波动,例如,如果设备的温度稍微偏离或者细胞的处理时间发生变化,”MarenBüttner解释说。尽管存在几种用于校正这些偏差的模型,但这些方法高度依赖于效果的实际大小。“因此,我们开发了一种用户友好,强大且灵敏的测量方法,称为kBET,可量化实验之间的差异,从而有助于比较不同的校正结果,”Büttner说。

除了批次效应之外,称为丢失事件的现象在单细胞测序中提出了主要挑战。“让我们说我们对细胞进行测序并观察细胞中的特定基因根本不会发出任何信号,”ICB主任兼生物系统数学模型教授Fabian Theis博士解释说。“其根本原因可能是生物学或技术性的:要么基因不被测序仪读取,因为它根本没有被表达,或者由于技术原因没有检测到,”他解释说。

为了识别这些案例,来自Theis集团的生物信息学家GökcenElaslan和Lukas Simon使用了许多单细胞的大量序列并开发了所谓的深度学习算法,即模拟人类学习过程的人工智能(神经网络) *。

该算法利用新的概率模型并比较原始数据和重建数据,确定基因信号的缺失是否是由生物或技术故障引起的。“这种模型甚至允许在没有两种不同细胞类型变得人为相似的情况下确定细胞类型特异性校正,”Fabian Theis说。“作为单细胞基因组学领域最早的深度学习方法之一,该算法具有额外的优势,可以很好地扩展以处理包含数百万个细胞的数据集。”

但有一种方法不是吗?重要的是要强调:“我们不是在开发软件来平滑结果。我们的主要目标是识别和纠正错误,”Fabian Theis解释道。“我们能够与世界各地的同事分享这些尽可能准确的数据,并将我们的结果与他们的结果进行比较,” - 例如当亥姆霍兹研究人员将他们的算法和分析贡献给人类细胞图谱时,因为可靠性数据的可比性至关重要。