如何减少基因组学研究的批次效应?
近年来,数据再现性(reproducibility)已成为科学界争论最多的话题之一。数据缺乏再现性,这要归因于多个因素,比如说数据采集方式不对,或分析方法不佳。高通量基因组学分析通常涉及到大量样本,因此特别容易出现数据再现性的问题。
导致基因组学数据缺乏再现性的一个重要因素是批次效应(batch effect)。简单来说就是实验做了几个批次而导致的实验误差,与原始样本中的生物学差异无关。比如说,在三个不同的时间做实验,或者由两名不同的人员做实验,这些都会带来批次效应。
在基因组学分析领域,批次效应的后果尤为严重。目前,DNA测序的成本已大幅降低,为临床应用铺平了道路。此时,若结论中出现错误,则可能会带来灾难性的后果。
2007年一篇发表在《Journal of Clinical Oncology》上的文章就说明了批次效应的严重性。这项研究利用分子特征对晚期卵巢癌患者进行分层,从而实现个性化治疗。不过,由于批次效应,文章在五年后撤稿。更严格的数据分析表明,批次效应使得该研究的结论无效。
当然,这并非个案。2010年,《Nature Reviews Genetics》上的一篇文章分析了9项独立的基因组研究。研究人员发现,对于对照组和实验组之间观察到的差异,与批次效应有关的差异占到32-100%。
关于如何减少批次效应的影响,目前已经有不少建议,包括规范实验室操作和随机化样本处理。在流程后端,处理批次效应的最有效方法是利用生物信息学工具来确定受影响的数据并将其从分析中剔除。不过,若数据处理过多,则可能影响研究统计效力,使得结论没那么可靠。
另一个办法从流程的前端下手,尽量从源头上避免技术差异。据perkinElmer的专家Adriano Flora博士介绍,手动处理样本是技术差异的主要原因,特别是在样品很多时。有时,难免有一些移液错误,或者孵育时间有长有短,或者操作过程略有不同。
自动化的液体处理和核酸提取可确保下游分析中的样本质量一致。对于新一代测序等应用,Flora博士还建议使用专门的液体处理装置来实现自动化分析设置,以减少样本之间的技术差异。
减少批次效应的另外一个办法是增加处理的通量,在同一天处理所有相关的实验样本。全自动的工作站已经成功地减少了批次效应。不过,如果自动化核酸纯化设备是依次处理小批量的样本,则有可能重新引入批次效应,因此并非最佳选择。
尽管样本处理和数据分析都取得了进展,但在解释大量数据时,批次效应仍然是一个绊脚石。现在我们既然知晓原因,那么就需要从各个方面入手,采取各种措施来避免批次效应,最大限度地提高基因组学研究的重现性。(生物通 薄荷)