2003年4月,各国科学家合作完成了人类基因组初稿测序的重大任务。它揭示了一点:人类基因组中只有1%的部分负责编码基因,这给刚刚起步的基因组学界带来了挑战——剩下99%的部分功能是什么?在接下来的18年里,DNA元素百科全书(ENCODE)项目试图通过全面描述DNA中的所有功能元素,包括基因和调控基因活性的非编码元素,来解释这一基因组数据宝库。

ENCODE联盟由美国国家人类基因组研究所(NHGRI)资助,由31个机构组成,其中包括麻省理工学院和哈佛大学的Board研究所。该联盟揭示了人类和小鼠基因组中基因是如何调控的。通过公开分享数据,ENCODE帮助研究人员取得了无数发现。该联盟制作了公共数据存储库《DNA元素百科全书》(Encyclopedia of DNA Elements),表明至少80%的人类基因组具有调控活性。此外,研究人员已经使用ENCODE数据来确定导致心血管和阿尔茨海默病、克罗恩病、双相情感障碍和许多其他疾病的调控因素。

在Board研究所,该项目由研究所成员布拉德利·伯恩斯坦(Bradley Bernstein)领导,他是丹娜-法伯癌症研究所(Dana-Farber Cancer institute)基因调控观察和表观基因组计划(Gene Regulation Observatory and Epigenomics program)主任、癌症生物学系主任,还有查尔斯·爱普斯坦(Charles Epstein)和诺姆·肖雷什(Noam Shoresh),他们都是表观基因组计划的副主任。在过去的13年里,他们领导了一个由科学家和项目经理组成的团队,为这项集体努力贡献了数百个实验和数千个数据集。来自Epstein小组的数据已被用于数千份出版物,为基因组科学和健康的进步做出了贡献。

现在,ENCODE在其第四也是最后一个工作阶段即将结束,随之而来的是一个将在ENCODE的现有基础上建立起来的新计划:基因组变异对功能的影响(IGVF)将深入研究DNA元件的功能,以及它们在不同细胞类型和状态下如何运作。

Epstein介绍了ENCODE的现状、影响以及接下来会发生什么。

ENCODE的主要目标

ENCODE过去和现在都是一个致力于理解基因组功能的项目。它使用了基因组测序之后开发的一系列技术,目标是开发和应用这些新方法来理解基因组每个部分的功能意义。有了这些技术,我们开发了一个巨大的数据集,这是基因组学社区的基础资源。

我们需要超越基因测序来绘制基因调控的功能元件。为了实现这一点,我们多年来开发和广泛应用的一种方法是染色质免疫沉淀,然后接着DNA测序——最著名的是ChIp-Seq。这种方法使我们能够发现基因组的哪些区域在哪些细胞类型中调节基因表达,以及哪些区域受到了积极的抑制。我们在大量的细胞类型和组织中应用了ChIp-Seq,并建立了现在的ENCODE,它是一个任何人都可以访问的百科全书。许多小组成员中贡献了大量的ChIp-seq图谱,特别是Robyn Issner。如果你有一些想要了解的基因组,你现在可以在百科全书中查找,看到诸如这样的内容:基因组的这一部分在肝细胞中非常活跃,但在胰腺细胞中完全不活跃。这是一个巨大的资源。

ENCODE最大的影响

这个项目最深刻的影响是它使功能鉴定社区和遗传学社区之间的接口成为可能,这是两个平行的努力。随着ENCODE的启动,基因学界开创了一种称为全基因组关联研究(GWAS)的方法,以发现基因组中在统计上与疾病风险相关的基因变异。这些变异通常与我们传统上认为的基因相距甚远——它们位于非编码区域的基因之间。

因此,大多数可能使人易患某些遗传性疾病——如阿尔茨海默病、心血管疾病和糖尿病——的基因变异,都与ENCODE等项目发现的调控区域一致。这些位点被称为增强子——影响基因表达的远端调控元件,可能在基因组中很远的地方。我们获得的知识是有用的,因为ENCODE项目描绘了细胞和组织类型的巨大多样性。ENCODE通过提示细胞或组织类型中可能具有病理影响的变异,加深了从疾病相关变异的发现中获得的见解。遗传学社区和功能鉴定社区的工作之间的交集是ENCODE项目真正的财富之一。

另一类令人兴奋的见解与我们所了解的染色体的三维结构以及当这种结构被破坏时可能导致的病理状态有关。DNA高度压缩,以适应细胞核,并有所谓的拓扑关联域(TADs),这是实现基因调控的关键。促进基因表达的增强子主要在特定区域内工作。当这种3D结构被破坏时,增强子就会开始调节它们通常无法控制的基因,从而导致疾病。

接下来的计划

Board对基因组医学感兴趣是因为我们想要治愈和预防疾病,所以我们真的需要深入研究它是如何工作的细节。美国国家人类基因组研究所(NHGRI)资助了一个名为“基因变异对功能的影响”(IGVF)的新联盟,Board正在努力启动在新联盟中的角色。这项新研究将进一步深入开发功能注释以更深入理解遗传学,通过使用单细胞方法而不像过去那样将组成组织的各种细胞类型集合合并,从而将其提升到一个新的水平。我们正在进入单细胞多组学的美丽新世界,在那里我们将从相同的单细胞中描述基因表达、基因组的功能状态和丰富的调控元件。