来自北京大学生命科学学院、生命科学联合中心、统计科学中心李程研究组使用基于Hi-C数据的染色质区域间的相对空间距离,利用布朗运动描述转录因子和染色质修饰蛋白在不同染色质区域之间的动态转移过程,并以此建立了染色质区域附近分子浓度变化和趋于稳定的马尔可夫模型。并指出干细胞分化过程中的一个重要因素是时空特异地调控染色质的空间组织和结构,从而促进细胞阶段和类型特异性的基因得以表达。这一研究成果公布在《Nucleic Acids Research》杂志上。

真核细胞的染色质在细胞核中折叠成复杂的三维结构,但这些结构的形成和功能还没有被完全理解。近年来,以Hi-C为代表的染色质构象捕获技术揭示了较精细的染色质三维结构单元,如A、B间隔(A/B Compartments)和拓扑结构域(Topologically Associated Domains , TADs),它们在不同细胞类型、物种内都有保守性,是定量化地理解染色质三维结构形成和功能的关键性进展。三维基因组与基因表达调控具有密切的关联,例如,一个TAD内的基因往往被共同调控,但一个TAD内的的增强子由于被TAD边界阻隔,不会调控另一个TAD内的基因。在疾病形成和干细胞分化过程中,表达调控、表观遗传的变化经常伴随着三维基因组的结构变化。

在此项研究中,李程研究组使用基于Hi-C数据的染色质区域间的相对空间距离,利用布朗运动描述转录因子和染色质修饰蛋白在不同染色质区域之间的动态转移过程,并以此建立了染色质区域附近分子浓度变化和趋于稳定的马尔可夫模型。模型由此推导出的平衡态分布(Steady-State Distribution, SSD)表征了分子在染色质区域之间由于随机运动达到的动态平衡的浓度,是领域内首次基于三维基因组信息的动态染色质可接近性的度量。SSD不同于直观空间结构意义上的紧密程度,因为紧密或松散的染色质区域上都有可能出现高SSD值。

李程研究组进一步发现,相比传统的测量染色质可接近性的实验方法如DNase-seq和FAIRE-seq,SSD与表征染色质活跃程度的多个组蛋白修饰、以及基因表达有更强的相关性,证明了SSD作为动态可接近性度量的优势。SSD模型说明染色质修饰蛋白和转录因子的分布遵循由染色质三维结构决定的动态平衡状态,其浓度则进一步影响局部基因转录表达的水平。此研究还发现SSD可以帮助揭示干细胞分化过程中染色质结构变化的两个阶段。在胚胎干细胞经过神经元前体细胞阶段、向神经元细胞分化的过程中,与染色质结构组织相关的基因所在区间的SSD(动态可接近性)首先升高,帮助这些基因的表达,进而促进更多神经元细胞特异基因所在区间的SSD的升高和相应基因的表达。这说明干细胞分化过程中的一个重要因素是时空特异地调控染色质的空间组织和结构,从而促进细胞阶段和类型特异性的基因得以表达。

该研究得到北大-清华生命科学联合中心、科技部国家重点研发计划、国家自然科学基金重点项目的资助。李程研究员为该论文的通讯作者,生命科学中心13级博士生王轶楠为该论文第一作者,生科院14级本科生范操琦是论文第二作者,生命科学中心16级博士生郑宇轩参与了部分工作。

李程研究组开发的三维基因组疾病浏览器:http://www.bio.pku.edu.cn/displaynews.php?id=7945

北京大学生物信息平台论坛:http://forum.cbi.pku.edu.cn/

作者简介:

李程于1995年毕业于北京师范大学数学系,获得计算机学士学位。2001年毕业于美国加州大学洛杉矶分校统计系,获得统计学博士学位。2002至2013年在哈佛大学生物统计系、Dana-Farber Cancer Institute作为助理教授、副教授从事研究与教学工作。研究组开发的dChip、ComBat系列数据分析算法和软件被广泛应用于基因表达和SNp生物芯片的数据分析和可视化,文章被引用3000余次。研究组的工作获得多项美国国家卫生院基金资助,在Nature, pNAS, Blood,Leukemia, Cancer Research, Bioinformatics 等刊物上发表论文95篇,一共被引用20,000次以上,H-index 为46。2013年4月全职加入北京大学生命科学学院、生命科学联合中心、生物信息中心、统计科学中心。实验室使用生物、统计、计算等跨学科手段,提倡并培养研究人员和学生的科研技能与合作精神。多名承担过实验室项目的学生毕业后在美国知名大学任教。

原文摘要:

Dynamic chromatin accessibility modeled by Markov process of randomly-moving molecules in the 3D genome 

Chromatin three-dimensional (3D) structure plays critical roles in gene expression regulation by influencing locus interactions and accessibility of chromatin regions. Here we propose a Markov process model to derive a chromosomal equilibrium distribution of randomly-moving molecules as a functional consequence of spatially organized genome 3D structures. The model calculates steady-state distributions (SSD) from Hi-C data as quantitative measures of each chromatin region"s dynamic accessibility for transcription factors and histone modification enzymes. Different from other Hi-C derived features such as compartment A/B and interaction hubs, or traditional methods measuring chromatin accessibility such as DNase-seq and FAIRE-seq, SSD considers both chromatin–chromatin and protein–chromatin interactions. Through our model, we find that SSD could capture the chromosomal equilibrium distributions of activation histone modifications and transcription factors. Compared with compartment A/B, SSD has higher correlations with the binding of these histone modifications and transcription factors. In addition, we find that genes located in high SSD regions tend to be expressed at higher level. Furthermore, we track the change of genome organization during stem cell differentiation, and propose a two-stage model to explain the dynamic change of SSD and gene expression during differentiation, where chromatin organization genes first gain chromatin accessibility and are expressed before lineage-specific genes do. We conclude that SSD is a novel and better measure of dynamic chromatin activity and accessibility.