PNAS:中科院数学院王勇研究组等等发表基因调控网络建模研究论
2017年5月8日,国际著名学术期刊《美国科学院院刊》在线发表了中国科学院数学与系统科学研究院王勇研究员、美国斯坦福大学王永雄教授和清华大学自动化系江瑞副教授合作的一篇研究论文,研究人员发表基因调控网络建模研究成果,研究提出了利用匹配的基因表达和染色质可及性数据刻画顺式调控元件和反式调控元件相互作用的数学模型,将基因调控网络的建模研究从编码基因推进到了非编码区域的调控元件,有望用来注释疾病等表型相关的遗传变异。论文的第一作者是数学院博士生都仁扎那,王永雄教授、王勇研究员、江瑞教授分别为论文通讯作者。
分子生物学的中心法则指出了从DNA编码基因到RNA再到蛋白质的遗传信息的流动方向。一个基因被转录为RNA时,人们称之为“表达”。基因调控网络,即对基因表达水平进行精准控制的蛋白与DNA间相互作用。基因调控网络是几乎所有生物过程的核心。在特定的条件下,特定基因表达的启动或停止,增强或抑制,是细胞选择基因组中的调控元件和相互作用完成基本生命活动以及对外界刺激作出应答的分子基础。而且组织和细胞特异的基因调控塑造了不同的表型,是健康和疾病研究的基石。阐明基因选择性表达所依赖的调控元件及其相互作用的分子机制,需要对基因调控进行建模。特别是转录因子等反式调控元件和增强子等顺式调控元件在特定的细胞环境下如何合作使得一个基因快速转录是基因调控网络研究的核心问题。
来自中国和美国的科学家紧密合作,开展了对基因调控研究中的核心的元件(转录因子TF、染色质调控因子CR和调控元件RE)之间的相互作用的研究,进而对基因表达的定量预测进行建模,发展了网络推断的新方法PECA。PECA重点对转录调控的三个关键环节进行建模:一,基于CR与序列特异性TF的相互作用推断CR在RE上的结合位点;二,基于CR的结合和RE的可及性,预测RE的激活状态;三,基于激活RE上结合的TF预测目标基因的表达。PECA推断得到的条件特异的基因调控网络可注释数量性状位点(QTL) 研究给出的非编码区域的功能,从而对发生在非编码调控区域的点突变和结构变异与表型之间的联系给出分子机理层面的解释。该研究中利用了人类基因组计划之后的“DNA元件百科全书”计划 (Encyclopedia of DNA elements,简称ENCODE)中的数据,特别是部分具有匹配的染色质状态和基因表达数据的细胞类型,解读这些重要的数据,将极大地促进人们对后基因组时代基因调控网络的理解。
PECA模型的示意图
原文链接:
Modeling gene regulation from paired expression and chromatin accessibility data
原文摘要:
The rapid increase of genome-wide datasets on GENE expression, chromatin states, and transcription factor (TF) binding locations offers an exciting opportunity to interpret the information encoded in genomes and epigenomes. This task can be challenging as it requires joint modeling of context-specific activation of cis-regulatory elements (REs) and the effects on transcription of associated regulatory factors. To meet this challenge, we propose a statistical approach based on paired expression and chromatin accessibility (PECA) data across diverse cellular contexts. In our approach, we model (i) the localization to REs of chromatin regulators (CRs) based on their interaction with sequence-specific TFs, (ii) the activation of REs due to CRs that are localized to them, and (iii) the effect of TFs bound to activated REs on the transcription of target genes (TGs). The transcriptional regulatory network inferred by PECA provides a detailed view of how trans- and cis-regulatory elements work together to affect gene expression in a context-specific manner. We illustrate the feasibility of this approach by analyzing paired expression and accessibility data from the mouse Encyclopedia of DNA Elements (ENCODE) and explore various applications of the resulting model.
作者:王勇