数学院等在基因调控网络建模研究中获进展

近日,国际学术期刊《美国科学院院刊》(PNAS)在线发表了由中国科学院数学与系统科学研究院和美国斯坦福大学、清华大学等单位的科研人员合作的基因调控网络建模的研究成果,提出了利用匹配的基因表达和染色质可及性数据刻画顺式调控元件和反式调控元件相互作用的数学模型,将基因调控网络的建模研究从编码基因推进到了非编码区域的调控元件,有望用来注释疾病等表型相关的遗传变异。

分子生物学的中心法则指出了从DNA编码基因到RNA再到蛋白质的遗传信息的流动方向。一个基因被转录为RNA时,人们称之为“表达”。基因调控网络,即对基因表达水平进行精准控制的蛋白与DNA间相互作用。基因调控网络是几乎所有生物过程的核心。在特定的条件下,特定基因表达的启动或停止,增强或抑制,是细胞选择基因组中的调控元件和相互作用完成基本生命活动以及对外界刺激作出应答的分子基础。而且组织和细胞特异的基因调控塑造了不同的表型,是健康和疾病研究的基石。阐明基因选择性表达所依赖的调控元件及其相互作用的分子机制,需要对基因调控进行建模。特别是转录因子等反式调控元件和增强子等顺式调控元件在特定的细胞环境下如何合作使得一个基因快速转录是基因调控网络研究的核心问题。

来自中国和美国的科学家紧密合作,开展了对基因调控研究中的核心的元件(转录因子TF、染色质调控因子CR和调控元件RE)之间的相互作用的研究,进而对基因表达的定量预测进行建模,发展了网络推断的新方法PECA。PECA重点对转录调控的三个关键环节进行建模:一,基于CR与序列特异性TF的相互作用推断CR在RE上的结合位点;二,基于CR的结合和RE的可及性,预测RE的激活状态;三,基于激活RE上结合的TF预测目标基因的表达。PECA推断得到的条件特异的基因调控网络可注释数量性状位点(QTL) 研究给出的非编码区域的功能,从而对发生在非编码调控区域的点突变和结构变异与表型之间的联系给出分子机理层面的解释。该研究中利用了人类基因组计划之后的“DNA元件百科全书”计划 (Encyclopedia of DNA elements,简称ENCODE)中的数据,特别是部分具有匹配的染色质状态和基因表达数据的细胞类型,解读这些重要的数据,将极大地促进人们对后基因组时代基因调控网络的理解。

领衔这项研究的斯坦福大学教授王永雄、中科院数学院研究员王勇、清华大学自动化系副教授江瑞分别得到美国国立卫生研究院、中科院B类先导专项和国家自然基金委的经费资助。论文的第一作者是数学院博士生都仁扎那。

PECA模型的示意图

;