生化与细胞所科研人员建立量化网络中直接关联性的部分互信息新方法
4月18日,国际学术期刊Proceedings of the National Academy of Sciences of the United States of America在线发表了中国科学院上海生命科学研究院生物化学与细胞生物学研究所系统生物学重点实验室陈洛南研究组题为“Part mutual information for quantifying direct associations in networks”的最新研究成果。该成果首次提出“部分互信息”的新概念和理论,通过“部分互信息”量化网络中节点之间的直接相关性,可实现由观测数据直接构建网络。
在数据分析中,定量的标识变量的直接依赖性是一件非常重要的事情,特别是对于科学和工程中各种类型的网络重构和因果推断问题,都需要高精度的理论和方法。应用的最广泛的方法之一是偏相关性系数(partial correlation),但是偏相关性系数只能量化线性之间相关性和关联性,从而忽略非线性的关联性。然而,基于“条件独立性”(conditional independency)的“条件互信息”(CMI: conditional mutual information)可以从观察数据中量化变量之间非线性的直接关联性,优于线性的方法。但是,条件互信息存在着过低估计的问题,因而严重限制它的应用,特别是在网络节点有强相关的网络中,这个问题就更加严重。
基于这个问题,陈洛南研究组提出了全新的概念,即“偏独立性”(partial independency)以及新的度量方法,又称作“部分互信息”(PMI: part mutual information),不仅能够克服条件互信息的缺点,同时还能保持互信息和条件互信息的性质。特别是,陈洛南研究组首先定义了部分互信息用于量化变量之间直接关联性,然后从理论上给出部分互信息和互信息以及条件互信息之间的内在联系。通过数值实验,陈洛南研究组证明了部分互信息的性质和优点,接着通过用Escherichia coli和Yeast的基因表达数据重构其基因调控网络,进一步验证了部分互信息在量化网络中非线性的直接关联性的优越性。该工作对于大数据网络研究提供了全新的概念和理论,不仅可用于生物分子网络的高精度构建,而且可以应用于其他网络(领域)中各种复杂因素的因果关系推断。
该研究得到了中国科学院和国家自然科学基金委的经费支持。(生化与细胞所)
比较PMI(X;Y|Z)和CMI(X;Y|Z)的统计功效。研究了十种不同类型的关系,在变量X和Z关系由弱变强的过程中,PMI(X;Y|Z)和CMI(X;Y|Z)的统计功效的变化情况。根据上图可以看出PMI(X;Y|Z)的统计功效变化并不明显,而CMI(X;Y|Z)的统计功效则随着X和Z关系的变强而逐渐减小至接近零。
相关附件