2.2 生物信息学相关数据库

摘要 : 随着生物实验所验证的转录因子结合位点的不断积累,目前出现了专门收集TFBS相关信息而各具特色的数据库。TRANSFAC是真核生物转录调控信息的数据库,包含转录因子,转录调控关系以及转录因子结合位点等相关信息,涵盖的物种有酵母、拟南芥、线虫、果蝇、大鼠、小鼠、人等。它通过文献挖掘来收集数据,并有严格的质量控制。

随着生物实验所验证的转录因子结合位点的不断积累,目前出现了专门收集TFBS相关信息而各具特色的数据库。TRANSFAC是真核生物转录调控信息的数据库,包含转录因子,转录调控关系以及转录因子结合位点等相关信息,涵盖的物种有酵母、拟南芥、线虫、果蝇、大鼠、小鼠、人等。它通过文献挖掘来收集数据,并有严格的质量控制。TRANSFAC中收录的TFBS都是经过实验验证的,并且在每一个结合位点的条目中都标注了相应的实验技术,实验条件并对该TFBS的可信度进行了评价。TRANSFAC中不仅有TFBS的标注,还提供了相应转录因子与靶基因的信息,如物种、蛋白质一级序列、蛋白质功能域等。TRANSFAC 11.3中,共收集了10 018个转录因子,以及20 431个转录因子结合位点,为TFBS预测算法提供了高质量的训练集和验证集。JASPAR收录了多细胞真核生物转录因子结合位点的信息,并以矩阵的形式保存,这些矩阵是由实验验证的结合位点统计得来的。JASPAR包括3个子库,JASPAR CORE、JASPAR FAM、JASPAR PHYLOFACTS。目前,JASPAR CORE中包含123个频数矩阵,矩阵中的元素表示某个位置上出现某个碱基的频数,JASPAR FAM中将转录因子按其DNA结合域的结构特性分成若干家族,并提供了11个“家族共有”的TFBS的位置权重矩阵,为从结构角度进行TFBS研究提供了方便,JASPAR PHYLOFACTS中包含174个从在进化上保守的基因上游元件中提取的频数矩阵。值得一提的是,与商业数据库TRANSFAC不同,JASPAR是完全开放的资源,JASPAR与TRANSFAC的另一个主要区别是,JASPAR中含有的TFBS信息是非冗余的,即一个转录因子对应至多一个TFBS条目。SELEX_DB和HTPSELEX中收集了经SELEX实验验证的TFBS信息。它们不同于综合型的数据库,除了实验验证的结合位点信息,还尽可能详尽的提供了实验中间产物。此类数据库包含的TFBS相对较少,但针对每一个TFBS提供了更为丰富的实验信息,这为致力于建立更精准TFBS模型的研究者提供了宝贵的数据。

另外,还有一些收集特定物种转录因子以及TFBS信息的数据库:plantTFDB中包含22种植物中的26 402个转录因子的信息,AGRIS中包含了模式生物拟南芥的转录因子及其结合位点的信息,SCPD是收集酵母启动子区域序列的数据库,里面包含转录起始位点以及转录因子结合位点的注释,TRED是收集哺乳动物转录调控元件的数据库,对人、小鼠、大鼠等物种的启动子区域有相对完整的注释,ITFP中收集了哺乳动物的转录因子与靶基因之间的调控关系信息。

主要是ENCODE这个数据库DNA元件百科全书(英语:Encyclopedia of DNA Elements,简称为ENCODE计划)是一个由美国国家人类基因组研究所在2003年9月发起的一项公共联合研究项目,旨在找出人类基因组中所有功能组件。这是既完成人类基因组计划后国家人类基因组研究所开始的最重要的项目之一。所有在该项目中产生的数据都会被迅速的在公共数据库中公开。

2012年9月5日,该项目的初步结果被整理为30篇论文并发表于《自然》、《基因组生物学》及《基因组研究》中。这些发表的论文显示人类基因组内的非编码DNA至少80%是有生物活性的,而非像之前认为的仅仅是“垃圾”。这个结果非常重要,因为人类基因组中98%的DNA是非编码的,意味着它们并不直接编码任何蛋白质序列。

作者:广州赛诚生物

;