表观基因组数据访问与分析新利器
过去,由于缺乏可访问的简单、直观和快速的工具,导致大型复杂的表观基因组数据集在科研与临床中的并没有被充分利用。
近日,作为国际人类表观基因组联盟(IHEC)发表的40多篇论文的一部分,三篇论文描述了三个处理表观遗传学和表观基因组学数据的新工具。
其中两篇文章发表在《Cell Systems》上,描述了两个新的数据门户网站,使表观遗传数据更容易访问。加拿大团队描述了IHEC Data Portal,该网站可以提供对七个国际联盟数据的访问权;西班牙小组介绍了Blueprint Data Analysis Portal,该网站的界面可用来比较联盟的造血表观基因组数据。
第三篇文章发表在《Cell Reports》上,提供了一个分析和解释表观基因组关联分析(epigenome-wide association study,EWAS)数据的工具。
IHEC Data Portal:整合来自不同研究联盟的数据集
加拿大麦吉尔大学和舍布鲁克大学的研究人员开发了IHEC Data Portal,以便整合来自不同研究联盟的数据集。该门户网站提供来自七个国际联盟——ENCODE、NIH Roadmap、CEEHRC、Blueprint、DEEP、AMED-CREST和KNIH——的数据,包括来自600多个不同组织的7000多个表观基因组参考数据集。
研究人员写道,“IHEC Data Portal正在被构建为一个全面的发现工具,使研究界能够共享表观基因组数据,并更有效地开展合作。”
该门户网站使用IHEC数据中心(Data Hub)JSON格式文件,检索和分配联盟数据,并且通过在线应用程序界面(API),用户可以选择和浏览各种数据集。然后,用户可以使用基因组浏览器UCSC Genome Browser进一步浏览数据。通过该方法,用户可以依靠相关工具来比较所选的数据集。数据也可以下载,但原始数据需要数据访问请求。同时,用户可以共享他们选择的数据集,并使用会话ID和URLs进行过滤。
研究人员表示,他们的策略也适用于整合由其他联盟生成的数据。
Blueprint Data Analysis Portal:比较造血表观基因组数据
西班牙小组开发了自己的门户网站,用于分析来自Blueprint Consortium的数据。该联盟已经生成了造血细胞谱系的参考表观基因组,其数据集包括ChIP-seq、DNAsel-seq、全基因组重亚硫酸盐测序和RNA-seq数据,涵盖了60多种细胞类型。
在该门户网站中,研究人员使用表观基因组学比较网络基础设施(epigenomics comparative cyber-infrastructure,EPICO)平台,该平台包括五个部分:数据模型;数据验证和加载程序;空数据库,用于存储来自数据验证和加载程序的数据和元数据;应用程序界面(API);以及数据分析门户网站。除了EPICO外,这种方法还需要存储空间来创建数据库,获取原始数据的连接,以及接收查询和发送结果的模块。
研究人员表示,该门户网站允许几乎没有生物信息学背景的用户,可视化和比较他们感兴趣血细胞类型的表观基因组和转录组数据。研究者使用两个基因FPR1和IRF8测试了该门户网站。对于这两个基因,该门户网站可以显示出它们在血细胞中发生的已知基因表达改变,并将其与并发的表观遗传改变进行关联。
eFORGE:分析和解释表观基因组关联分析数据
为了更深入地了解这些数据,伦敦大学学院的Stephan Beck带领研究人员开发了一种名为eFORGE的新工具,允许用户从表观基因组关联分析(EWAS)中筛选数据。这样,他们可以发现与疾病相关的细胞类型。
eFORGE可以估计哪些差异甲基化位点在某些组织或细胞中可能是起作用的。它是通过分析一组差异甲基化位点和DNase I超敏位点参考图谱之间的重叠来实现的。这些参考集包括来自各种组织,原代细胞类型和来自ENCODE、Roadmap Epigenomics和Blueprint consortia的细胞系的454个样品。
Beck等人通过将其应用于20个可公开获得的EWAS数据集来评估其方法。通过这项评估,他们在5个癌症EWAS中发现了一个干细胞样标签,并且在1个类风湿性关节炎EWAS的一个异质样本中发现了CD14+细胞,CD14+细胞在类风湿性关节炎中存在加速成熟现象。
Beck等人表示,这种方法弥合了大规模表观基因组学数据与EWAS衍生的靶标选择之间的差距,为疾病病因研究提供了思路。”
参考文献:
1. The International Human Epigenome Consortium Data Portal. DOI: http://dx.doi.org/10.1016/j.cels.2016.10.019
2. The BLUEPRINT Data Analysis Portal. DOI: http://dx.doi.org/10.1016/j.cels.2016.10.021
3. eFORGE:A Tool for Identifying Cell Type-Specific Signal in Epigenomic Data. DOI:http://dx.doi.org/10.1016/j.celrep.2016.10.059
本文来源于:测序中国
欢迎关注中科紫鑫人事招聘相关信息:http://www.ngscn.com/index.php/Job/employ