Genome Biology:表观基因组和转录组数据分析新平台
高通量测序,可提高我们进行全基因组研究的能力,从而彻底改变了生物学研究。然而,由于缺乏生物信息学专业知识,现代技术仍然超出了许多实验室的能力范围。八月七日在国际著名学术杂志《Genome biology》发表的一项研究中,来自美国辛辛那提大学医学院的研究人员,提出了一种BioWardrobe平台,可让用户使用一种方便生物学家的Web界面,存储、可视化和分析表观基因组学和转录组学数据,而不需要专业的编程知识。
以新一代测序(NGS)为基础,分析基因表达、染色质结构和蛋白质–DNA相互作用的方法飞速发展,为分子生物学打开了新的视野。这些方法包括RNA测序(rna-seq)、染色质免疫沉淀测序(ChIP-seq)、DNase I测序(DNase-Seq)、微球菌核酸酶测序(MNase-SEQ)、易接近转座酶染色质测序法(ATAC-Seq)等等。
在“湿实验室(wet lab)”的一面,这些方法在很大程度上已被很好地确定,可以由有经验的分子生物学家执行;但是,分析测序数据需要生物信息学专业知识,许多分子生物学家并不具备。重新利用已公布的数据集也具有挑战性:虽然作者通常符合长期需求,将原始数据文件存放到数据库,如Sequence Read Archive (SRA)或Gene expression Omnibus (GEO),但是,如果没有专业知识,就不可能分析这些数据。
即使处理后的数据文件(例如,基因表达值)是可用的,但是,直接在数据集之间进行比较也是不明智的,因为不同的实验室使用不同的方法(或不同的软件版本)。这意味着,甚至连最简单的任务,生物学家都需要生物信息学家的帮助,例如在一个基因组浏览器上查看自己的数据,从而让许多实验室难以企及这些令人兴奋的技术。即使生物信息学家参与,但是合作优先权的差异,可能会导致误解,不利于研究工作。为了减轻这些问题,一个最佳途径是,开发容易使用的数据分析软件,使生物学家即使没有生物信息学家的帮助,也能执行最基本的基本任务。
多个独立的程序和Web服务,可用于NGS数据分析。然而,大多数现有的可用工具都有一个命令行界面,执行一个特定的任务,并且通常需要它们之间的文件转换。一些流行的软件包,如HOMER或Tuxedo,被组织在一起,并包括能够执行多个任务的组件,从而解决了互操作性问题。然而,这种优秀的工具仍然需要使用命令行,并具有有限的可视化选项。
商业程序GeneSpring、Partek和Golden Helix,可以在普通的台式电脑上运行,并可分析基因表达或基因变异。然而,用户必须手动加载数据并将其存储在他们的台式电脑中;考虑到NGS数据的数量庞大,这种设置使得数据分析变得复杂。
此外,这些工具不允许多个已发布或本地产生的数据集进行无缝整合。Illumina Basespace和Galaxy服务器,可对数据进行存储和分析,并有完整的查看工具。然而,它们需要外部机构的数据传输,只能为用户数据提供有限的存储空间。虽然Galaxy提供了不使用命令行界面运行工具的机会,但是用户仍然需要管理文件类型转换,并且每次都要选择详细的参数,这需要深入了解每种工具和文件格式。没有稳定的流程,可能会导致没有经验的用户比较“苹果和桔子”。总之,很少有可用的工具能够为生物学家提供一个友好的界面,并且,没有一种工具,能够将这样的界面与数据存储、显示和分析整合起来。
基于此,该研究小组开发了BioWardrobe,一种方便生物学家使用的平台,将NGS数据采集、存储、显示和分析整合起来,主要旨在用于基因组学领域的研究。BioWardrobe功能包括:从核心设施或在线数据库(例如,GEO)下载原始数据,读取显示在加利福尼亚大学本地实体、UCSC基因组浏览器上的映射和数据,质量控制和基本、先进的数据分析。
在基本分析中,自动化程序用于处理每个实验。程序的选择是基于生物学家友好的实验参数(例如,RNA / ChIP-seq、双/单、基因组、抗体)和其他研究机构开发的工具,结合自行开发的工具(例如,Bowtie、STAR、FASTX和MACS2),通过提供额外的信息提高原有软件的输出,提供有意义的质量控制,并在Web界面显示结果。
在基本分析过程中产生的质量控制,被选择来帮助进行实验程序的故障排除。可定制的先进分析可以结合多个实验,并包括比较基因表达(DESeq1 / 2)和基因组占有(MAnorm)的工具,使用图形用户界面分析样品或样品组,并产生主成分分析图、基因列表、平均标记密度分布和热图。
R编程语言的一个内置接口,可促进额外的自定义脚本合并。所有的预计算数据都存储在一个SQL数据库中,并可以通过一个方便的Web界面让生物学家访问。另一方面,生物信息学家可以使用一个提供的R库或使用其他编程语言,访问数据。BioWardrobe可以在Linux或MacOSX系统上运行。安装包和说明可在GNU GPL v.2下使用。
原文标题:BioWardrobe: an integrated platform for analysis of epigenomics and transcriptomics data
原文摘要:Abstract: High-throughput sequencing has revolutionized biology by enhancing our ability to perform genome-wide studies. However, due to lack of bioinformatics expertise, modern technologies are still beyond the capabilities of many laboratories. Herein, we present the BioWardrobe platform, which allows users to store, visualize and analyze epigenomics and transcriptomics data using a biologist-friendly web interface, without the need for programming expertise. Predefined pipelines allow users to download data, visualize results on a genome browser, calculate RPKMs (reads per kilobase per million) and identify peaks. Advanced capabilities include differential gene expression and binding analysis, and creation of average tag -density profiles and heatmaps. BioWardrobe can be found at http://biowardrobe.com.
作者:秩名