美国科学家推出NGS自动化分析平台

高通量测序,可提高我们进行全基因组研究的能力,从而彻底改变了生物学研究。然而,由于缺乏生物信息学专业知识,现代技术仍然超出了许多实验室的能力范围。八月七日在国际著名学术杂志《Genome Biology》发表的一项研究中,来自美国辛辛那提大学医学院的研究人员,提出了一种BioWardrobe平台,可让用户使用一种方便生物学家的Web界面,存储、可视化和分析表观基因组学和转录组学数据,而不需要专业的编程知识。

以新一代测序(NGS)为基础,分析基因表达、染色质结构和蛋白质–DNA相互作用的方法飞速发展,为分子生物学打开了新的视野。这些方法包括RNA测序(RNA-seq)、染色质免疫沉淀测序(ChIP-seq)、DNase I测序(DNase-Seq)、微球菌核酸酶测序(MNase-SEQ)、易接近转座酶染色质测序法(ATAC-Seq)等等。

在“湿实验室(wet lab)”的一面,这些方法在很大程度上已被很好地确定,可以由有经验的分子生物学家执行;但是,分析测序数据需要生物信息学专业知识,许多分子生物学家并不具备。重新利用已公布的数据集也具有挑战性:虽然作者通常符合长期需求,将原始数据文件存放到数据库,如Sequence Read Archive (SRA)或Gene Expression Omnibus(GEO),但是,如果没有专业知识,就不可能分析这些数据。

即使处理后的数据文件(例如,基因表达值)是可用的,但是,直接在数据集之间进行比较也是不明智的,因为不同的实验室使用不同的方法(或不同的软件版本)。这意味着,甚至连最简单的任务,生物学家都需要生物信息学家的帮助,例如在一个基因组浏览器上查看自己的数据,从而让许多实验室难以企及这些令人兴奋的技术。即使生物信息学家参与,但是合作优先权的差异,可能会导致误解,不利于研究工作。为了减轻这些问题,一个最佳途径是,开发容易使用的数据分析软件,使生物学家即使没有生物信息学家的帮助,也能执行最基本的基本任务。

多个独立的程序和Web服务,可用于NGS数据分析。然而,大多数现有的可用工具都有一个命令行界面,执行一个特定的任务,并且通常需要它们之间的文件转换。一些流行的软件包,如HOMER或Tuxedo,被组织在一起,并包括能够执行多个任务的组件,从而解决了互操作性问题。然而,这种优秀的工具仍然需要使用命令行,并具有有限的可视化选项。

商业程序GeneSpring、Partek和Golden Helix,可以在普通的台式电脑上运行,并可分析基因表达或基因变异。然而,用户必须手动加载数据并将其存储在他们的台式电脑中;考虑到NGS数据的数量庞大,这种设置使得数据分析变得复杂。

此外,这些工具不允许多个已发布或本地产生的数据集进行无缝整合。Illumina Basespace和Galaxy服务器,可对数据进行存储和分析,并有完整的查看工具。然而,它们需要外部机构的数据传输,只能为用户数据提供有限的存储空间。虽然Galaxy提供了不使用命令行界面运行工具的机会,但是用户仍然需要管理文件类型转换,并且每次都要选择详细的参数,这需要深入了解每种工具和文件格式。没有稳定的流程,可能会导致没有经验的用户比较“苹果和桔子”。总之,很少有可用的工具能够为生物学家提供一个友好的界面,并且,没有一种工具,能够将这样的界面与数据存储、显示和分析整合起来。

基于此,该研究小组开发了BioWardrobe,一种方便生物学家使用的平台,将NGS数据采集、存储、显示和分析整合起来,主要旨在用于基因组学领域的研究。BioWardrobe功能包括:从核心设施或在线数据库(例如,GEO)下载原始数据,读取显示在加利福尼亚大学本地实体、UCSC基因组浏览器上的映射和数据,质量控制和基本、先进的数据分析。

在基本分析中,自动化程序用于处理每个实验。程序的选择是基于生物学家友好的实验参数(例如,RNA/ChIP-seq、双/单、基因组、抗体)和其他研究机构开发的工具,结合自行开发的工具(例如,Bowtie、STAR、FASTX和MACS2),通过提供额外的信息提高原有软件的输出,提供有意义的质量控制,并在Web界面显示结果。

在基本分析过程中产生的质量控制,被选择来帮助进行实验程序的故障排除。可定制的先进分析可以结合多个实验,并包括比较基因表达(DESeq1/2)和基因组占有(MAnorm)的工具,使用图形用户界面分析样品或样品组,并产生主成分分析图、基因列表、平均标记密度分布和热图。

R编程语言的一个内置接口,可促进额外的自定义脚本合并。所有的预计算数据都存储在一个SQL数据库中,并可以通过一个方便的Web界面让生物学家访问。另一方面,生物信息学家可以使用一个提供的R库或使用其他编程语言,访问数据。BioWardrobe可以在Linux或MacOSX系统上运行。安装包和说明可在GNU GPL v.2下使用。

注:生物信息学进行分析是不沾水的,有人称为干实验,相比而言分子生物学实验一般需要用水,俗称web-lab experiment。

本文来源于:生物通

欢迎关注中科紫鑫人事招聘相关信息:http://www.ngscn.com/index.php/Job/employ

;