刘小乐教授Nature子刊解决基因组数据分析难题

高通量实验中的噪音和偏好使高维基因组数据分析成为了一项很大的挑战。Dana-Farber癌症研究所的刘小乐(Xiaole Shirley Liu)和德克萨斯大学西南医学中心的Yang Xie领导研究团队对此进行了深入研究。他们开发了一种强大的计算方法——MANCIE,并将其发表在四月十三日的Nature Communications杂志上。


随着高通量基因组技术的日益普及,研究者们获得了海量数据对生物学机制或疾病病因进行研究。然而,高通量实验中的噪音和偏好使高维基因组数据分析成为了一项很大的挑战。

Dana-Farber癌症研究所的刘小乐(Xiaole Shirley Liu)和德克萨斯大学西南医学中心的Yang Xie领导研究团队对此进行了深入研究。他们开发了一种强大的计算方法——MANCIE,并将其发表在四月十三日的Nature Communications杂志上。

据介绍,MANCIE能够对同一个样本的不同基因组分析进行偏好校正和数据整合。研究人员将MANCIE用于一些大型研究产生的数据(包括ENCODE、METABRIC、TCGA和CCLE),证实这种计算方法能够有效改善高维基因组数据分析。举例来说,MANCIE可以改善ENCODE数据的组织特异性聚类分析。研究表明,MANCIE在跨平台高维数据整合中有广泛的应用。

此前刘小乐教授在《NATURE REVIEWS GENETICS》上发表文章,探讨了NGS染色质分析出现偏好的常见原因、如何判断这些偏好、减少偏好对结论的影响。这篇综述以DNA为中心,总结了NGS染色质分析中最重要的经验教训,提出了一些解决偏好的分析策略。

随着测序通量持续攀升和测序成本直线下降,测序所产出的数据也出现了激增。这样的海量数据不仅为人们带来了前所未有的机遇,还在数据储存、数据传输和数据分析方面提出了新的挑战。以往研究者们需要建立计算机集群来储存和分析大数据集,同时运行几十台甚至几百台计算机。然而许多人都没有这样的条件,因此越来越多的研究者们选择通过“云计算”来解决问题。

对于那些毫无编程背景的生物学研究者来说,衔接多个生物信息学工具是一件相当头疼的事情。加州大学、Broad研究所和斯坦福大学的研究团队日前在Nature Methods杂志上发布了GenomeSpace。这是一个编程菜鸟们梦寐以求的云上平台,关联了二十多种生物信息学软件包和资源,让基因组数据分析显得异常简单。研究人员正在为各种基因组分析开发和征集相应的“配方”,以便编程菜鸟们更好的解读基因组数据。


参考文献:Chongzhi Zang, Tao Wang,, Yang Xie, Xiaole Shirley Liu. High-dimensional genomic data integration and bias correction using MANCIE. Cancer Res January 15, 2016 76;B24. doi: 10.1158/1538-7445.CHROMEPI15-B24

本文来源于:生物通/叶予

欢迎关注中科紫鑫人事招聘相关信息:http://www.ngscn.com/index.php/Job/employ


;