BioTechniques:大数据的可视化工具

如今,面对海量的生物数据集,人们往往感到束手无策。然而,这些TB级的数据有望带来新的假说、新的药物靶点,以及对生物系统的更彻底了解。数据可视化在其中扮演着至关重要的作用。在这一期的《BioTechniques》杂志上,Sarah Webb博士探讨了数据可视化的挑战和能力。

大数据是一个美好的概念。不过随着生物数据集的增长和变化,可视化研究人员正面临持续的挑战。哈佛医学院的Nils Gehlenborg表示,问题在于数据的规模和异质性。人类基因组包含数十亿个碱基,研究人员希望从染色体、基因甚至碱基对水平来查看。此外,还有其他类型的关联数据,比如癌症患者的性别、年龄、肿瘤类型等。

浏览基因组

在线的基因组浏览器可以帮助研究人员探索数据、寻找模型,并建立假说。目前有许多这样的工具,每个在功能上稍有不同。加州大学圣克鲁兹分校分校(UCSC)的Genome Browser自2000年上线,是探索人类基因组、各种脊椎动物的基因组以及其他模式生物基因组的工具。

在Genome Browser中,染色体上的单个基因显示为分散的刻度线。当用户放大基因,他们可看到不同的异构体,了解它是如何剪接的。较深的颜色表示这些异构体获得更多实验证据的支持,框代表外显子,而箭头表示转录方向。再进一步放大,深色和浅色的条纹显示特定密码子的位置。

此外,基于UCSC的Genome Browser,人们也开发出更多的工具。比如,Ting Wang在UCSC攻读博士后时领导了一个拆分项目,最终开发出UCSC Cancer Genomics Browser 。之后他来到华盛顿大学,开始构建表观基因组浏览器VizHub。它目前拥有大约25,000个表观遗传学数据集。

探索蛋白质组

据比利时根特大学的Lennart Martens介绍,蛋白质组学也面临可视化的挑战。与基因组学数据库类似,质谱数据库是一个潜在的宝库,有望发现新的相互作用,并产生新的假说。他估计,欧洲生物信息学研究所的PRIDE数据库大约包含10亿个质谱数据,其中70%是未确定的。

Martens是一名生物信息学家,他的工作主要集中在蛋白质组学,最近也在代谢组学。他试图找到更好的方法,来表示新生成的质谱数据,以及那些公开的数据。他承认,以直观的方式浓缩分子碎片的各种组合是比较困难的。“我们也不总是成功,”他说,“你不能无限浓缩这一信息。”

可视化工具的开发可能需要很长的时间。研究人员必须了解用户及其需求,还需要了解数据集以及数据的潜在关系。有时,相互理解就需要许多回合的讨论。对于计算机背景的研究人员来说,生物学可能太过混乱。

此外,尽管数据可视化相当重要,但大多数研究人员没有接受过这一方面的培训。他们可能无法理解某些类型的图像,如气泡图和雷达图。Martens认为,这个问题只能通过培训来解决。在这篇文章中,加拿大基因组科学中心的Martin Krzywinski就数据可视化提出了几点建议,可帮助大家美化论文。



参考文献:

Sarah Webb.THE ART OF BIG DATA. BioTechniques, Vol. 61, No. 3, September 2016, pp. 107–112



本文来源于:生物通/薄荷

欢迎关注中科紫鑫人事招聘相关信息:http://www.ngscn.com/index.php/Job/employ

;