这不是天文数字,而是基因数字
导读:
伊利诺伊大学香槟分校的研究人员预测,未来十年内,基因组学将产生世界上最大的数据集,最终超过天文学、粒子物理学,甚至是当下流行的网站,如YouTube和Twitter。
伊利诺伊大学香槟分校的研究人员预测,未来十年内,基因组学将产生世界上最大的数据集,最终超过天文学、粒子物理学,甚至是当下流行的网站,如YouTube和Twitter。
研究人员在周二的《PLOS Biology》上发表了他们的报告。这一方面证明了人类基因组的复杂度,另一方面也说明了这个领域的紧迫挑战。随着基因组学以指数速度扩展,找到空间来存储和管理所有的数据将是这个行业的一个主要障碍。
文章的通讯作者之一,冷泉港实验室的Michael Schatz教授认为,数据挑战是当今生物学面临的最重要问题之一。“天文学和粒子物理学的大数据科学家们过去认为基因组学的数据量微不足道。但我们正在追赶,很可能超过他们,”Schatz说。
这个数据到底有多大,我们可能都没有概念。从YouTube说起,它每年产生的数据大约在100 PB。1 PB相当于1024 TB,也相当于1024x1024 GB。目前,通过基因组学所产生的所有人类数据大约占了YouTube每年数据产量的四分之一。Schatz说,如果这些数据刻在4 GB的DVD里,那么DVD可以堆到800米高。
然而这个领域才刚刚起步。科学家预计,到2025年,大约有10亿人完成了基因组测序。因此,基因组学所产生的数据量每7个月就会翻一番,未来十年内,基因组学每年所产生的数据大约在2-40 EB(1 EB = 1024 PB)。那么,前面提到的DVD可能要堆到太空了。
这项研究是一个很好的例子,说明了人类遗传学的复杂性如何与宇宙科学的复杂性相媲美。Schatz开了个玩笑,分析人类DNA所用的数据是如此之多,也许以后大家不再说天文数字(astronomical),而是说基因数字(genomical)。
在某些时候,科学家可能不存储所有序列,从而节省空间。不过在此时此刻,这种数据裁剪并不实际,因为人们难以预测未来的医生需要哪些数据,特别是在面对更广泛人群时。
目前,大多数的研究团队都通过现场的硬盘来存储他们的数据。例如,纽约基因组中心一天产生10-30 TB的数据,并存储在现场的系统中。他们会将不经常使用的旧数据移到更便宜、更慢的存储设备中。副主任Toby Bloom表示:“最大的障碍是追踪我们所拥有的,并找到我们所需要的。”
同时,数据量并不是这个领域面临的唯一问题。生物数据是从许多地方、以不同格式收集的。与互联网数据不同,基因组数据的多样化使人们难以使用不同数据集中的数据。
如今,亚马逊和谷歌等公司正在开发基础设施将基因组数据放入公共云,这对一些IT人员有限的小型基因组中心特别有用,同时也促进了合作。谷歌近日宣布与Broad研究院合作,旨在向科学家提供云服务以及研究所开发的工具。这个概念是将一堆基因组数据放在谷歌的服务器上,让全世界的科学家在单个平台上合作。
本文来源于:生物通
欢迎关注中科紫鑫人事招聘相关信息:http://www.ngscn.com/index.php/Job/employ