未来十年,基因数据要堆到太空里?
近期《PLOS Biology》刊登的一项研究表明,极其复杂的人类基因组研究在经历15年发展历程后,正面临一个紧迫的挑战:随着基因组测序数据以指数级的迅猛发展,如何获得更大更好的存储空间,来存储和管理所有的数据?该研究的共同作者,纽约冷泉港实验室教授Michael Schatz将数据挑战称为是当今生物学面临的最重要的问题之一。
令人惊讶的大数据
Schatz说:“基因组学的发展速度,已让科学家们感到非常震惊。过去,科学家们认为相较于天文学和粒子物理学领域产生的大数据,基因组学的数据量微不足道。现在我们正迎头赶上,可能还会超过他们。人类基因组及其复杂,分析难度很大,也许会出现一个类似于‘astronomical’的词----‘genomical’。”
YouTube网站每年产生大概有100PB数据(1PB=1024TB ),现在基因组产生的全部数据量,占YouTube年度数据量的四分之一。将这些数据及其相关信息,全部记录在4GB的DVD上,堆起来将有大约半英里高。但这只是开始,科学家预计到2025年将会有多达10亿人次的基因组数据,而且每七个月基因组学产生的数据量将增长一倍。所以在未来十年内,基因组学的年增长量会介于2~40eb之间(1EB = 1024PB)。如果全部存储到DVD里面,这些光盘堆起来可以进入太空了。
云服务能解决存储难题?
科学家们也许能够像管理粒子物理学数据那样,在数据产生的时候边读取变过滤,通过不存储所有的序列来节省空间。但文章表示,如此过滤数据不太实际,因为会遗漏医生需要的基因信息,尤其是在进行大规模基因研究时。
现在,大多数基因组研究机构通过本地的硬盘来存储数据。例如,纽约基因组中心每天生成的数据大约在10~30TB之间,并将其存储在本地设备中。科研人员将不经常使用的旧数据存贮在便宜的、慢的设备中。科学中心副主任Toby Bloom说:“虽然我们在不断地提升存储能力,但是现在最大的问题是如何弄清楚我们拥有什么,并从中找到我们需要的信息”。IBM正在运用引以为傲的沃森超算处理肿瘤基因组数据,希望为癌症病人提供个性化的医疗。
有的科研机构正在关注将数据储存在云端。亚马逊和谷歌等IT巨头正在开发公共云平台来存储基因组数据,这对中小型机构特别有帮助。最近,谷歌宣布了一项与麻省理工和哈佛大学共同合作的项目,为科学家提供云服务以及在线分析工具包。该项目的推出希望将世界上的基因组数据存储到谷歌服务器上,使得全世界的科学家能够在同一平台上进行合作。作者们表示非常看好这种云服务的模式,并且认为意义重大。
本文来源于:测序中国
欢迎关注中科紫鑫人事招聘相关信息:http://www.ngscn.com/index.php/Job/employ