运算15万兆数据,云端计算解开人类基因奥秘

中国生物技术信息网,2012-09-16

云端计算不只为大公司带来好处,也有助于解开人类基因奥秘! 

云端计算助阵 一口气发表30篇基因解码.

9月5号当天,ENCODE一口气发表了30篇关于人类基因解码的论文,有别于过去认为99%的基因是不带讯息的垃圾基因,该计划揭开了大约80%人类基因所表现的运作功能。

ENCODE为Encyclopedia of DNA Elements的缩写,设立该计划就是为了解开人类基因密码,然而想实现这庞大的愿景就必须集众人之力。

来自世界各地共32个研究团队加入了该计划,共同在147个以上的组织样品做了1600多个实验,可想而知实验的数据量必定相当庞大,光从论文所释出的数据就有15兆位元组。

为了让不同实验室都能产出正确且有价值的数据,ENCODE有个数据统整部门(ENCODE Data Coordination Center),从ENCODE的新闻稿中可一窥该部门的运作模式:

对Kent(该部门的负责人)和他在加州大学圣克鲁兹分校(UNSC)的团队来说,计划的规模带来许多挑战,像是在计划初期,他们就需组织起各个参与计划的研究团队。

Kent表示:“为了能让各研究团队协同运作,我们有五位负责前往各实验室进行数据统整的人员,每周还可能有最多四次的研讨会,并外加一年两次的大型会议,更别提无数次的email往返及视频会议。”

除了 ​​上述的讨论模式,ENCODE的研究团队还开发了许多云端运算的软体及讨论平台:

  1. ENCODE-motifs:能在资料库中根据不同主题做系统性归类。
  2. Factorbook::参考维基百科的运作方式,提供由使用者共同编译所有相关资讯的平台。
  3. HaploReg and RegulomeDB:对资料库中未编码的基因进行分析、比对及归纳。
  4. Tutorials on using ENCODE data and the ENCODE portal at UCSC: ENCODE的资料库使用教学模组。
  5. ENCODE Virtual Machine:云端式虚拟操作系统。

Facebook每天500兆数据,企业也要靠云端找出数据价值

这已不再只是个跟大量数据有关的故事,还参杂了云端运算与科学应用的情节。

然而不只有ENCODE面对着大量数据与四散各地的子部门,大型(国际)企业也常在诸如此类的状况中挣扎着,像是Facebook就曾说每天会收集到500兆位元组的数据,如何挖掘出数据的价值就显得非常重要。

ENCODE的运作模式及发展软体的用途已勾勒出分散式合作与管理的未来,诚如云端计算服务商Appistry的副总裁Sultan M. Meghji所言:

“数据的品质及科学深度才是这堆数据中的重点,这也是我们着重于科学式作业的原因,若能有前瞻性的运作过程,并收集到高品质且具可重复性的数据,才能最有效地发挥数据的价值。”

;