云计算和大数据延伸至生命信息领域:生物云计算

随着互联网的普及和技术的发展,大数据和云计算已经渗透在人们的生活的各个方面,在金融,零售,能源,交通等领域已经得到广泛应用。而对于生物信息来说,生物的DNA、基因序列、生物芯片等无时无刻不产生新的数据;比如说,DNA测序每年能够产生大约150亿兆(PB级)的数据,如果将这些数据存储在DVD中,那么刻录出来的DVD能够达2.5英里高。生命科学的数据来源和形式多样,包括基因测序、分子通道、不同的人群等。每个临床试验需要千上万病患的数年统计资料,而DNA测序的每个样本产生的数据则以兆兆位计算;如果能高效、高速地利用这些大数据,无疑将为生命科学领域带来无限机遇,但如何分析利用也带来了全新挑战。生物云计算便能很好的解决这些问题;

1)云存储:利用世界上成百上千台服务器云,通过分布式计算系统,取得廉价、便捷的服务;

2)云计算与大数据分析:通过大数据处理软件将复杂,繁琐的数据通过可视化,简单化的方式呈现出分析结果。

大数据,云计算,生物医学——三个炙手可热的关键字和在一起会是什么效果?从应用角度出发,这个可以是SaaS,可以是PaaS;下面介绍一些国内外的生物云计算公司,从四个方面来重点介绍一下在云出现的比较有影响的在云端生物学大数据的应用。这四个方面分别是基因测序,临床药物研发管理以及健康管理。

1) DNAnexus
DNAnexus 是一家致力于打造云端 DNA 数据库的创业公司,并把这些数据提供给研究人员和科学家。目的是将更多基因存储至云端,实现基因的便捷的访问和对比分析。该项目同时还提供人类基因数据备份,基因检索和配对等。通过检索和配对,医生可以从数千万的基因信息中找到对病人有效的药物。目前 DNAnexus 的用户已经包括斯坦福大学和哈佛大学等高校,制药公司,某些医生也会通过DNA 信息来诊断病情。公司提供的服务初衷解决在实验室经过测序仪大量数据的问题,人类基因测一次数据,原始数据在100个G到600个G之间,通过服务导入到云服务平台,后来提供了非常灵活的多样化的各类各样的关于数据的测序分析和比对的工作流程,数据可以有效的管理起来,并且测序结果能够很好的以用户很好的形式展现出来。该公司获得Google领投的1500万美元的融资。2014年1月,Google基因组开启了基因组云存储服务,目前谷歌基因组存储数据费用为100GB数据25美元一年,可满足单个人的原始基因信息存储。且在经过谷歌特殊算法的处理后,可压缩至1GB,费用也将降至25美分。

2)Seven Bridges Genomics
SevenBridges Genomics是美国一家创业公司,主要提供基因排序研究和生物制药产品服务,实现生物信息的可视化,数据分析等方面。Seven Bridges Genomics在人类基因组排序和分析中综合应用了云计算和NoSQL数据的技术,比如EC2、S3和MongoDB。为了降低数据存储成本,他们还采用了Glacier。Seven Bridges PaaS提供了一个设置数据通道的界面,这些通道可以基于预定义的模型,也可以根据当前任务进行调整。

3)crossbow
Crossbow是一款能够用于完整基因组重新排序分析的工具。经过对多个类库进行整合,它可以借助AWS只花不到100美元的成本在3小时之内分析完一个人类基因组。对于有志于从事生物信息的开发人员来说,这是一个非常好的工具。这是对全基因分析的流程软件,它的意义在于原来开发之前,完成一个人健康分析的在单个服务器,这软件通过亚马逊云平台上的Hodoop把时间缩小了。结果来看,它现在在32CPU核上任务压缩3小时不到,整个成本不到100美元,这是众多工作中的一部分。

4)Explorys
Explorys公司成立于2009年,是一家临床医疗数据管理应用公司,是克利夫兰诊所派生的创新公司。公司利用大数据提高医疗水平和服务质量。公司通过最强大的医疗计算平台把各个系统的数据联系在一起,提供完整的临床整合、高危人群管理、医疗费计算解决方案以及业绩计薪解决方案。该平台拥有2050亿临床、财务、运行数据元,覆盖3800万名患者、300家医院、215,000多名医疗服务提供者。18家大型综合医疗系统正在使用可靠的Explorys云计算平台确定疾病的类型、治疗方案和治疗效果。它是基于私有云的模式,向第三方机构提供服务,第三方机构可以把自己临床数据、运维数据财务数据托管到这个平台来,这个平台提供最大的好处能实时提供数据分析,这个规模托管了1300万人,大概4400亿的内容,数据规模在60个TB左右,2013年达到70个TB,顶层技术在Hodoop上走的。

5)Illumina
Illumina公司是遗传变异和生物学功能分析领域的优秀的产品、技术和服务供应商。Illumina销售各种各样的DNA相关产品,包括基因测序仪器、分析相关数据的软件和服务。通过帮助客户加快实现生物信息的采集、分析和应用,来改善人类健康。当前,Illumina拥有基因组测序仪市场70%的份额。公司今年1月,Illumina发布了新款高端基因测序仪,可以准确测出全基因组序列,而成本还不到1000美元。当前,基因组测序已经不再是一个简单的研究工具,读取人类全部DNA的费用已经降至足够低,甚至可以用来解决一些医疗问题,并确定治疗方案。

6)癌症云存储
2014年9月24日,美国癌症研究中心在美国联邦政府商务机会网站上发出公告,其于今年1月发起的癌症基因组云计算平台试验项目花落The Broad Institute,Institute for SystemsBiology和Seven Bridges Genomics, Inc.,三家分别获得了700万、650万和580万美元的资助。NCI启动此项目时发布的Broad Agency Announcement很好地阐述了一个大型科研机构或科研项目对云计算生物信息系统在各个方面的要求,包括核心数据、架构、计算服务、分析能力、权限管理、安全性、可扩展、数据标准等等,并提出了如何从这些角度评价一个云计算生物信息系统的基本考虑。

中国生物云计算公司
在中国,在基因组学为代表的生物数据分析市场上,围绕在我们身边的似乎只有华大基因、诺禾致源、药明康德、贝瑞和康、美吉生物…其实,这个市场远比我们想想的精彩。随着以阿里云为代表的国内公共云计算服务的成熟,以及AWS进军中国的脚步不断向前,国内基于云计算的生物数据分析创业公司也开始涌现,小编今天为大家详细介绍下国内云计算生物信息公司的情况:

1) 华大科技
华大科技基于成熟的商业云平台和先进的超算资源,为客户提供涵盖云计算、云存储和云交付的一体化服务。目前主要有:生物信息分析整体解决方案(BGI Box),基于云的生物信息分析,数据云交付和数据库网站建立。

2)荣之联
荣之联手握当下最热门的云计算项目,成为IT板块又一生力军。荣之联为数据中心解决方案产品化项目、营销服务网络扩建项目、生物云计算数据中心开发和建设项目以及其他与主营业务相关的投入。以生物云作为突破口,凭借十多年的行业应用经验,荣之联选择了生物行业作为突破口。生物信息学属于新兴行业,一般传统的想法认为生物学研究还是在试验室里用试管进行试验,其实现在已经进入到分子生物学阶段,构成DNA的碱基序列信息一旦从测序仪中测出来,后续大量的工作就基本上是计算机的工作了。如今,荣之联正努力将华大基因建设生物云的经验推广到整个生物研究领域。除了生物云,荣之联还在打造政府云、动漫云等,并且致力于让这些“云”落地。

3)基云惠康
公司专注于人的外显子测序数据分析和全基因组测序数据分析服务。Illumina专用于人全基因组测序的X Ten今年在国内的测序设备市场上俨然就是高大上的代名词,基云惠康专注于人的全基因组测序数据分析也是自然而然的选择。外显子测序数据分析应该只是初创期顺便做做的服务。

4)聚道科技
聚道科技(http://genedock.com)的创始人李夏戎是中科院自动化所的博士,在阿里收购友盟之前是友盟的首席数据科学家。前阿里云ODPS的产品经理,王乐珩也加盟了这个团队。在加入阿里云之前,王乐珩是中科院计算所pFind的项目经理。移动互联网加云计算背景的团队杀进生物数据领域,在投资人看来绝对是热门之选——百万美金的投资应该是已经入袋。从其网站上的Demo来看,其作品很像Seven Bridges和DNANexus。

5)华为生物云
华为生物云聚焦国内市场,适用于基因工程、蛋白质工程、生物制药等需要高性能计算的业务的华为生科云解决方案这次也为我们带来了惊喜。华为生科云解决方案,由HPC工作流、弹性计算云、对象云存储、线下数据寄送服务四部分组成,为客户提供端到端的解决方案,助力中国科研数据分析,演绎了生物与计算的完美结合。

;