NoSQL如何处理生物医学大数据
中关村在线, 2012年06月01日
大数据区别于海量数据的一个重要特质就是处理大量混合结构的数据。在生物医学领域,有很多这类数据需要处理。军事医学科学院卫生勤务与医学情报研究所副研究员王玉峰在第四届中国云计算大会上分享了,他运用NoSQL处理生物医学大数据的过程。王玉峰表示,大数据整合应用涵盖健康管理数据,海量测序数据;而大数据管理、整合、分析则是大数据下IT的挑战。
王玉峰表示,生物医学是融合了医学、生物学包括工程学、信息技术的关联学科,应该说基于信息技术,把研究过程衔接起来,他们想通过基因工程研究怎么样把基础医学研究成果更好的从药物研发、药物研发来整合,我们可以通过这个图表简单看一下,这个图表是五年来关于癌症研究与药物靶点基因研究的文献,在信息技术推出,生物医学逐渐转变成重要的研究领域,并且在经历大数据的冲击。第一个大数据来源,是高通量,个性化诊疗基本通过人与人的基因差异,指导个性化的用药,进异步增强诊疗的针对性,这种过程是比较复杂的,花费30亿美元。
大数据的四个来源
2005年这项技术高速发展,它的测序能力每五个月翻一番,蓝色的线存储的变化趋势,红色的是测序能力增长。如果一旦按照这个趋势发展,有人预测到2015年全世界有100万人把自己个人的测序能够问题,现在可以想象,如果随着生物学技术研究,如果能更好的指导个性化诊疗和用药,对于人的健康和医学影响是不可估量的。
我们可以看到计算能力和测序能力逐步增加。
大数据另一个来源在药物研发领域,也是在生物学的发展,药物研发发展模式通过寻找癌症,寻找药物靶点,在化合物中寻找发现化合物,从前面基础研究到后面基础设置,相当密集型的过程,对于中小型的企业也在TB以上的。
第三个数据来源是临床医疗,实验室数据,不这些数据整合在一起,使得医疗机构面临的数据增长非常快的,美国的匹斯堡大学医学中心UPMC达到两个TB。
第四个大数据来自于健康管理,移动医疗是这两年非常热的领域,企业调查说会达到14亿美元,比2010年翻了10倍,便携化的生理设备,随着移动互联网的发展也是大大普及,特别Web2.0的健康服务与健康网络,关于自己个体健康信息,如果都能连入互联网这个数量不可估量,移动互联网8亿,可以想像这是未来的重要的大数据来源。
以上我们看到的生物学领域关于大数据四个主要的来源,事实上这四个数据来源并不是孤立的,未来生物研究学的人士希望数据整合出来,挖掘分析能够支持临床的决策,要想实现这样的目标或者说我们可以看到面临大数据诸多的管理者和分析利用的诸多挑战。事实上,这些挑战解决非常难,现在利用云计算技术有些先行者和创新者公司和企业也尝试用云计算解决若干个问题,并且也已经有了初步的成果,利用云平台,云这样的基础解决方案以服务的形式发布出来,可以让一般的中小规模的科研机构,研究所,能够享用这些开放服务,站在别人的肩膀上继续前进。
生物学大数据应用的四个方面
下面从四个方面来重点介绍一下在云出现的比较有影响的在云端生物学大数据的应用。这四个方面分别是基因测序,临床药物研发管理以及健康管理。第一个案例是Crossbow,这是对全基因分析的流程软件,它的意义在于原来开发之前,完成一个人健康分析的在单个服务器,这软件通过亚马逊云平台上的Hodoop把时间缩小了。结果来看,它现在在32CPU核上任务压缩3小时不到,整个成本不到100美元,这是众多工作中的一部分。从Crossbow项目开始,事实上相关公司投身到怎样利用云计算加速DNS数据的分析,其中有个比较重要的叫DNAnexus,我们可以看到公司提供的服务初衷在实验室经过测序仪,人类基因测一次数据,原始数据在100个G到600个G之间,通过服务导入到云服务平台,后来提供了非常灵活的多样化的各类各样的关于数据的测序分析和比对的工作流程,数据可以有效的管理起来,并且测序结果能够很好的以用户很好的形式展现出来,或者把第三方数据安全可靠共享出来。
这是它的基本业务的图,这个公司比较有名的一点,在去年谷歌投了1500万美元,和谷歌一起接触CPI的数据库,它原来是基于亚马逊的平台来承载它的测序分析服务,当时号称用了亚马逊10个CPU,未来会迁移到谷歌云平台来。除了DNAnexus美国研发投入非常快,也有些公司做类似的工作,因为这个领域中,基于基因测序的分析,所产生的这种无论是指导对方的诊疗,数据挖掘方面意义都非常之大。
第三是临床医疗数据管理应用,美国的公司Explorys,它是基于私有云的模式,向第三方机构提供服务,第三方机构可以把自己临床数据、运维数据财务数据托管到这个平台来,这个平台提供最大的好处能实时提供数据分析,这个规模托管了1300万人,大概4400亿的内容,数据规模在60个TB左右,2013年达到70个TB,顶层技术在Hodoop上走的。
第四个应用是电子病历,这个公司也是美国的公司,叫Practice Fusion,美国这种是中小之多,降低成本可以使用Saas的方式,他们规模有10万个,两千万个注册病人,提供的功能医生安排,病人的诊疗计划与签约,甚至面向病人个人的管理,他们也会提供。
第五个应用基于临床的医疗方面的应用,这家研究中心是德州大学安德森肿瘤中心,在全美名列前茅,满足自己医院临床诊疗服务,民像分析服务他们自建了私有云,提供了资源合理的虚拟化和动态的处理能力,私有云现在来看,它的能力在八千个处理器并且能够支撑三个TB以上的数据,他们承载能力非常多样,包括肿瘤的病理学的研究、流行病学,对于病因的精准预测和模型研究,他们之所以承建打算用私有云技术来解决,他们有两方面考虑,一方面是大型私人医疗机构很关心病理的问题,他们数据规模相当大,用了10亿张的数据,据他们CIO说,他们几家大的提供商来交流,发现公有云给他们提供的服务平台的服务质量保证, 可能没有办办法接受,所以打算自己投资建立私有云的数据中心。
第六个案例是药物研发过程管理,药物研发管理是耗时非常长,数据量非常庞大的过程,日本富士通公司针对研究过程中的数据管理提供了Saas服务,这个服务主要面向日本的中小型企业,在美国有一家公司做得比较好,AMAG,这家公司2009年完全把IT业务,自己不买服务器,并且所有的业务都是采用SaaS模式的软件服务,目前他们使用了很多家的SaaS服务,包括存储,他们现在在Egnyte存储量达到6TB,他们这个非常鲜明,目前来看,他们数据安全得到有效的保证。
最后案例介绍的微软的HealthVault,很多人应该知道这个平台,它是2007年发布的,目标希望来管理个人及家庭的健康仪,现在达到功能比如说手中可以来录入上传,可以从便携设备,到第三方的机构导入病历记录,通过提供开放的SDK或者开放的接口支持与第三方应用的集成,提供实现了Store的模式应用。这是微软自己私有云,现在 号称这个云往安卓上迁移,前段提供了Web,生理检测设备提供了标准接口的模式。对以上的发言做个小结,可以看到在生物医学的大数据应用领域,已经尝试大数据的来做,他们更多的基于无论公有云还是私有云,最终都是希望能够提供把大数据能力开放出来。现在从大数据研究来看,都是在欧美。
可以说从以上应用可以看到,很多厂商他们考虑利用云计算处理大数据的时候更多考虑安全和带宽成本问题,大数据集中在本地,极端在云端数据交换开销往往使你的业务性能非常受拖累,之所以很多应用迁移到云端重要的考虑大数据本身也在往云端迁移,特别在生物医学领域现象非常明显,在亚马逊,现在包括生物医学领域这种TB的数据,在亚马逊都有很好的做法,你在上面部署数据流程的在亚马逊自然可以使用这些数据。云计算在Hadoop起到了非常重要的作用。可以看到随着测序技术的普及,临床病历,生物学快速运用进入常态化,我们面对各种应用基本都是大数据应用,云计算为大数据应用提供了很好的模式,我们应该推动医学数据的整合与应用,并且借鉴Marketplace的模式来构建我们自己的生物医学的数据集资源。