华大基因 凭BT+IT优势打造“生物谷歌”

对海量生物信息数据的处理分析能力难以复制

在2013年11月10日举办的腾讯WE大会上,腾讯公司董事会主席、首席执行官马化腾在演讲中,用大量篇幅表达他对同处深圳的华大基因的生物技术与信息技术结合即BT+IT模式的兴趣,指出数据将成为越来越重要的资源,引起各领域的广泛关注。

以数据为驱动力的研究正引发现代生命科学领域的巨大变革。实际上,除了腾讯,大数据在生物、健康等领域的应用前景已经引起国际大公司的注意。IBM此前就将沃森超级计算机投入到医疗领域,目前沃森已经走进美国的医院,通过查看病历信息,结合大样本数据,可以处理电子医疗记录,帮助医生对病人提供信息辅助疾病诊断。

深圳华大基因研究院助理院长、深圳国家基因库负责人张勇日前接受南方日报专访时表示,在外界看来,早期的华大基因似乎像是一个巨型数据生产机,被很多人误认为是“生物领域的富士康”,但华大基因对海量生物信息数据的处理、分析和解读能力,是其跻身国际基因组领域一流研究机构的关键要素,这种优势使其越来越难以复制和替代。全球顶尖科研机构和企业都通过与华大基因的合作来强化自身在组学领域的能力,加速自身的研发进度,以便将相关科学发现、新技术更快地推向产业化。

多年来一直很重视大数据的华大基因,正在构建一个“数据王国”,提出打造“生物版谷歌”的未来畅想,对于生物技术与大数据碰撞的前景表示乐观。

南方日报见习记者胡明记者马芳

做生命科学研究的玩IT是“不务正业”?

“华大基因从成立的第一天开始就是生命科学领域里玩数据的,特别是大数据,很多人对华大基因的不理解和争议也正是在此。他们认为,生命科学研究就是应该做实验,华大基因是不务正业。”张勇说,华大基因做人类基因组测序,涉及很多大数据的问题,从1999年成立之初,华大基因就对数据非常重视。

“测序是一项基础工作,华大基因真正的不可替代性恰恰在于对大量数据的存储、计算、分析、挖掘能力。从诞生之日起到今天,华大基因在生命科学数据信息方面的计算、存储、分析能力一直走在世界前列。”

张勇回忆,华大基因自成立初就开始部署计算机资源,从曙光2000、曙光3000等超级计算机,到之后的Sun、IBM、SGI等商用超级计算机,同时对信息领域人才的引进一直非常重视。目前,华大基因自有设备已达212TFlops峰值的计算能力,存储能力达20PB。拥有一大批生物信息人才,数据领域人才直接与各项目对接。

2010年,华大基因购入了128台世界上最先进的DNA测序仪器,当时每台市场报价约70万美元。如今的华大坐拥178台不同品牌的测序仪,每年可实现5万人的基因组测序,数据生产规模达到近5PB,输出的数据量占全球DNA数据总量的47%。

华大基因正在筹划百万人的基因组测序项目,未来两到三年,数据生产量将达到百PB级。为适应海量生物信息数据存储、处理、分析与应用的要求,华大基因必须花大力气,提前布局。

“2010年我们曾经有过讨论,超级计算机是解决华大基因生物信息难题的瓶颈,当时我们就想自己买一部千万亿次以上计算能力的超级计算机,但计算机贬值很快,权衡利弊,最后考虑与超算中心合作。”

去年,华大基因与国家超级计算天津中心签订战略合作协议,将天津超算中心的计算能力、国防科技大学专业能力和华大基因在生命科学基因信息方面的开发能力相结合,快速求解大量计算的生物信息难题。

张勇透露,华大基因与国家超级计算深圳中心的合作正在磨合中,与国家超级计算机广州中心的深度合作模式也已经开始探索。华大基因将与这些超算中心联手,从高性能计算应用研发领域入手,发挥天河一号、天河二号、深圳超算的计算能力,针对海量数据的储存和处理,开发出高质量的生物信息学计算分析工具,对现有生物信息计算软件分析流程优化。此外,华大基因一直没有停止与IT公司的接触,不断探索未来与之开展合作的可能。

不仅仅是与外部合作,华大基因也一直从自身出发,寻求各种办法解决大数据问题。去年4月,华大基因宣布成功构建自主开发的云计算服务产品——EasyGenomicsTM,目的正是为组学研究领域的科研人员提供快捷、准确和易于操作的新一代测序分析服务,从而更好地应对及解决海量生物信息数据的存储、处理、计算和分析等问题。

“将来我们将面对巨大的数据存储需求,目前合作伙伴很多没有那么大的存储能力,这是一个尴尬局面。而且,数据存储成本很高,1T的数据存储3年大概需要一千到两千元费用。”张勇说,华大基因仍将继续寻求解决大数据问题的方法。

BT+IT将大大改变医疗、保险业

“目前大家在大数据方面的探索主要还是在娱乐、消费行为等方面,而生物、健康、农业等方面的前景还没有被充分认识,还有很多人还不了解。”据张勇介绍,华大基因作为一个研究机构,所发表的重量级论文几乎每一篇背后都是高达TB级的数据产出。华大基因对于大数据今后在商业领域的应用十分乐观——BT+IT一定会变成一个个产业应用。

华大基因曾被人称为“生物领域的富士康”,因为在外界看来,早期的华大基因更像是一个巨型数据生产机。张勇觉得,也许早期的华大基因是可复制的,但现在华大基因所拥有的对海量生物信息数据的处理和分析能力是难以复制的。“信息处理是更重要的,基因测序反而是获取原始数据的辅助手段而已。”

张勇说,华大基因的愿景是用基因科技造福人类,现在正逐步拉近基因与百姓健康的紧密联系。他向记者描绘了这样一幅场景:“现在医生为病人诊断、治疗更多凭借经验,没有大数据在背后支持,如果有大数据支持,医生在诊断、治疗时会有更多依据。比如他可以告诉病人,过去吃这个药的病人中75%都好了,此药只对剩下25%的病人无效,甚至还可以通过数据积累、分析,发现影响药效的基因层面的原因。”

临床数据的积累目前还没有太多人涉足,但这种数据的积累将会改变目前的医疗现状。“比如验血,有些指标正常值范围很大,结果非常模糊。如果有大数据的应用,就可以通过对大量临床数据的分析,呈现不同年龄区间、不同性别的病人的指标情况,给予病人更精确的判断。”

“现在可穿戴设备中的数据都是体温、心率、脉搏之类非常表象的体征数据,还没有涉及基因层面。”张勇认为,现在炙手可热的可穿戴设备领域,BT+IT模式将会有更大的发挥空间。

据介绍,目前,华大基因进行一个人全基因组测序的费用在万元级别,未来可能只要花一两千元甚至几百元就可以完成全基因组测序。“这些测序后得到的基因信息会为疾病诊治提供辅助信息,开始可能会不够成熟,但随着越来越多人参与、使用,大量数据的不断积累,一定会越来越完善精准。从一种疾病扩展到多种疾病,从分子机制上探讨解读人们的健康状况。”

此外,基因大数据还会影响和改变农业育种、环境保护等各个方面。“大数据像一盏盏路灯亮了,照出未来整个生物产业的全新方向。有了大数据以后,我们很多传统的做法会被颠覆,原来不敢想、做不了的东西,会很清晰地浮现在眼前。”张勇认为,这些目前看似遥远的场景将会很快成为现实,它“不是5年以后才会发生的事,而是5年之内就会发生的事”。

;