【困局2】生物医学的“数据冰山”
无论是否愿意,如今每个人都置身于大数据时代之中。如果你浑然不知,那么来看一组数据。
据国际数据公司和数据存储公司希捷开展的一项研究发现,2018年全球约产生33ZB(1ZB=1012GB)的数据。其中,中国约产生7.6ZB的数据,预计到2025年该数字将增至48.6ZB;美国约产生6.9ZB数据,预计将在2025年增至30.6ZB。
在这些海量数据中,生物医学大数据是增速最快的大数据,贯穿从基础研究、药物研发、临床医疗到健康管理的所有环节,甚至还催生了一系列生物医学大数据产业。
任何高科技都是双刃剑,生物医学大数据自然也不例外。在一切可以用数据“雕刻”的时代,还有很多问题值得我们思考与应对。
海量数据的烦恼
随着高通量测序技术的发展与应用,生命科学领域的数据量正在极速增长。特别是随着新一代测序技术的发展,测序代价由过去每个基因组数百万美元下降到1000美元左右,从而使生物医学数据的产生和获取能力得到革命性的提高,以基因组学数据为核心的生物医学大数据呈爆炸式增长。
如此海量的数据宝库中,既存在着“珍珠宝石”,也难免充斥着大量“砂砾”。正如中国科学院计算技术研究所高性能计算机研究中心主任谭光明向《科学新闻》指出的那样:“数据质量参差不齐。”
这一点也得到了一份来自国际数据公司的研究报告的证实。该报告显示,有意义的数据只占全球数据量的1.5%。
谭光明介绍,由于生物医学研究涉及的数据来源极其广泛,数据类型很复杂,这就对数据的处理能力提出了更高要求。比方说,对来自生物样本库和病历资料库的数据进行“提纯”,既要保证数据的质量,又要兼具可信度,这无疑给数据分析人员带来了极大挑战。
此外,试验人员的差异以及仪器设备各自不同的数据输出格式,也让生物医学大数据的处理难上加难。
“数据多了,但价值却没有完全体现出来。”中国科学院—马普学会计算生物学伙伴研究所所长王泽峰对《科学新闻》直言,“如何将纷繁复杂、不断扩容的数据整合起来进行系统研究与挖掘,这是一个巨大的难题。”
标准化之难
然而,要进行跨平台整合研究,首当其冲地便是要解决标准化问题。
这些生物医学大数据可能来自不同的科研机构、实验室、医院、社区卫生机构以及千差万别的日常健康监测设备,它们都没有统一的规范标准,自然难以实现标准化的数据分析。
以医院为例,根据中国医院协会信息管理专业委员会(CHIMA)发布的《2017~2018年度中国医院信息化状况调查》显示,医院全部采用统一信息编码体系的比例仅占28.10%。
实际上,临床医疗数据大多是在业务过程中产生的,其录入目的各不相同,每家机构、每个系统的标准、接口规范均有差异,即便同一家医院在不同信息化系统中的数据都难以实现互联互通,更不用说不同医疗机构之间的数据流动了。而通过移动终端收集的患者行为数据和体征数据,标准化程度就更低了。
数据标准化的缺失,直接影响后期的数据分析与共享,这往往令研究者无所适从。“各个机构有各自的标准,收集到的数据质量良莠不齐,再加上运用不同的解读方法,往往分析与结论会‘失之毫厘,谬以千里’。”中国科学院计算生物学重点实验室生物医学大数据中心副主任张国庆对《科学新闻》说。
不少专家对这一点表示赞同。“目前有太多种分析蛋白质组学数据的方法,因此对数据的解释存在主观性。”澳大利亚帕克瓦拉的沃尔特和爱丽莎霍尔医学研究所的系统生物学和个性化医学部门负责人Andrew Webb如是解释。
标准化的困境是全行业共同关注的焦点,在信息技术与生物医学发达的美国亦不例外。美国劳伦斯伯克利国家实验室基因组科学部主任Rubin就曾指出,理想状态下的目标是建立统一的电子病历系统,这些信息应该有统一的标准。但现实并非如此,不同机构和资料库产生与存储的数据均遵从不同的标准。
在标准化建立的道路上,国际上已有一些积极的探索。比如,2013年,全球基因与健康联盟成立,其旨在建立统一的管理和操作方法,以促进基因研究和人类健康;同年,ISO/TC276生物技术标准工作委员会在德国成立。
然而,之于蓬勃发展的生物医学大数据行业来说,这远远不够。
技术开路乏力
毋庸置疑,分析数据要比产生数据困难得多。
当下,生物医学大数据以快过摩尔定律的速度急剧增长,远远超出了传统的信息处理能力。特别是对于诸如生物医学文本数据、临床电子文档这类非结构化的生物医学数据的分析,传统的数据库技术与计算方法已难以应对。
“就目前而言,算法确实不够先进,至少是从算法和流程的自动化和智能化方面仍不够先进,难以应付PB-EB量级的生物医学数据的分析,全世界都面临这个瓶颈。”华中科技大学生命科学与技术学院生物信息学教授宁康向《科学新闻》表示。
与此同时,生物医学大数据分析并非标准化的分析过程,需要根据结果不断地调整参数与优化流程,因此对于生物医学信息分析软件的性能要求很高。但在实际分析过程中,“生物信息研究人员更多的是边计算边修改‘脚本’,致使很多性能损耗,效率极低”,张国庆指出。
此外,王泽峰认为,“如何将已有的较好算法用好的模型转化成可靠的工程性软件来解决常见问题,即基础算法的实用化,并应用于生物医学大数据研究中,是值得探索的方向之一。”
而令谭光明焦虑的是如何将实际的临床场景与算法紧密结合起来,最终解决临床应用的难题。
“虽然我们有了一些好的算法和模型,却对真实临床应用问题的了解不够,很难具有针对性地对复杂性患者的问题给出指导。”他形象地比喻道,“这就好比我有锤子和钉子,但是不知道精准的目标,也就不知道往哪儿钉。”
诚然,挖掘生物医学大数据的价值,算法和软件上的创新与突破至关重要,数据计算能力的提升同样是海量生物医学数据高效处理的掣肘。其实,近25年来,数据计算能力已得到了显著的提升,可即便如此,在王泽峰看来,“适合生物医学大数据的算力并没有完全达到”。
一方面是难以达到实时分析与临床处理的程度。“不论是2C(到个人用户)还是2B(到机构用户),目前生物医学信息分析绝大多数还是以周为单位。”宁康解释道。另一方面,要获得算力,主要还是依靠自建大量的数据中心、机房等基础资源,成本较高且部署周期长。
“而且由于设备过于庞大,目前用的也还不多。”谭光明表示,“怎样将高性能计算的一些设备做小做精,变成科研人员唾手可得的技术,是我们正在努力的方向。当然,目前我们也取得了一些进展。”