大数据催生大生物学


“大数据”是如今最炙手可热的概念之一,但也容易被人曲解。

名字本身意味着海量的数据,然而这只是一个开始。总体来说,大数据包含有三个“v”:数据的容量(volume of data)、数据处理的速率(velocity of processing the data)和数据源的多变性(variability of data sources)。这些都是要求使用大数据工具进行分析的信息的关键特性。

尽管生物学家为了收集足够的数据,已经努力了数十年,但位于弗吉尼亚州阿什本的乔治华盛顿大学计算生物学研究所主任Keith Crandall表示,“生物学的新瓶颈在于大数据问题。”他举例指出,2002年4月公布的第一个人类基因组序列,集中了来自20个研究所的专家、基础设施和人员,历经13年的辛劳,花费了大约30亿美元,获得了大约30亿个核苷酸的顺序。Crandall说,如今“测出一个人的基因组仅需1000美元,一周就可以产生超过320个基因组。”

随着生命科学家开始探索更多的方式来处理大数据的容量、速率和多变性,他们开始研发分析信息的新方法。

不断扩张的容量

在人类生物学大量信息的收集方面,制药产业早在数十年前就开始与大数据集打交道了。

位于马萨诸塞州波士顿的默克公司研究实验室科学信息助理副总裁Jason Johnson说,“多年来,默克公司积累了成千上万例临床试验,有能力在数百万消除识别信息的病患记录中进行查询。现在我们拥有的下一代基因组测序,能够从每个样本中创造出兆兆字节的数据。

为了处理如此多的数据,即使是大型制药公司也需要帮助。例如,瑞士巴塞尔的罗氏公司研发运营全球总监Bryn Roberts说,“罗氏积累了一个世纪的数据。在2011~2012年进行了一次成百上千个癌症细胞系的大规模测序实验中,就翻了一倍多。”Roberts和他的同事想要从这些数据集和其他人多年前采集的数据中挖掘更多的价值。因此,他们与加州福斯特城的PointCross公司合作建立了一个数据平台,该平台可以灵活地搜索罗氏过去25年的研究数据,包括签约研究机构的外包数据。研究人员将挖掘这些数据以及成千上万个复合物的信息,利用现有知识来研发新药。

可是,生物学家要想产生大量的数据,并不需要大型制药企业的基础设备。例如,考虑一下加州卡尔斯巴德生命技术公司的离子个人基因组仪(Ion Personal Genome Machine,PGM)系统。这种下一代的新设备能够在8小时内测出多达2千兆碱基(gigabases)的序列,而且它的市场定位是“个体化基因组仪”,能够放在科学家的实验台上。生命技术公司还有更大的Ion Proton仪器,能够在4小时或更短时间内产生大于10千兆碱基的数据。

总体来讲,对于学术界和产业界的生命科学家来说,下一代测序技术创造了财富,也产生了阻碍。Crandall解释道,“我们无法有效地研究如此大量的基因组,除非我们的计算机软件能够满足这些大数据的需求。”因此,他的团队与波士顿大学医学院的医学助理教授W. Evan Johnson合作,开发了软件PathoScope,能够处理当今下一代测序(NGS)平台的数据,进而将千兆碱基的DNA信息转变成千兆字节(GB)的计算机数据。该软件将DNA样本与参考基因组做比对,以鉴定出病原体。Crandall说,“我们的数据集可以为成千上百的样本进行每个样本20GB的数据分析,在后续分析中每个样本又可产生上百GB的数据。”

如此大量的数据在医疗保健领域尤为有用,因为药物研究者必须在设计实验时充分考虑人群的变异性。英国牛津大学转化医学教授 Chas Bountra说,“你无法从仅仅10 个人的研究中得到合理的结论,但是通过研究50万人,你可以从中汲取重要的结论。”大规模的研究可能会揭示疾病的遗传贡献,以及一种药物是否可以帮助到一部分病人,或者哪些个体更可能会表现出特定的失调。

其他的专家也期望看到,遗传数据在医疗保健领域能产生越来越大的影响。“遗传学给我们提供了一个强有力的支点,去理解人们如何得病以及我们该怎样做”,位于英国牛津市的威康信托基金会人类遗传学中心统计遗传学教授Gil McVean说。例如,遗传信息可能会揭示生物标记,或某种特定疾病的表征物,类似于在某种类型癌症中的一个分子。McVean解释说,“遗传学能够告诉你,某个与疾病相关的生物标记是否值得进一步作为(治疗的)靶标进行深入研究。”例如,驱动某种类型癌症的分子可以成为治疗这种疾病的好靶标。

为了应用这一理念,McVean领衔的研究团队通过李嘉诚(Li Ka Shing)捐献的3300万美元大额捐款,正在剑桥大学创建李嘉诚健康信息和发现中心(Li Ka Shing Centre for Health Information and Discovery)。该中心将成立一个大数据研究机构。总之,McVean说,该中心“会将分析数据的过程和遗传学结合在一个研究所里,这样我们将能够克服,在大数据收集和大数据集分析方面遇到的棘手而有趣的难题。”

寻求高速率

第二个“v”,也就是速率(velocity),描述了数据的处理和分析速度。研究人员需要快速分析处理不断增加的数据量。

过去,分析基因相关的数据存在瓶颈。“传统上,这些分析平台已经约束了研究人员的生产效率”,位于马里兰州贝塞斯达的BioDatomics公司总裁Alan Taffel认为,“它们很难用,且要求生物信息人员的支持,而且它们在执行工作流程时非常慢。”实际上,他说,往往要花费几天甚至几周的时间来完成一项大型的DNA分析。鉴于此,BioDatomics公司开发了自己的BioDT软件,为分析基因组数据提供了400多种工具。它将这些工具整合进一个软件包中,以易于使用,而且可以超越任何台式电脑。

BioDT在计算机集群上运行,包括了许多称为节点的设备,相互联通为一个整体进行工作。“至少需要4个节点”, BioDatomics的首席技术官Maxim Mikheev说。但是BioDT也能在更多的节点上运行,从而能更快地处理数据。“扩展性理论上是无限的。” Mikheev说,“有的集群能够用到4万个节点。”对于不倾向于构建计算机集群的用户来说,BioDT也可以通过云端获得。

总之,Taffel说,BioDT“能够比传统系统执行工作流的速度快100倍。以前需要几天或几周的,现在只需要几分钟或几小时。”

其他专家也看到了测序对新工具产生的需求。根据位于新泽西州皮斯卡塔韦的罗格斯大学电子计算工程系研究副教授Jaroslaw Zola表示,“几乎无处不在的下一代测序技术需要新的计算机策略来处理数据,从数据如何存储,如何转换,一直到如何分析。”这就意味着生物学家必须学习如何使用最前沿的计算机技术。然而,正如Zola所说,这“对信息技术专家施加了压力,以开发出让领域专家容易掌握的高效解决方式,并在确保效率的前提下,隐藏潜在算法、软件和硬件结构的复杂性。”这就需要新颖的算法,Zola也致力于此。

多变性的版本

第三个“v”,即多变性(variability),也给生物学家带来了极大的挑战。正如Bountra所说,“我们现在将许多来自不同领域、具有不同数据集的人聚集在了一起。”

挑战之一就是生物学实验室拥有各种设备,但他们通常收集的数据是特定的文件格式。因此,总部设在加拿大多伦多的ACD/Labs公司开发的计算系统,可以在处理大数据时整合各种数据格式。ACD/Labs的全球战略主管Ryan Sasaki解释,“我们支持来自不同仪器的超过150种文件格式,这让我们可以将多种数据汇集到同一环境中,也就是我们的Spectrus数据库。这个数据库可以通过桌面客户端软件或网页访问使用,也可以通过其他的实验室信息系统进入数据库。”

生物学的大数据还体现在新形态的多变性。例如,位于德国慕尼黑Definiens公司的科学家在进行一项被公司称为组织表型组学(tissue phenomics)的研究,也就是一个组织样本中的组成信息,包括细胞的大小、形态、吸收的染色剂和哪些细胞进行相互联系等方面。这一技术可以应用到一系列的研究中,例如追踪细胞在发育过程中特征变化的研究,测定环境因素对机体影响的研究,或定量测定药物对某些组织的细胞影响的研究。

结构化数据如数据表格,并不能揭示药物处理或生物学过程的所有信息。我们对生物体的了解大多是以一种非结构化的形式存在,就像期刊论文的文本那样。正如默克公司的Johnson所说,“有千万种方式来描述生物学过程”,并且很难从文献中提取数据。

在加州圣何塞的IBM公司Almaden研究中心,分析专家和研发人员Ying Chen和她的团队数年来,都在致力于文本挖掘工具的研发,目前正用于“加速药物发现的解决方案”。这一平台集合了专利、科技文献、基础的化学和生物学知识,还有1600多万种独特的化合物结构以及近7000种疾病的信息。利用这一系统,研究人员可以从中寻找可能对治疗某种疾病有用的化合物。

其他公司也希望通过挖掘现有资源,以发现疾病的生物学机制以及治疗方式。位于硅谷的大数据公司NuMedii和位于纽约的智能科学信息提供商汤森路透公司,共同组建团队来寻找现有药物的新用途,称为药物再利用(drug repurposing)。“通过使用基因组数据库,整合各种知识来源和生物信息学方法,我们能够快速地发现药物的新用途。” NuMedii公司的首席科学家Craig Webb说,“我们随后利用该药物原有用途中的安全性,快速低成本地通过临床试验。”NuMedii公司为项目提供数据库和分析法,汤森路透公司则提供关于疾病和药物的深层知识。

Webb说,其中一个项目中,研究人员从超过2500份卵巢癌样本中搜集基因表达数据,再利用多种计算机算法来预测现有药物是否具有广谱治疗卵巢癌或针对某种分子亚型的潜力。“大数据让我们可以广撒网来寻找线索,而‘大知识’则让我们能快速地选择出可供测试的组分。” Webb说。

组合的复杂性

马萨诸塞州剑桥市诺华生物医学研究所(NIBR)信息系统执行主任Stephen Cleaver在大数据的3个“v”之外,又加上了复杂性。他认为制药公司科研人员分析数据的方式是“通过某些病患个体,到病患群,再到整合掌握的所有信息”。这一过程很复杂。

在医疗保健领域,大数据分析的复杂性也是源于对于不同类型信息的整合,如源自基因组、蛋白组、细胞信号转导、临床研究,甚至环境科学研究的数据。结果将可能产生全新的疾病治疗方法。但是马萨诸塞州剑桥市GNS Healthcare公司的共同创始人Iya Khalil问道:“你如何为这些数据赋予意义,并且从这些数据中获得新的启示,以提升我们对于病理机制的认识?”对于Khalil和她的团队成员来说,答案来源于机器的学习、数学、计算机算法和超级计算技术——它们整合在一起,从而探索疾病的根本途径,追踪患者对于特定治疗可能做出的响应。

在GNS Healthcare公司,这一大数据分析项目依赖于一个被称为REFS的计算机平台,REFS代表着反向工程学和正向模拟的功能。简言之,该软件通过分析数据来构建特定疾病中潜在的分子网络,这是反向的部分;然后它利用这一信息去模拟某个化合物可能对通道的影响,这是过程的正向部分。

除了医疗保健之外,REFS也可以应用于基础生物学研究。例如,Khalil和她的同事使用该技术,制作了一部分细胞复制循环过程的分子模型。

对于Khalil和其他科学家而言,使用大数据的关键在于推动科学的发展。例如,在NIBR公司,Cleaver和他的同事想要确保得到信息量大、一手的最重要数据。“运行先进的数据挖掘方法是非常好的,但它必须能够启发下一个的科学假设。”他说。只有这样,今天的大数据才能改变明天的生物学和医学。

原文检索:

Mike May. Big Biological Impacts From Big Data. Science, 13 June 2014; DOI: 10.1126/science.opms.p1400086

;