玩真的!谷歌整合Tute Genomics基因数据库

摘要 : 谷歌希望凭借人类基因组云端服务Google Genomics在基因组研究市场占有一席之地,如今,公司正忙于用最好的工具来填满这个工具箱。

谷歌希望凭借人类基因组云端服务Google Genomics在基因组研究市场占有一席之地,如今,公司正忙于用最好的工具来填满这个工具箱。

Google Genomics是谷歌2013年推出的一项云端服务,帮助大学实验室和医院等机构将患者或科研对象的生物基因储存到云端上,推进人类基因组信息的存储、对比和分析。

Google Genomics和基因数据创业公司Tute Genomics日前宣布,Tute Genomics将把其海量基因信息数据库放到Google Genomics平台上以便于查询。Google Genomics托管的其他基因数据库还包括1000 Genomes Project、Illumina Platinum Genomes和MSSNG Database for Autism Researchers等。

Google Genomics工程主管、Google+项目前工程主管大卫·格雷泽(David Glazer)曾表示,搜索不是搜索关键字,研究人员可以搜索基因组的特定片段及基因组序列,从而找到具有共同变异的基因组片段。

Google Genomics产品经理乔纳森·秉海姆(Jonathan Bingham)表示,为了区分自己不仅仅是一个数据存储平台,Google Genomics还将利用谷歌的搜索工具和计算设施来处理和分析基因数据。

用户在Google genomics上存储数据后,还可以共享给任何想共享的人。此外,Google Genomics还支持基因组数据的处理,包括变异调用、三级结构分析(tertiary analysis)和群组对比等。

Google Genomics除了存储数据,还提供数据分析服务。秉海姆称:“Google Genomics建立在Google Cloud云平台之上,我们需要解决的一个问题是可存储性。此外,还要便于研究人员进行分析,在速度和灵活性方面要有保证。”

秉海姆还称,BigQuery就是Google Cloud平台上的一个云数据分析引擎,之前已被证明对于基因组数据分析大有帮助。BigQuery是谷歌推出的一项Web服务,允许开发者使用谷歌架构运行SQL语句对超级大数据库进行分析,TB级数据十几秒便可返回结果。

“向BigQuery加载数据后,如来自特定父母群体的基因变异数据,用户就可以对一些问题进行查询,如等位基因频率、全基因组关联、与表型性状或药物治疗的关联等,几秒钟便可返回结果。”

但BigQuery是针对无结构数据(unstructured data)进行设计的,因此Google Genomics团队还对BigQuery引擎进行了调整,使之适应基因组数据。

秉海姆表示,此次与Tute Genomics合作后,将允许用户通过BigQuery进行更深层的数据挖掘。“人们已经意识到,Google Genomics和BigQuery的结合允许人们利用基因变异和之前的相关知识做一些十分有意义的事情。如果你之前做过基因测序研究,或者有了新的人类基因组,可以加入到Tute Genomics数据库中,然后咨询一些问题。例如,如果我给患者做了基因测序,如何能知道他们的变异?哪些与疾病的关联度最高?如何知道他们对药物的反应?”

这项服务的成本和速度分别是:88 GB的人类基因组变异信息加入到Tute Genomics数据库仅30秒钟,费用不到1美元。

Tute Genomics基因数据库是一个“注释型”数据库,对许多基因变异进行了解读,所使用的标准包括SIFT、PolyPhen2、PhyloP、GERP++、MutationTaster、MutationAssessor、FATHMM、MetaLR和MetaSVM等。同时,Tute Genomics数据库也整合了自身的预测系统,可预测单核苷酸多态性(SNP)或插入缺失标记(InDel)是否与孟德尔表型(Mendelian phenotypes)相关。

Tute Genomics数据库还整合了公众数据,如来自1000 Genomes Project和NHLBI ESP-6500等基因组项目的数据。此外,Tute Genomics数据库还包含了来自NCBI的ClinVar数据库的临床注释。Tute Genomics首席科学官(CSO)大卫·米特曼(David Mittelman)称,Tute Genomics基因数据库是其他基因变异数据库的补充。

谷歌与Tute Genomics的合作始于去年。当时,Tute Genomics CEO雷德·罗比逊(Reid Robison)与谷歌Google Genomics工程主管格雷泽在一次会议上相遇,发现两家公司的产品很适于合作。

米特曼说:“我们对Google Genomics感到很兴奋,它不仅允许你存储基因数据,还能对其进行分析。在Tute Genomics,我们的工作重心集中在整个注释层面,但基因变异的背后又意味着什么呢?如何与我们当前的已知内容结合起来呢?就是搜索引擎的任务了。”

今年2月底,谷歌加入了全球基因组学与健康联盟(Global Alliance for Genomics and Health),旨在推进基因组和临床数据的安全和有效共享。对于谷歌这种做法,米特曼表示支持。

米特曼说:“如果你拥有一个知名品牌,招募了一群优秀的工程师,正在制定一个开放标准,这些就是成功的关键要素。如果想白手起家,从头打造自己的体验,或者与毫无经验的人合作,那意义不大。”

米特曼认为,当前的基因组社区仍在探索研究与合作的方向,但他对谷歌正在打造的社区印象深刻。米特曼说:“人们不只是想把数据上传到云端,他们还想进行适当的互动。谷歌的该战略就是测试市场的好方法,看看人们是否愿互动。如果人们能够积极互动,我相信将催生出更多创新。”

Google Genomics产品经理秉海姆称,除了Tute Genomics,谷歌还对与其他更多平台合作持开放态度。

Tute Genomics首席科学官米特曼说:“我们将继续在Google Cloud平台上为我们的数据库打造一系列新工具和功能。这只是我们合作的开始,未来数月还会进行更深入地整合。”

作者:Snail

;