聚道科技CEO李厦戎:如何从基因组数据流做到数据协作网络


6月16日,“魔方大数据之——基因大数据产业应用发展高层思享会”在上海贝壳社成功举办。超过70位国内基因领域顶级专家及国内外基因行业领袖企业代表共聚一堂,就基因大数据产业链各环节所面临的机遇与挑战进行了深度探讨。

本次活动由上海大数据联盟、数据猿主办,贝壳社、上海市生物医药科技产业促进中心、上海超级计算中心联合主办;得到上海市科技创业中心、上海市浦东新区科学委员会、上海众创空间联盟的大力支持。

以下是数据猿整理的“北京聚道科技CEO李厦戎:”的精彩分享:

李厦戎:大家下午好,很高兴受到大数据联盟和贝壳社的邀请,给大家做这次分享,我今天的题目是《从基金组数据流到整个数据协作网络》,之后我会再介绍下我们公司目前在这方面的发展情况。

简单讲一下我的个人背景。2012年,我从中科院自动化所毕业,博士生阶段主要研究人的行为和广告机制,之后加入友盟,友盟算是一家大数据公司,但实际上做的是移动应用;大概2014年底离开友盟,当时友盟的APP用户达到了30万,我们每天大部分工作都是处理数据。2013年4月,友盟被阿里巴巴全资收购,变成它的子公司,那时候我也算是阿里的一名员工,与他们的大数据团队有过合作。2014年底,我开始做现在的工作。很多人会问我,之前做互联网,为什么现在做这个?其实这个转变过程没那么难,因为一直以来做的事情都跟数据有关,很多的算法、处理逻辑和技术也没太大区别。

21世纪是什么样的世纪?这个问题是有争议的。我们会听到有人说21世纪是生物的世纪,在网上也可以搜到跟这句话有关的很多信息,还有人会说21世纪是信息的世纪。但如果把这两句话合在一起,我们会发现一个很有趣的东西——生物信息。我们公司现在做的就是跟生物信息有关的技术服务,帮企业和机构构建自己的数据流和协作平台。

不同的难题,不同的解决方式

基因组数据流目前的状况究竟是什么样?测序、传输、存储管理、分析计算、注释报告...各种环节。其中数据传输这一环节就不仅有着巨大的工作量,而且传输速度慢,我们还发现大量的测序数据在转移到数据工厂后,并没有真正被使用和应用。我们跟很多大中小型公司也有过接触,无论什么样的公司,其实在存储上大家用的方法“都一样”——那就是没有标准方案,所有的数据存储都很混乱,一段时间之后没人知道这个数据是干什么的,也没人知道它为什么在这。总之就是不规范化的数据管理方式。在数据计算方面,数据量大,计算复杂,时间又长,更严重的问题是流程的重用性严重。科研单位研发的一些新机器,计算时甚至不知该如何运行,这样的话又怎么给商业机构应用?另外,我们要在众多的数据源上整合,不只是要做注释,还要出报告,而这个过程必须有人去检测,除此之外没有其他好方法。

我们也是看到了行业的难点,开始从传输上研发专门的压缩方式。压缩涉及两方面问题:首先是压缩带宽,像谷歌等很多公司就是牺牲了压缩带宽,而我们尝试整体目标传输数据量,这种方式跟普通传输不一样,丢失一两个序列,可能图片就会不一样,结果也会发生变化。另一个问题,因为它属于大文件,涉及续传的问题,需要相应技术的辅助。如果涉及到医学分析,数据还必须要匿名,这又增加了加密等技术要求。针对没有任何操作能力或不喜欢对着黑屏看的人,我们提供的解决方案是自己搭一个自动化平台,自己开发APP。

而存储方面的问题其实就是企业帐户和权限管理的问题。我们面对的是不同的企业,有做试验的,有做项目管理、客户支持以及做销售的,不同领域的人有不同的权限。比如做试验的人只能接触到数据,在数据分析时不能随意拷贝复制与客户有关的内容。每个人的角色不一样,权限不一样,对资源的需求也就不一样。另一方面,我们的数据结构化其实做的挺好的。在数据储存时,如何找到文件最佳的格式是我们现在正做的事。存储那么多那么大的文件,怎样解决占用空间问题?我之前听过一个词“冰数据”,意思说是一些你都没想到的数据可能已经存放了几年,而你偶然间才看到。原来我们觉得,数据储存是应该分为一级、两级,现在是有三级文件的。所以不同的数据,应该有不同的存储方式。

我们再来看分析计算。刚刚时炜老师也在讲,分析计算时会有不同的任务,还要考虑计算时间,所以会涉及优化方式的问题。而这些问题,现在很多企业都没有办法自己解决。那么我们如何提供更多安全的资源?如何提供这些算法和编辑流程?原来的时候,纯粹用脚本串联就可以,客户只要每天更新流程就可以运用。而现在解决这些问题需要有一个可以定制的流程模板,同时还能对普通来源的数据进行整合。当然,除了这些还有报告之间的协作问题。如果遇到医学检验,我要出一个最终的临床报告,在这个过程中我要把做好的数据分析先交给一个医生检查,如果各项分析都准确,再由他将其交给另一个更高级别的医生手里,决定我是不是能出临床报告,所以说这是用户在整个过程中的不同角色。

遵从标准化,不是只要开放资源就行

我们现在做的事,相当于用一套完整的方案解决企业的生物信息分析,满足企业级别的需求。很多企业使用这套方案后,可以实现基因组数据流的使用效率,我们称之为提高数据的流动性。这个概念是我一直在讲的。因为很多企业的数据其实一直是固定的,从上游到下游,数据会慢慢变成一潭死水,没有被再利用的价值,也没人知道这个数据是怎么回事儿。我们认为,数据在任何时候都应该具备流动性,这样有什么好处呢?它能够帮助企业尽量降低个体承担的责任,同时也可以弹性的进行资源拓展。因为很多企业都会遇到一个问题,这个月来了一百多个样本,但这一百多的样本是每周都会遇到的吗?不会,这是具有随机性的。

我们说要遵从标准化并不是说只要把我的或你的资源开放就行,我们还要同时接纳别人的东西。标准化有助于企业更好的管理。之前跟一些企业管理者们聊天发现,很少有人知道如果自己企业的基因组管理方式合理,其实是可以降低新技术使用的门槛的。现在大家都用智能手机,可以随时随更新APP,接受新的东西,但如果处在一个不连网的状态,你就是一个孤立的个体。我们做的这些事是能给大家带来好处的。

那么现在我们把这个事做的怎么样了?IAAS、PAAS、SAAS怎么区分?PAAS是我们自己做,主要定义一些行业需要的基准。大家可能不理解PAAS。淘宝定义了支付、交易和物流。在淘宝之前,没人知道电商支付、物流、交易怎么做?后来大家明白了,支付应该交给第三方。PAAS支持用户拥有一些权限、可视化工具和客户端。

这是农科院做的水稻基因组,在一个云上公开,提供一些流程方案让大家用。实际上这是偏科研和公益性的事儿,满足了大家对数据共享的需求。此外,我们还解决了加速分析和优化的问题。首先这需要一个正常的测序样本和一个肿瘤测序样本,找到个人的变异点就能获得非常棒的数据量。对很多公司来讲,在本地做这事会花很长时间,但如果用我们的样本量,一方面有保证,另一方面也能满足他们的需求。这是我们近几年在基因和数据上的积累,方便整个体系内和体系外的分支机构应用。大家看这个,这是贝壳社投资的一些企业,目前应该是中国做的比较好的、技术能力比较强的几家公司,他们之间是战略合作的关系。

针对整个流程,客户会提出不同需求,我们应用计算工具进行产品定制和设计,然后做数据传输,直到运行完结束我们将数据和报告一同交给用户,用户注册一个帐户就可以看到最终检测的结果。这是我们的整个流程,当然需要协同开发。再看传统的模式。测序后,将数据快递到分析机构,就算是从上海到北京前后也要两天时间,还要做200多个测序,然后上传、交付,又需要一天。我们现在大概两小时就能传输完,然后两小时计算,交付也变的简单,下载时间也很快。

基因组大数据要在将来某个时间才会出现

这就是我们目前所做到的程度:6个计算域,3个私有域,在云上面有1500个弹性节点,20000多个计算核心和80TB的总内存,另外我们还有200多个分析流程,有些人在网站上可能只看到20个,那是因为大部分都属于私有。另外,从今年的1月到6月,我们帮客户解决了30000多次问题存储,总存储量达到200TB,完成40000多次任务。

事实上,我们一直在想怎样让计算和存储更优化一些?不同的地方会涉及不一样的领域,不同背景的人有不同的数据。到底该怎么做呢?第一,我们需要数据管理的很方便;第二,分析流程要变的更简单、更方便操作;第三,要有好的开发工具;第四,要有稳定的环境,开发出来的东西能够实现规模化。除了云之外,我们还对接了不同的东西,包括LIMS、医疗信息和HIS,那么该怎么做一个协作平台?除了存储和计算,还要有企业间的协作,要很好的控制资源。此外,混合云是目前非常需要的方式,现在很多企业也在做混合云的应用方案,其中不乏一些能力强大的机构。

那么到底该怎样实现从一个基因数据流做到基因数据协作网络?我觉得应该是四步。第一,先完成基因组数据计算系统;第二,建立基因组数据协作平台;第三,构建基因组数据管理平台;第四,构建基因组数据协作网络。除了机构间自由的数据共享,我们还需要一些跨地域的数据才能形成一套完整的结构。到现在为止,我们有了一套完整的体系正在实现企业内以及简单的企业间的上下游协作,至于什么时候能继续往下做,我觉得这个行业发展很快,需要我们大家做好正在做着的事情。

今天我没有讲太多大数据的事,因为我觉得基因这个行业还没有大数据。大数据只有在行业发展到某一阶段时才会出现,到企业真的愿意在这方面跟别人相互了解协作的时候,才会出现大数据。因为现在的企业,无论是做科研还是做其他什么,都只有样本和基因组,我觉得基因组大数据会在未来的某一时间出现。最后,我们公司的思想是为生命做计算,也可以说我们是一个“算命的公司”。

;