Deep Genomics:融资1670万美元,它将深度学习带到基因组学
基因组学正在探索DNA变异如何影响特定疾病,使用机器深度学习对DNA和细胞中关键分子的关系进行建模,从而让基因组学的研究更有效。
在用深度学习研究基因组学的时代,Deep Genomics推开了第一扇窗。Deep Genomics,即“Deep Learning + Genomics”,是人工智能和基因组学联姻的产物。
公司背后的灵感来源于生活
Deep Genomics成立的起因还要追溯到2002年,当时
Brendan Frey的妻子怀孕,在做检查时却被医生告知还未出生的孩子可能带有遗传缺陷,尽管只是“可能”,但这对夫妻也不得不终止妊娠。
从那时起,Frey科研工作的目标就转移到使用深度学习来理解基因工作原理。于是这位多伦多大学电气和计算机工程教授、深度学习领域的先驱,开始关注基因组和医学的研究,试图将其与深度学习结合起来,设计出一种帮助机器学习和解释遗传密码的方法。
Brendan Frey和他的团队
2015年,Brendan Frey与Hannes Bretschneider等人成立了Deep Genomics。公司有20多名拥有高等学位的团队成员,包括科学、工程、医药和商业领域的专家。
该团队在自然、科学、细胞和自然生物技术领域发表了十多篇论文,获得了众多的科学和创新奖,并积累了超过50年的经验,建立了精确结合了基因组生物学的人工智能系统。
这个由机器学习专家、基因组学专家和医疗专家组成的团队有着强大的技术支撑,公司在建立伊始就被《科学美国人》、《华盛顿邮报》等知名媒体报道,比作“将深度学习的能量带到基因组学的创业公司”。目前,这家公司已经与医院、生物科技创业公司以及制药公司展开合作,使用基因疾病患者的基因数据测试公司系统。
当基因组学遇上深度学习
要推进基因组学,就需要了解基因表达是如何被基因变体所改变。尤其是那些在蛋白质编码区之外的基因,DNA剪接是其表达的关键步骤,它的破坏会导致某些疾病产生,如癌症和神经系统疾病。
Deep Genomics开发的一种计算机深度学习技术可以计算出遗传变异对DNA拼接的影响。该技术的思路是建立一个数学模型,导入健康人的全基因组序列和RNA序列,对模型进行训练,让它学到健康人的DNA剪切模式,并用分子生物学方法检验模型,加以校正。
“深度学习”揭示了疾病的遗传根源
该模型能够准确地对疾病的变异进行分类,并提供异常剪接对疾病影响的见解。除此之外还可将其用于研究多种疾病,如:结肠直肠癌(Colorectal Cancer)和脊髓性肌肉萎缩(spinal muscular atrophy)自闭症(Autism Spectrum Disorder),并确定常见、罕见甚至自发变异的结果。
从技术走向产品
Frey领导的研究小组开发的第一个深度学习方法,是用于确定疾病的遗传决定因素。他解决的痛点是,人群中的DNA突变(SNVs)数以亿计,其中突变频率大于1%的SNVs也有300万个左右,要挨个调查SNVs与各种疾病的关联难如登天。
在前面所述建立数学模型这一思路下,Deep Genomics推出了他们的第一款产品SPIDEX。只需将测序结果和细胞类型导入,SPIDEX便可分析出某一变异(基因组突变)对RNA剪切的影响,并计算出该变异与疾病之间的关系。
SPIDEX产品设计思路:
建立计算模型
使用“深度学习”算法来推导出一种计算模型,该模型以正常DNA序列作为输入,通过将健康人体组织中具有剪接水平的DNA与DNA片段相关联,来推断剪接的计算模型。
假设有一个测试变量,它可能有多达300个核苷酸进入一个内含子,该模型可以用来计算变量的剪接有多少。
建立计算模型
使用模型检测破坏性遗传变体
由广泛的疾病和技术引起的遗传变异,可以通过该计算模型被检测和过滤,从而对疾病的遗传进行探索。该模型预测了由于内含子和外显子的变异而导致的大量异常剪接,为理解疾病的遗传决定因素提供了新机会。
使用模型检测破坏性遗传变体
SPIDEX可以将无害的突变与有害的突变区分开来,并帮助科研人员理解它们与其他基因过程的关系。2016年,Deep Genomics为弄明白突变会如何改变细胞,进而给人体造成的影响,用SPIDEX预测了3.28亿个SNVs。不过,预测只是做了初步筛选,而有害突变与疾病的对应关系还尚未建立。
如果Deep Genomics的深度学习分析变得足够精确,那么这项技术的贡献就显而易见:直接分析突变频率低的变异与疾病的关系;加速基因组学的研究和药物的开发。
然而,目前Deep Genomics的SPIDEX技术只能分析SNVs引起的RNA剪切变异与疾病的关系,对于其他原因导致的疾病无能为力。但即便如此,人工智能在基因分析中的应用仍然值得期待,也许它会成为解码基因与疾病奥秘的一把金钥匙。
Deep Genomics 在技术方面的成果已经发表在Science、Bioinformatics、Nature Biotechnology等知名期刊上:
Inference of the human polyadenylation code. Leung et al. RECOMB, April 2017.
Genome-wide characteristics of de novo mutations in autism. Yuen et al. NPJ Genome Medicine, August 2016.
Machine learning in genomic medicine: a review of computational problems and data sets. Leung et al. Proceedings of the IEEE, January 2016.
Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning. Alipanahi et al. Nature Biotechnology, August 2015.
Efficient in vivo correction of a splicing defect using an HDR-independent mechanism. Kemaladewi et al. Nature Medicine, July 2017.
The human splicing code reveals new insights into the genetic determinants of disease. Xiong et al. Science, January 2015.
Deep learning of the tissue-regulated splicing code. Leung et al. Bioinformatics, June 2014.
2017年9月,Deep Genomics宣布开始进入药物研发领域。使用深度学习和超大神经网络来分析基因组数据,通过鉴定一个或多个负责疾病的基因帮助研究人员开发出一种药物来处理缺陷基因的行为。
Deep Genomics认为,他们的技术可以通过在大量的基因组数据中寻找微妙的信号,从而帮助药企生产强大的新药。
在未来的2年里,深度基因组学将利用其平台开发新的抗感寡核苷酸疗法并进行临床评估。如今,深度基因组学正在建立一个生物学上精确的数据和人工驱动平台,支持遗传学家、分子生物学家和化学家的研究应用。
融资情况
2015年11月,Deep Genomics公司宣布完成370万美元的种子轮融资。由位于湾区的True Ventures领投,Bloomberg Beta和其它投资方跟投。
2017年9月,Deep Genomics获得了Khosla Ventures领投,True Ventures跟投的共计1300万美元的A轮融资。
截至目前,Deep Genomics所获累计融资额为1670万美元。