《自然》重磅:再创纪录!百余家实验室的近150位科学家联合开发AI系统,可基于DNA甲基化精准诊断近100种脑癌
来自全球100多个实验室的近150位科学家联合在顶级期刊《自然》发文[1],他们开发了一个超级AI系统,基于肿瘤组织DNA的甲基化数据,可以准确区分近100种不同的中枢神经系统肿瘤。更厉害的是,这个AI系统还能发现一些指南里面没有的新分类。这对于癌症的精准治疗而言,又是个巨大的进步。
本周,人工智能又开挂了。距离我们上次报道张康教授的重磅AI研究还不到一个月,来自全球100多个实验室的近150位科学家联合在顶级期刊《自然》发文,他们开发了一个超级AI系统,基于肿瘤组织DNA的甲基化数据,可以准确区分近100种不同的中枢神经系统肿瘤。更厉害的是,这个AI系统还能发现一些指南里面没有的新分类。这对于癌症的精准治疗而言,又是个巨大的进步。
这项研究一方面能够弥补目前中枢神经系统肿瘤难以诊断的问题,一方面也是为尚不完善的中枢神经系统肿瘤分类做出了极大的贡献。
在诸多癌症中,中枢神经系统肿瘤可以说是最难搞的。目前科学家已经确定的中枢神经系统肿瘤足有100来种,它们的临床表现和生物学特性有高度特异性,很难确诊。由于此类肿瘤的分子标志物稀少,目前临床上中枢神经系统肿瘤的诊断核心技术还是基于显微镜的组织学诊断。
不过难点在于,很多在显微镜下表现相似的肿瘤,实际上有不同的基因变异特点,这些几乎是很难观察到的,这就给精准诊断带来了极大的困难。虽然FDA已经批准了基于组织病理学切片成像辅助诊断疾病的技术,也有很多创业公司开始尝试利用AI分析这些病理图片,辅助医生诊断。然而上面存在的问题依然不能避免。
所以近年来WHO也逐渐在分类标准中增加了分子指标,例如几种与特定脑癌亚型相关的基因变异和甲基化情况。
Andreas von Deimling和Stefan M. Pfister领导的这个国际团队认为,分析癌症的甲基化组是个很聪明的做法,甲基化特征一方面能够标志相应的细胞变化,一方面还能够用于追踪细胞来源,例如用来诊断那些病灶不明的癌症。而且前人的实验也证实了癌症甲基化数据的可靠性,即使在很小的样本中也能够得到重复[5]。现在研究者们要做的就是,在这些零散的数据基础上继续扩大,让癌症甲基化组能够成为一个统一标准的、全方位的诊断和分类工具。
不过这里面有个大问题就是,甲基化数据从哪里来。开发AI系统是需要大量的数据训练算法的,但是限于之前技术不足和高昂的成本,针对某种特定肿瘤的甲基化数据显然是严重不足的,更何况这还是个发病率不是特别高的中枢神经系统肿瘤。
感谢技术的进步。现在科学家已经可以很容易的从经福尔马林固定后石蜡包埋的少量组织(FFPE)中提取DNA,这就解决了实验材料的来源问题。尽管没有足够的肿瘤DNA甲基化数据,但是在全世界的很多实验室和医疗机构中,都保存有FFPE样本。
于是,这个庞大的研究团队开始收集FFPE样本,并用Illumina公司的主流甲基化芯片450K(可分析人体45万个甲基化位点)分析近3000份肿瘤样本的甲基化数据,几乎覆盖了目前WHO分类中全部的中枢神经系统肿瘤种类。此外,为了区分中枢神经系统肿瘤与其他肿瘤和正常脑组织之间的差异,研究团队还分析了部分间充质肿瘤、黑色素瘤、弥漫性大B细胞淋巴瘤、浆细胞瘤以及6种垂体腺瘤,以及健康脑组织的DNA甲基化情况。
决策过程
研究人员把每个样本的几十万个甲基化信息一股脑交给计算机,首先根据WHO的分类以及样本的诊断结果,在有监督的机器学习算法下,分析WHO定义的每类肿瘤的甲基化特征;然后又无监督的机器学习算法再分析一遍,让AI系统总结出自己对中枢神经系统肿瘤甲基化的认知。
最后,他们得到了82个中枢神经系统肿瘤甲基化特征,以及9个对照样本的甲基化特征。这91个甲基化特征就是AI系统在WHO定义的指导下,对中枢神经系统肿瘤甲的分类。显然,AI系统对中枢神经系统肿瘤的分类,肯定不可能完全与WHO的分类完全重合。
研究人员把这82个甲基化特征分成了5类。
第一类的29个是完全与WHO的分类匹配的,就是说,AI系统认为这些甲基化特征分别属于某一类肿瘤,按照WHO的分类标准,医生之前的诊断确实也是属于这个分类。第二类也有29个,他们能与WHO分类中的某种肿瘤下面的亚类型匹配。
剩下的就是只能部分匹配,或者完全不能匹配。而这些也是研究人员最感兴趣的,他们认为,这一发现可以帮助研究人员更深入的理解中枢神经系统肿瘤。
a,91个甲基化特征,以及它们所属的5个类别;b,2801个样本的甲基化特征降维数据图
到此,中枢神经系统肿瘤的甲基化特征已经被AI系统提取,加上对照组,一共有91个。显然,如果研究就到此为止的话,使用价值还是有限的。毕竟,人工分析每个样本的甲基化类型与这91个匹配情况是件非常费时费力的事情。
于是,他们把这91个甲基化类型交给了随机森林机器学习算法,开发出一个AI决策系统,只要研究人员将从测序机器上下来的甲基化数据导入这个AI系统,就可以快速判断这个肿瘤属于哪一种。
为了验证这些甲基化特征和AI决策系统的准确性。研究者选取了1104份已经组织学和分子生物学诊断的中枢神经系统肿瘤患者组织样本,同时用传统的标准组织病理学分析和这个AI系统进行诊断。
结果,在60.4%的样本上,AI系统和病理学家诊断是一致的。15.5%的样本AI系统和病理学家的也是一致的,只不过AI系统认为,它们应该属于一个更小的亚型。
还有12.6%的病例,AI系统和病理学家诊断的结果不一致。那到底是AI系统对,还是病理学家对?于是研究人员对这部分样本做了更加深入的分析(例如基因测序),最后惊喜的发现,92.8%的样本是AI系统对了。
最后剩余的11.5%的样本,AI系统表示无能为力,不知道该如何分类,仔细分析发现,其中三分之一是罕见肿瘤,可能是前期的样本量不够,导致AI系统无法识别。因此,这部分随着数据的积累,或许可以解决。
AI系统对病例的识别情况
目前该AI平台已经免费向研究机构开放[6],自2016年上线以来,已经有近万份个体DNA甲基化数据上传!实用性已经得到千余例真实病例的支持。
当然,研究者也提出,甲基化特征还不能作为单一的诊断标准,还需要临床的验证。不过作为研究的工具,它着实将使中枢神经系统肿瘤科研前进一大步。
一方面,统一的、易于使用的标准将使科研变得更加条理分明;另一方面,甲基化组明确的数据特征也便于使用计算机进行分析。有了这项技术,我们对肿瘤的分类将会更具动态并逐渐走向完善,最终带来更加精准、有针对性的治疗方案。
本文来源于:奇点网
欢迎关注中科紫鑫人事招聘相关信息:http://www.ngscn.com/index.php/Job/employ