FDA新动作,推进NGS流程质量标准化

FDA日前通过在线平台precisionFDA举办了“Consistency Challenge”活动,目的是测试遗传研究中最常用软件工具的精确度和可重复性。在白宫举行的国家精准医疗计划峰会上,奥巴马总统的科学技术高级顾问John Holdren宣布了这项活动。

precisionFDA是一个分析软件的测试平台,测试那些将原始DNA序列数据处理成有用信息的分析软件。该平台在去年12月推出,包含了用户可用来重复的基因组数据的黄金标准的集合;用于大量测序数据分析流程运行的计算环境;以及与广大的科学界人士共享分析流程和结果的版块。虽然这个平台是由FDA管理,但是平台的开发工作是外包给私人公司DNAnexus的。

“Consistency Chanllenge”是preicisonFDA发起的第一个倡议,用于测试基因组学中一些主流算法流程。该活动主要关注序列比对(mapping)和变异检测(variant calling)两个方面,过程主要包括测序得到短DNA reads,比对到人类基因组参考序列上,检测与参考序列不同的数据对应的区域。

这是在几乎所有人类基因研究中最基础和最首要的分析。最终结果是一个VCF(Variant Call Format)格式的文件,该文件中包含了个人基因组中检测到的所有基因变异。实际上,由于技术局限性,这些文件中包含的往往只有小型的DNA变异,称作SNP或者indel,不含有基因组的大型重组。

用于序列比对和变异检测的标准工具是该领域使用最广泛的软件,包括BWA、Bowtie、Genome Analysis Toolkit。

然而很难测试出哪一种分析软件是最有效的。大多数的软件是开源的,而且具有很多不同版本。生物信息学家也会将这些工具混合匹配起来创建新的流程,所以检测结果的不一致可能是比对工具或变异检测软件的问题,又或者两者都有。另外还存在着更多不太知名的工具能够完成同样的分析任务。

为了评估不同分析流程的性能,“Consistency Chanllenge”将为所有参与者提供相同的原始数据进行分析。这些数据来自已经研究的非常清楚地人类细胞系NA12878的测序结果。分析的结果将与“瓶中基因组(Genome in a Bottle)”项目提供的金标准VCF文件进行比较,该项目已经详尽的研究了NA12878,以用于各种类型的质控。

多管齐下,对分析流程进行评估

不同于那些试图梳理基因变异在健康和生物方面影响的高级软件,生成VCF文件的流程产生出的结果清晰,能够对其进行非常客观的评估。DNAnexus公司战略发展部总监George Asimenos说,“这不是一个非常复杂的挑战,通过处理大家熟悉的数据,目的是为了促进人们参与到precisionFDA中,让更多人知道这个平台。”

虽然这项倡议很基础,但是挑战在于如何对结果进行分析。

对VCF文件进行比较和评分不是一项简单的任务,因为科学家们描述与“正常”人类基因组序列的偏差的方式往往是模糊的。例如,一些变异是小型的缺失,即与参考序列比对时缺少了一个碱基。但是如果缺失发生在一串相同的碱基中(例如GAAAAT这样的序列),那么就无法回答“缺失的是哪个A?”

这也就是说即使两个VCF文件都描述了同样的变异,但是也可能检测出的是参考基因组上两个不同位置的缺失。简单的软件程序常常会犯错误,认为这样的VCF文件其中之一或者两个都是错误的。

Asimenos认为,“在早期,我们认为最佳方法应该是,让相关组织告诉我们比较VCF文件的最佳方法,而不是FDA强制实行某种特定的方法。”根据Genome in a Bottle和全球基因组与健康联盟(GA4GH)等组织的指导意见,FDA选择了一款由Real Time Genomics公司设计的软件vcfeval,该工具已经发表并且开源,可作为对流程打分的一个备选。

Vcfeval用一种上下文感知的方式读取VCF文件,当检测到两个变异为同义突变时会将其输出。Asimenos说,“vcfeval分析需要完整的参考基因组序列来进行比较,事实上,这款软件能够检测到很多不易察觉的信息。”一旦确定了提交的VCF文件与Genome in a Bottle提供的金标准文件存在的不同变异数量,vcfeval程序将对流程的准确性进行打分。它将考虑阳性变异检测、假阳性、假阴性以及更加细微的统计学概念,例如阳性预测率。

“Consistency Chanllenge”并不是一项单一的、绝对的精确度量挑战。Asimenos说,“FDA非常聪明地在挑战中引入了一个重复性版块。”参与者将分别对两组不同的NA12878测序数据进行分析,一共进行三次。这两组测序数据都是来自Illumina Hiseq X测序系统,产自两台不同的测序仪。

通过两组不同的数据对分析流程的性能进行比较,FDA希望能够更好地展示,实验条件的不同,例如测序仪操作人员和测序环境,会影响到最终的结果。该挑战同样也会评估当同一组数据进行两次运算产生两个VCF文件时会发生什么。因为测序仪是同时进行大量的平行测序,没有哪两个测序过程是完全相同的,对遗传学研究组织来说,最大的问题就是这样会对整个分析造成多大的影响。

基因研究的真实性取决于准确检测变异的能力。通过重复实验,对不同测序仪产出的数据进行分析,同时与绝对标准数据进行比较,对分析流程的性能进行测试,precisionFDA将多管齐下地进行分析流程的评估。

齐心协力,来自不同组织的支持

越来越多的人要求FDA研究和批准用于病人诊断和治疗的基因检测,而为了能够有效地进行研究,FDA需要弄清楚分析这些基因检测的工具是否精准并且可重复。

“Consistency Challenge”并不是仅限于FDA内部使用。如同FDA早期建立的网站平台openFDA一样,precisionFDA旨在广泛分享知识,让全球的科研人员受益。

虽然“Consistency Challenge”是公开的,但precisionFDA云平台可以私下使用。即使是FDA也只能查看和评估用户选择了公开可见的流程。参与者可以在本地计算环境中生成VCF文件然后上传,同时对流程中使用的工具进行说明;或者也可以在precisionFDA云平台上运行整个分析流程,公开使用的所有软件。

无论哪种方法,研究团体都将看到不同分析流程间的相互较量。这不仅仅能让遗传学家了解哪个开源工具更有效,更是让那些各具优势但是不为人知的分析工具浮出水面。Asimenos说,“我希望这次活动将为那些正在开发新方法但是缺乏平台展示的研究人员提供一个好机会。”

这种对遗传学基础工具的全面评估是我们急需的,而且大量的利益相关方已经加强了对这方面的支持。其中有的是公立组织,有的是非盈利组织,例如Genome in a Bottle和GA4GH。其他还包括一些盈利性公司,例如DNAnexus、Real Time Genomics、Human Longevity(提供了一组NA12878测序数据),或者像Garvan研究所这样的大型学术中心,Garvan研究所也提供了NA12878测序数据。

Asimenos列举了其他六个对precisionFDA项目做出贡献的组织机构,其中包括Illumina、23andMe以及Broad研究院等该领域的巨头。他说,“这是大家共同努力的结果,我非常感激这些人能够贡献出他们的数据并且加入了这个网站。”

“Consistency Challenge”需要人们广泛的参与来充分发挥这个项目的意义。竞赛将会于4月25日向公众开放,任何想来参加挑战的人都可以报名,这项竞赛将成为precisonFDA的第一个挑战比赛,旨在评估用于人类基因组研究的软件工具。

本文来源于:测序中国

欢迎关注中科紫鑫人事招聘相关信息:http://www.ngscn.com/index.php/Job/employ

;