关于宏基因组学的真理:量化和对抗16S rRNA研究偏倚

摘要 : 最近,美国弗吉尼亚联邦大学的研究人呢晕在《BMC Microbiology》发表的一项研究中讨论了16S rRNA基因测序的误差问题。这项研究描述了一个过程,将实验和统计学相结合,来解释和降低DNA分析中的偏差。

自从科学家们在2003年完成人类全基因组图谱以来,dna测序领域已经涌现出大量新的方法和技术,来帮助我们寻求疾病进化的遗传线索,以及其他的生物学奥秘。

我们正在使用的机器变得更小、更快和更便宜。然而,DNA链分解和重组的过程,仍然存在误差。

当研究大多数细菌都共有的一个基因——16S rRNA基因时,获得一个准确的描述,是一个精密的过程。

美国弗吉尼亚联邦大学(VCU)人文科学学院统计科学和运筹学系副教授Paul Brooks博士指出:“当提到16S时,就好像房间里的大象(是一个英国的谚语,用来形容一个明明存在的问题,却被人刻意的回避及无视的情形)。科学家知道存在准确性问题,但他们不喜欢谈论它。”

最近,Brooks和同事们在《BMC Microbiology》发表的一项研究中讨论了这个问题。这项研究题为“The Truth about Metagenomics: Quantifying and Counteracting Bias in 16S rRNA Studies”,描述了一个过程,将实验和统计学相结合,来解释和降低DNA分析中的偏差。

Brooks说:“技术发展地很快,没有弄清楚上一件事情中的问题,人们很难继续接下来的事情。我们只是想更清楚地认识这些技术。”

Brooks是VCU阴道微生物研究项目的成员,该项目专注于女性健康。例如,最近的研究偏向于研究对阴道微生物至关重要的七个菌株。这些微生物执行必要的生物学功能,但有一些可能是致病的。

因此,科学家从样本中提取DNA样本并进行测序,以探讨他们是否能识别可致病的基因突变或其他基因活动。研究阴道微生物组中的细菌,将帮助研究人员更好地了解早产、性传播疾病和其他女性健康问题。

Brooks及同事研究了相关的整个过程:从样品中提取DNA,扩增并测序和对其分类。这些步骤都会以不同的方式影响细菌,会引起偏差。例如,在DNA提取过程中,一些细菌比其他细菌更容易提取DNA。

在扩增时,科学家使用一个过程称为聚合酶链反应——一种快速和自动化的方法,产生许多DNA片段的拷贝。更少的循环周期,可能减少偏差,但这可能意味着会漏掉一个较为罕见菌株。

在最近的研究中,研究人员使用含有不同数量细菌的样品的混合物。让这些混合物通过常见的处理程序,以探讨到底发生了什么。这是一个具体事实和观察之间的平衡。

研究人员从一个输入开始,在这种情况下,是在一个给定混合物中的细菌比例。利用观测到的数据,研究人员构建了统计模型,来预测经过测序过程的一份样品中的细菌比例。

本文共同作者David J. Edwards博士说:“我们也可以利用这些数据来建立逆模型。那就是,我们试图用另外一种方式。换句话说,为了模拟真相,我们可以采取实际上观察到的细菌比例吗?”

该模型是基于化工行业常用的混合实验,用于确定汽油、油漆或酒配方的种类。

Edwards说:“比如说烤饼干。你会将不同的材料混合在一起,像面粉、牛奶、黄油、鸡蛋和巧克力薯条。为了找出曲奇面团的最佳配方,你可以做一个实验,将这些成分按不同的比例混合。显然,由100%牛奶作出的曲奇面团,不会为我们做任何事情。我怀疑,1/3的面粉、1/3的牛奶、1/3的黄油,味道也会很好。”

该模型使研究人员能够根据一个很小的样本,对存在于整个菌群中的细菌有了一个更好的了解。Brooks说:“你在样品中观察到的结果,不一定准确。”甚至当科学家利用各种提取试剂盒来补偿偏差时,仍时有“陷阱”发生。

Brooks说:“如果你有一个DNA池,你去钓16S基因,你使用的‘诱饵’将影响这个过程。不管你选择什么方法,都会有偏差。”

关于宏基因组学的真相是,宏基因组学是指分析从环境中采集的遗传材料。基因组是一个生物体的整个遗传组成,Brooks小组的研究集中在16S rRNA基因。

Brooks说:“这无疑是一个煽动性的标题。但是通过靶定一个基因,我们可以找出有哪些基因组在那里。”

研究人员正在推动他们的模型,对其进行设计,在最近的研究中分析了七种细菌。他们希望进行更多的实验,来开发可以适用于任何环境和任何细菌的模型。

Brooks说:“我们还有很多想要回答的问题。我的梦想是,将这种有普遍性的质量控制,用于可重复性的研究。但是,如果我们要这样做,我们就需要确保,我们正在观察的菌群组成,能够反映真实的环境。”

原文标题:The truth about metagenomics: quantifying and counteracting bias in 16S rRNA studies

原文摘要:
Background:Characterizing microbial communities via next-generation sequencing is subject to a number of pitfalls involving sample processing. The observed community composition can be a severe distortion of the quantities of bacteria actually present in the microbiome, hampering analysis and threatening the validity of conclusions from metagenomic studies. We introduce an experimental protocol using mock communities for quantifying and characterizing bias introduced in the sample processing pipeline. We used 80 bacterial mock communities comprised of prescribed proportions of cells from seven vaginally-relevant bacterial strains to assess the bias introduced in the sample processing pipeline. We created two additional sets of 80 mock communities by mixing prescribed quantities of DNA and PCR product to quantify the relative contribution to bias of (1) DNA extraction, (2) PCR amplification, and (3) sequencing and taxonomic classification for particular choices of protocols for each step. We developed models to predict the “true” composition of environmental samples based on the observed proportions, and applied them to a set of clinical vaginal samples from a single subject during four visits.

Results:We observed that using different DNA extraction kits can produce dramatically different results but bias is introduced regardless of the choice of kit. We observed error rates from bias of over 85% in some samples, while technical variation was very low at less than 5% for most bacteria. The effects of DNA extraction and PCR amplification for our protocols were much larger than those due to sequencing and classification. The processing steps affected different bacteria in different ways, resulting in amplified and suppressed observed proportions of a community. When predictive models were applied to clinical samples from a subject, the predicted microbiome profiles were better reflections of the physiology and diagnosis of the subject at the visits than the observed community compositions.

Conclusions:Bias in 16S studies due to DNA extraction and PCR amplification will continue to require attention despite further advances in sequencing technology. Analysis of mock communities can help assess bias and facilitate the interpretation of results from environmental samples.

作者:秩名

;