千年基因发布高质量HiSeq X Ten测序数据

摘要 : 千年基因已完成全球首批HiSeq X Ten测序数据的统计,并发布了高质量的测序结果,数据的碱基准确度、测序均一性、可用数据比例等方面均质量非凡。其中平均Q30高达85%以上,测序深度大于10×的reads占参考基因组的比例高达98.5%,远超目前发表文章中的水平。这意味着18年来一向以最高数据质量著称的千年基因,在最高效率、最高通量以及更低成本的HiSeq X Ten平台上,将继续履行最高数据质量的承诺。

千年基因已完成全球首批HiSeq X Ten测序数据的统计,并发布了高质量的测序结果,数据的碱基准确度、测序均一性、可用数据比例等方面均质量非凡。其中平均Q30高达85%以上,测序深度大于10×的reads占参考基因组的比例高达98.5%,远超目前发表文章中的水平。这意味着18年来一向以最高数据质量著称的千年基因,在最高效率、最高通量以及更低成本的HiSeq X Ten平台上,将继续履行最高数据质量的承诺。

基于千年基因的质量优势和HiSeq X Ten的成本优势,这一新平台将为疾病研究带来颠覆性的革新。以癌症为例,研究表明与癌症发生发展相关的遗传变异因素包括点突变、小的插入缺失突变、基因拷贝数变异、基因表达量变异、融合基因、染色体变异等,而其中大部分变异信息是无法通过外显子组测序挖掘到的。因此,HiSeq X Ten将使全基因组测序逐渐取代外显子组测序成为疾病研究的主要手段。

目前,中国科学院、中国医学科学院、国家人口计生委、中山大学、复旦大学、天津医科大学、华西医院等单位已成为HiSeq X Ten平台在全球的第一批受益者。在相同的科研经费下,他们可开展更多样本的基因组测序,将来可通过海量数据的挖掘得到更可靠的研究结果,并发现以往样本数量较少时难以挖掘的变异信息。

以下为详细的HiSeq X Ten测序结果质量展示:

1. 85%以上碱基准确度达到Q30 [并非所有HiSeq X Ten, 仅指千年基因的HiSeq X ten]

碱基质量直接极显著影响可用数据的比例、对参考基因组的覆盖率、mapping至参考基因组的比例及变异检测的可靠性等一系列的深层质量指标。这些因素共同决定了是否能够找到致病变异。例如,根据统计Q30每下降10%,数据过滤时将有约20%的reads被滤掉,意味着75%的Q30将比85%的Q30少20%的可用数据,而致病变异很可能也同时被过滤掉了,这样将导致后续所有分析都没有意义了。所以,碱基准确度代表了测序的整体质量,并不是把错误碱基过滤掉就一样支持分析。

基于我们多年来丰富的医学国际项目经验、严格的实验流程监管严格及严格使用原厂进口测序试剂,千年基因的碱基准确度一直以来在全球是遥遥领先的。下表的结果显示第一条read的Q30高达91%。虽然Illumina边合成边测序时第二条read的碱基质量一般会低于第一条read,即使如此,我们得到两条reads的平均Q30也高达88.1%。

表1. HiSeq X Ten测序结果展示

样本名称 Sample
R1 Q30 (%) 91.0
R2 Q30 (%) 85.2
Avg. Q30 (%) 88.1
read长度(bp) 150
总reads数目 875,493,626
总碱基数目(Mb) 131,324
平均测序深度(X) 45.9
参考基因组长度(Mb) 2,858
去除duplicate后可比对reads数目 733,598,826
去除duplicate后可比对reads比例 91.8%
测序深度大于1X的参考基因组覆盖率 99.3%
测序深度大于5X的参考基因组覆盖率 99.0%
测序深度大于10X的参考基因组覆盖率 98.5%

2. 测序深度大于10×的参考基因组覆盖率达到98.5% [并非所有HiSeq X Ten, 仅指千年基因的HiSeq X ten]

在数据均一性方面,虽然人类基因组测序的总体覆盖深度一般都在30×以上,但由于测序试剂、实验操作和GC bias等因素影响,所有待测区域的覆盖深度并不完全一致。尤其是高GC含量的区域,由于测序偏好性的存在一般覆盖深度会低于其他区域。变异检测时单条read检测出的变异信息可靠性较低,很可能有测序错误导致,因此通常选取覆盖度大于10×的reads进行变异分析。

目前已发表的基因组文章中覆盖度大于10×的reads所占比例约为85%-95%,结果表明我们通过严格的质量控制可得到很高的测序均一性,测序深度大于1×的reads占整个参考基因组的比例高达99.3%,大于10×的reads所占比例也高达98.5%。因此,即使有价值的变异信息位于高GC含量的基因组区域,测序时也能保证该区域获得较高的覆盖度,而不会在变异检测时因覆盖度较低导致这部分信息被遗漏,从而造成假阴性结果。

3. 去冗余后mapping比例高达91.8% [并非所有HiSeq X Ten, 仅指千年基因的HiSeq X ten]

在有效数据量方面,duplicate reads是指文库制备过程中因PCR扩增不可避免引入的完全一致的DNA片段,duplicate reads所占比例的高低主要取决于实验人员操作的熟练程度。由于这部分数据对后期的变异分析没有意义,因此会在分析前过滤去除。结果表明我们通过严格的质量控制可得到很低的duplicate reads比例,去除duplicate reads后可比对至参考基因组的reads比例仍高达91.8%。这意味着在相同原始数据量的前提下,可让研究者获得更多的可用数据量。

4. 与HiSeq 2000数据具备高一致性

为了进一步验证HiSeq X Ten数据的可靠性,我们选取两个样本分别用HiSeq X Ten和HiSeq 2000测序后进行基因分型比较。其中NRD(non-reference discrepancy)代表这两种方法有差异位点的比率,该值越低表示两种方法的一致性越好。结果表明,HiSeq X Ten与HiSeq 2000进行基因分型的一致性是非常高的,这也进一步验证了HiSeq X Ten数据的高可靠性。

表2. HiSeq X Ten与HiSeq 2000数据可靠性比较

样本名称 Sample1 Sample2
测序平台 HiSeq 2000 HiSeq X Ten HiSeq 2000 HiSeq X Ten
数据输出格式 fastq bcl fastq bcl
比对分析软件 Isaac Genome Alignment
变异检测软件 Isaac Variant Caller
SNP数目 3,477,298 3,438,051 3,489,040 3,488,962
基因分型 overlapped SNP数目 3,306,176 3,358,359
overlapped SNP比例 95.08% 96.16% 96.25% 96.26%
异源错配 642 600
异源匹配 1,907,342 1,927,953
同源错配 920 676
同源匹配 1,397,272 1,429,130
NRD 0.047 0.038

更多信息请点击千年基因主页了解:http://www.macrogencn.com

作者:千年基因

;