填补全基因组关联研究空白的新算法


最近,来自芝加哥大学的科学家开发出一种新的计算方法,可使我们检测引发复杂疾病和生物性状的基因的能力提高。这种方法称为PrediXcan,可估算全基因组的基因表达水平——比单基因突变更好的一个生物作用测度,并将其与全基因组关联研究(GWAS)数据结合起来。与传统方法相比,PrediXcan能够更快、更准确地鉴定靶基因。相关研究结果发表在八月十日的《自然遗传学》(Nature Genetics)。

本研究是由芝加哥大学遗传医学研究助理Hae Kyung Im带领的,她指出:“PrediXcan通过了解基因型、基因表达水平(来自大规模转录组研究)和疾病关联(来自GWAS研究)之间的联系,告诉我们哪些基因更容易影响疾病或性状。这是解释基因调控机制的第一种方法,并可以应用于任何遗传疾病或表型。”

全基因组关联研究(GWASs)是一种重要的工具,可检测复杂疾病相关的基因,如糖尿病和癌症,或者身高和肥胖这样的特征。GWASs通过识别单字母的DNA变异(更频繁地出现在患有疾病或具有目标性状的个体中),来确定这些关联。然而,还需要重要的后续工作,来了解这些变体的作用机制。大多数疾病相关的变异不能改变一个基因的功能,而是改变细胞中复制的基因的数量。这些研究无法确定,归因于基因调控(一种遗传变异,反而可能会改变真正致病基因的表达水平)这样的因素的一种因果关系,通过全基因组关联研究仍然也未能发现。

转录组研究,如美国国家卫生研究院的Genotype-Tissue Expression (GTEx),旨在通过研究基因表达和调控机制及其与疾病的关系,来克服这一局限,而不仅仅是通过DNA序列。但转录组的研究也有很大的局限性,例如,不能确定反向因果关系——基因的表达水平是否被疾病所改变,或者疾病的产生是由于基因表达的改变。

为了开发一种方法,检测基因和性状之间的关系,并避免这些问题,Im和她的同事将转录组数据和GWAS数据整合到一个单一的计算框架中,他们称之为PrediXcan。该方法使用计算算法,基于大规模转录组数据集(如GTEx),来了解“基因组序列如何影响基因表达”。然后,可以用其对任何全基因组序列或芯片数据集,进行基因表达水平的估算。

已被测序、作为GWAS一部分的基因组,可以通过PrediXcan运行,以生成一种基因表达水平谱,然后对其进行分析,以确定基因表达水平与疾病状态或目标特征之间的相关性。

该方法不仅可以识别潜在的致病基因,还可以决定方向性——高或低水平的表达是否可能导致疾病或性状。由于该计算方法是以序列数据为基础,而不是物理测量,因此,它可以将基因表达的遗传决定组件(避免反向因果关系)和性状本身的影响(避免反向因果关系)及其他因素(如环境)区分开来。用PrediXcan,验证研究只需要至多测试几千个基因,而不是数以百万计个潜在的单基因突变。此外,该方法可用于再分析现有的基因组数据,以高通量的方式重点解决机制,从而填补GWAS研究的一大空白。

Im说:“这将我们了解的基因转录中的遗传变异结果整合起来,来寻找基因,而不只是研究突变。在某种程度上,我们正在确定基因影响疾病或性状的一种机制,这是基因表达水平的调控。”

虽然PrediXcan可以一种高通量的方式,确定基因和性状之间的联系,但是Im指出,因为它是基于基因组序列数据产生估算,因此它对强烈的遗传性状是最准确的。然而,几乎所有的复杂性状或疾病都有遗传成分。该方法可被用来预测这些成分的影响,从而减少后续研究的复杂性。

Im现在正在努力提高PrediXcan的预测能力,并将其应用于精神疾病。此外,她正努力扩大其基因的表达水平,以预测疾病或性状和蛋白水平、表观遗传学等测量(可基于基因组数据进行估计)之间的关系。

Im说:“GWAS研究一直都极为成功地用于发现疾病相关的遗传关联,但它们无法解释背后的机制。我们现在有一种计算方法,可以让我们了解GWAS研究的结果。”

本文来源于:生物通


欢迎关注中科紫鑫人事招聘相关信息:http://www.ngscn.com/index.php/Job/employ

;