Nature子刊:瑞典新研发蛋白质分析法发现假基因也能编码蛋白质

瑞典卡罗林斯卡研究所生命科学实验室的研究人员最新研发一种蛋白质分析方法,通过这种方法,发现接近一百种编码蛋白质的人类新基因区域。而其中有许多的区域都是所谓的假基因,这或许与癌症有关。这一研究成果有可能将开辟一个全新的领域。相关文章发表于2013年11月17日的《Nature Methods》杂志上。

所有关于人类基因组的信息都储存在细胞核的DNA序列中,在21世纪初科学家们即绘制出了这些信息图谱。基因是指规定编码不同类型蛋白质的部分DNA。在过去的几十年里,研究人员采用DNA分析定义了大约2.1万个人类蛋白质编码基因。在不同的细胞类型中,不同蛋白质的编码基因或是处于活化或是处于失活状态,许多的医学疾病也与特异基因活性改变有关。

人类基因组只有大约1.5%的DNA是由蛋白质编码基因构成。在剩余的DNA中,一些序列用来调控基因的蛋白质生成,但大部分的DNA都被认为缺乏用途,通常称之为“垃圾DNA”。在垃圾DNA中存在着所谓的假基因。人们一直将假基因视作是无功能基因,认为它们是进化过程中丧失了功能的基因残留物。

在当前的论文中,研究人员提出了一种新的蛋白基因组学方法,使得能够追踪基因组剩余98.5%DNA中的蛋白质编码基因,这是一项直到现在都被视作是不可能完成的任务。研究表明,一些假基因生成了蛋白质,表明它们确实具有功能。

研究的领导者、副教授Janne Lehtiö 说:“为了能这样做,我们不得不将实验肽序列数据与全基因组中数百万可能的位点进行匹配。我们必须开发出新的实验和生物信息学方法才能进行基于蛋白质的基因检测,但当我们一切就绪时,感觉就像是在基因组中参加一次Jules Verne 秘密冒险。”

Lehtiö研究小组发现了人类基因组中存在近百个新蛋白质编码区域的证据。在来自小鼠的细胞中也获得了相似的研究结果。其中许多由假基因编码的新蛋白在其他的癌细胞系中也可以追踪到,研究人员的下一个工作事项是调查:这些存在于基因组“垃圾场”中的基因是否在癌症或其他疾病中起作用。

Lethiö说:“我们的研究挑战了假基因不编码蛋白质的旧理论。所提出的方法允许在具有复杂基因组的生物体中基于蛋白质进行基因组注释,可促使不仅在人类中并且在任何具有已知DNA序列的物种中发现许多新的蛋白质编码基因。”

原文摘要:

HiRIEF LC-MS enables deep proteome coverage and unbiased proteogenomics

Rui M M Branca Lukas M Orre Henrik J Johansson Viktor Granholm Mikael Huss Åsa Pérez-Bercoff Jenny Forshed Lukas Käll Janne Lehtiö

We present a liquid chromatography–mass spectrometry (LC-MS)-based method permitting unbiased (gene prediction–independent) genome-wide discovery of protein-coding loci in higher eukaryotes. Using high-resolution isoelectric focusing (HiRIEF) at the peptide level in the 3.7–5.0 pH range and accurate peptide isoelectric point (pI) prediction, we probed the six-reading-frame translation of the human and mouse genomes and identified 98 and 52 previously undiscovered protein-coding loci, respectively. The method also enabled deep proteome coverage, identifying 13,078 human and 10,637 mouse proteins.

;