Nature Method:大规模蛋白功能预测方法的评估
生物帮,2013-02-10
一个来自国际团队进行的CAFA实验,致力于提供分析和评估蛋白功能预测方法,现今他们公布了对于大规模蛋白功能预测计算模型的评估结果,他们利用54个蛋白功能预测方法对对来自11个物种866个蛋白进行测试,对这些公开和未公开的方法进行了详细的描述,相关研究成果于2013年1月27日发表在Nature Method杂志上。
蛋白质的功能的精确解析是在分子水平上了解生命的关键,对生物医学和制药具有深远的影响。然而,由于其固有的难度和费用,实验表征功能无法容纳现有的大量的序列数据。计算注释的蛋白质的功能,因此蛋白功能的相关计算成为计算分子生物学中的一个问题。
过去四十年中人们提出了许多解决方案,但是实验室计算模型功能预测常常依赖于一些传统方法,如鉴定结构域或者是在实验确定功能的蛋白间比对搜索工具(BLAST)。最近,数千种物种基因组测序信息提供了大规模的高通量实验数据,这为蛋白功能预测提供了新的方法。由此,人们提出了许多新方法来利用这些数据,如:从氨基酸序列预测功能、推断进化关机和基因组范围、蛋白-蛋白见互作网络、蛋白结构数据、microarrays又或者是数据的组合。这些方法均可为蛋白功能提供见解,并指导生物实验,但都不能综合评估大规模和多样的靶序列,因为目标提供准确解析存有实际困难。
此项研究公布了一个致力于提供分析和评估蛋白功能预测方法CAFA实验结果,尽管蛋白质功能可以通过不同方式描述,该团队专注于基因本体论(GO)计划。在长达15个月中,30个团队联合23个科研小组参与了这次试验。改团队尝试了54个功能解析算法来预测11个物种中866个蛋白序列。
此团队提供了蛋白功能预测计算模型案例,他们提供了一份有关人线粒体多核苷酸磷酸化酶1 (hPNPase)的详细分析。hPNPase是个大蛋白,具有783个氨基酸残基,7个PFAM结构域。人类PNPase具有几个实验室特定且确认的功能,这是它成为评估共功能预测方法效果的最佳选择的基础。
总之,调查结果显示:现今最好的蛋白功能预测算法,显著优于被广泛使用的第一代方法;尽管最好的方法能很好的指导实验,但仍然需要改善。
论文链接:A large-scale evaluation of computational protein function prediction