智源研究院与清华联合发布超大规模预训练模型

智源研究院与清华联合发布超大规模预训练模型

11月14日,在北京智源人工智能研究院(简称“智源研究院”)2周年活动上,智源研究院与清华大学研究团队联合发布了清源 CPM (Chinese Pretrained Models) 研究计划,宣布建立以中文为核心的超大规模预训练模型,推动中文自然语言处理的研究与应用。

语言模型是指对自然语言文本进行概率建模的模型,它不仅可以估计任意一个给定文本序列的概率,也可以用来预测文本序列中某个位置上词的出现概率,是自然语言处理中的最基本问题。

当前,在人工智能与深度学习领域,围绕超大规模预训练模型展开的“军备竞赛”日益白热化,成为对海量数据、并行计算、模型学习能力的全方位考验。为满足我国人工智能领域的发展需求,亟需建立以中文为核心的超大规模预训练模型。

为此,智源研究院和清华大学研究团队联合发布清源CPM研究计划,旨在推动中文自然语言处理的研究与应用。清源CPM研究计划将依托智源研究院新建的人工智能算力平台,建立以中文为核心的超大规模预训练模型,进行基于超大规模预训练语言模型的少次学习能力以及多任务迁移能力研究,探索更具通用能力的语言深度理解技术。

据介绍,预训练模型的大量实验表明,更大的模型参数和更多的预训练数据,通常能够带来更好的下游任务效果,这类模型被证明在各种少样本学习自然语言处理任务中十分有效。

传统预训练模型往往需要经过有监督训练数据微调,才能解决各种自然语言处理任务。CPM研究计划建设的模型,从大规模的中文语料库中学习了通用的语言模式,有望显著提升中文自然语言处理各任务的性能。初步的实验表明,CPM模型能够用于问题解答、摘要和对话,以及生成各种文本,包括随笔、小说、代码、电子表格等。

与已有的中文预训练模型相比,本次发布的清源CPM大规模预训练模型具有显著特点。包括学习能力强,能够在多种自然语言处理任务上,进行零次学习或少次学习达到较好的效果;语料丰富多样,收集大量丰富多样的中文语料,包括百科、小说、对话、问答、新闻等类型;行文自然流畅,基于给定上文,模型可以续写出一致性高、可读性强的文本,达到现有中文生成模型的领先效果。

此外,清源CPM大规模预训练模型还有规模大的特点。该模型的参数规模、预训练中文数据规模、GPU数量等,与以往类似模型相比都具有明显的优势。

据悉,今年11月中旬,该模型将开放第一阶段的26亿参数规模的中文语言模型 (CPM-LM) 和217亿参数规模的结构化知识表示模型 (CPM-KM) ,以供研究人员下载使用。

版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。

;