用人工智能技术保护方言

“克受”“陡子胀”“握心”“忒发麻”……当援鄂医护人员面对病患用武汉本地话表述症状时,沟通效率难免大打折扣。瞄准这一痛点,2月21日,讯飞输入法紧急上线了“武汉话转普通话”功能。该功能不但能把病人所说的武汉话识别为文字,还能以普通话自动播报,为医生迅速判断病情、对症治疗大开方便之门。

“从2月12日了解和瞄准这个需求,到上线这项功能,讯飞输入法团队前后开发的时间窗口不到10天。”输入法业务部总经理程坤在接受《中国科学报》专访时说,开发过程并不像时间上看起来的那样简单,武汉话不像粤语、东北话等使用人群广泛,在语料收集、医学专用语言训练等方面,都有不少挑战。

“武汉话转普通话”紧急上线

在医疗救助过程中,很多病患习惯说武汉话,尤其上年纪的老年人只会说方言,这让来自天南海北的医疗队有些犯愁。2月初,一个由多所高校发起的“战疫语言服务团”诞生,专门解决医患在沟通中的方言障碍。讯飞输入法团队也参与其中。

程坤告诉记者,对武汉话的识别和转换,讯飞输入法平台早已有些积累,但多为日常生活用语,难以满足医疗问诊场景下的深度对话交流。要满足条件,他们必须要尽快收集到足够多的医疗场景下的方言语料数据,然后通过专家标记让人工智能(AI)尽快“学习”这些表达。

“我们当时想了很多办法。一方面,通过讯飞在武汉的子公司发动人们收集医疗场景下的语料数据;另一方面,我们在线上发布了一个众包任务,向熟稔武汉话的人们众筹他们的声音。”程坤说,就这样,讯飞输入法在最短的时间内搜集到了足够的语料。

根据众筹来的语料,加上讯飞与中国声谷共建的“中国方言库”已有的累积,科大讯飞研究人员很快对医用和日常对话场景进行标注,在短时间内完成了武汉话与普通话对齐音频。程坤表示,尽管武汉话转普通话的功能所覆盖的人群不似粤语等广泛,但上线该功能也得到了非常积极的反馈。同时,通过迁移学习模型训练,该功能的开发上线还有效地提升了方言转普通话的效果。

“方言保护计划”持续行动

武汉话转普通话的功能,是人工智能用于方言识别的一个应用案例。在它的背后,是一项启动于2017年、名为“方言保护计划”的公益项目。

“讯飞输入法推出‘方言保护计划’,就是希望用人工智能技术实现方言永久留存,同时服务于人们打破方言交流的障碍。”程坤对《中国科学报》说,方言蕴含着灿烂的传统文化,承载着人与人之间的情感:“随着城镇化的加速,来自不同地区人们的交流日益加深,我们不希望方言文化在这个进程中慢慢消失。”

语言的流逝速度可能远超人们想象。据联合国教科文组织数据,目前世界上的语言大约有6000~10000多种,而其中大部分语言或将于本世纪末消失。在我国130多种语言中,有半数(68种)语言的使用人口在万人以下,其中有48种使用人口在5000人以下、25种使用人口不足千人。

“如果不能有效保护方言,我们将永久失去完整记录人类文化遗产的机会。”程坤说,这也是“方言保护计划”的意义——该计划希望通过全民参与共建“中国方言库”的形式,利用人工智能加快推进方言保护,为世界留下多彩乡音。

程坤介绍说,现在已经有63万人上传了超过110万条与文字对应的方言发音,这也帮助科大讯飞实现了23种方言的识别和11种方言的语音合成,基本上覆盖了中国主要的方言地区。

然而,正所谓“百里不同俗,十里不同音”,相比于中华民族广袤的地域文化传承和积累,仅“基本覆盖”还远远不够。

“现阶段,一地不同的方言之间的个性化差异,很多情况下只能暂时以一定的鲁棒性将其划分为一种方言,我们希望通过方言保护计划,动员更多的力量可以做的更精细一些。”程坤说,这一方面需要不同方言的语料支持,另一方面需要更多语言文字研究者从规律上、语言本质上发掘不同方言之间的异同。

这意味着,相对于已完成的工作,未来方言保护要走的路仍将是一项巨大的系统工程。

程坤告诉记者,希望更多高校和研究机构中研究学者、各地方言保护的社会团体、民间的语言爱好者、以及广大方言使用者通过方言保护计划,形成一股方言保护的合力。

进一步焕发方言生命力

方言保护之后,如何进一步焕发生命力?程坤认为,利用人工智能不仅能够实现方言的永久留存,也为传承和发扬方言文化提供了更多可能。

“我们可以把方言识别、合成等能力开放出来,让更多合作伙伴开发出各种方言智能语音产品,在解决方言用户沟通障碍的同时,打破场景限制,让方言延伸向更多的文化娱乐领域。”程坤说,讯飞正逐步将相关技术开放出来,供开发者调用。

“我们希望通过自己在方言保护做出的实际行动,呼吁更多的专家学者、方言爱好者、普通用户加入到方言保护计划中来,大家一起携手去传承、感受方言文化。”程坤说。

版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。

;