厦大团队2019年推出闽南方言人工智能语音系统
厦大版涉及文字,可将汉字转换合成闽南话发音
建立一套兼容各地不同口音的闽南话发音体系
制图/君陶
本月19日,在美国Meta公司公布闽南话翻译系统、Meta首席执行官马克·扎克伯格亲自演示系统把闽南话翻译成英语时,千里之外的厦门大学信息学院副教授、智能语音实验室负责人洪青阳收到一大堆朋友的简讯,他们迫不及待地想告诉他:小扎对闽南话下手了!但是,你们两年前不是已经推出闽南话翻译系统了吗?
是的!洪青阳科研团队和厦大人文学院许彬彬科研团队,在2019年推出闽南方言人工智能语音系统,这是一个听得懂闽南话、会说闽南话、也可以写的AI(人工智能)驱动的闽南话语音翻译系统,帮助许多人体会用“中国最难学方言之一”交流的乐趣和便利。
本报记者 佘峥
它能做什么?
可实时翻译还能识别文本
昨天,洪青阳在实验室演示厦大版的闽南话翻译系统。系统的小助手用闽南话说:听说现在可以将闽南话翻译成英语,真巧,我们也有闽南话AI……小助手一边说,系统实时把它的闽南话翻译成中文文字。
不仅听得懂,系统还会说。洪青阳随后示范实时翻译,他用闽南话说:即阵仔有闲无?系统可以立刻翻译为普通话“现在有空吗?”当然,用普通话说,系统也会翻译成闽南话,而且是有腔调的闽南话。小助手说,翻译不限短句,理论上说多长就可以翻译多长。
此外,系统还可以识别不同地区不同口音闽南话,包括厦门、泉州、漳州、潮汕等地。
洪青阳团队认为,从现有资料看,Meta是语音到语音的翻译,没有产生文字,技术方案是从端到端,研究具有开创性,但还不够灵活,比如不能形成识别文本,要延伸到其他应用较难。
在这方面,厦大版闽南话翻译系统,有其先进性——厦大版还涉及文字,可以将汉字转换合成闽南话发音,还有语音识别、合成工具,可以将闽南话翻译成普通话,普通话翻译成闽南话。
美国版闽南话翻译系统是把闽南话翻译为英语,洪青阳说,对于厦大版闽南话翻译系统来说,这毫无问题,最难的部分是将闽南话翻译并显示为普通话,而这已经解决了。
目前,厦大团队的闽南话翻译系统已经上线,在微信的小程序搜索“闽南话识别”和“AI语音合成”,就可以实现闽南话和普通话的无障碍沟通。
洪青阳说,2019年推出系统后,依旧在不断完善升级——当发音速度不一、吞音等情况出现时,系统的背后还有一位“把关人”。当遇上系统无法识别的语音时,许彬彬团队就会进行分析,把新的表达整理成文档,扩充词典和句子语料。与此同时,洪青阳团队在系统后台不断完善算法,以学习到更多口音和生僻词汇。
厦大团队昨天说,他们在实验室完成0到1的研发,希望有更多人和社会资源参与进来,完成1到100的产业化,助力于闽南话学习和人际交往等等。
它牛在哪里?
听得懂不同口音的“猪”
闽南话的AI翻译,难度不小。闽南话存在非常多的多音字,复杂的文白现象,有音无字的问题等,洪青阳说,这对训练模型中语音数据与其对应音素的正确映射,带去较大的麻烦。
举个例子大家或许就会明白,厦门人经常说,“猪”牵出厦门岛就不叫“猪”了,意思是说,单是“猪”,岛内和岛外发音就不一样,更不用说厦漳泉地区了。厦大版的闽南话翻译系统解决了这类难题,从目前看,有三大亮点。
有地基
重新建立闽南话发音词典
洪青阳介绍,翻译的最大难题是要如何把闽南话发音拆分为声母和韵母,它不同于普通话的声母韵母,尽管之前也有一些闽南话的标音方法,但是,厦大团队发现,这种自创的闽南话发音难以和AI有机结合起来,因此厦大研究人员自己建立一套兼容各地不同口音闽南话发音的体系,等于是为各种口音的闽南话建立一个基本的“地基”,当然,它不同于普通话发音,它是有九个声调的。
有资料库
囊括厦漳泉多地的语音资料
建立语音资料库,用大白话说,这个语音资料库要有足够多人的语音,口音要不同,还要有男女老少语音,这样,AI才会通过语音资料库去识别不同地区不同口音的闽南话。
这是基于许彬彬近十年来的研究成果。许彬彬带领团队借鉴整理了大量语音资料——囊括省内厦漳泉多地的闽南方言、文本,甚至收集境外多处讲闽南话的地点的语音材料。
此外,每到寒暑假,许彬彬团队还会去各地进行田野调查。许彬彬早前接受本报采访时曾介绍:“省内的德化、漳浦、南靖、东山等,以及菲律宾北部城市、美国东部地区,每一个地点至少要停留5天,尽可能全面地收集该地区语音资料。”
有模型
设计声学模型和语言模型
洪青阳团队设计了闽南话的声学模型和语言模型,其中声学模型与发音词典关联,尽可能学习到各地的口音,以不断提升系统的鲁棒性(控制系统的稳定性),语言模型则采用具有丰富语料的普通话文本训练,对用户上下文内容进行有效约束。
洪青阳说,这里的难点是闽南话拼音和普通话词汇的对应,团队因此又设计了识别词典,并整合到解码系统里,最终能直接用普通话文字显示识别内容。对于语音合成,洪青阳团队采用端到端建模框架,并做了前端的大量优化,使闽南话合成更加自然,更加逼真,也更快捷。
除了许彬彬所提供的语音资料外,他们还邀请了众多志愿者参与识别测试,让系统“学习”不同口音的闽南话。待系统基本“学会”不同口音的闽南话后,洪青阳又给系统加大了难度——文读(读书认字时教的语音)和白读(日常生活中广泛使用的语音)都要会。
闽南话中存在大量多音字,有着复杂的文读白读现象,以“大学”这一词为例,就有文读和白读两种读法。研究人员对闽南话语音识别采取了特定规则的发音词典标注,并用革新后的算法建立了闽南话语音识别模型。
为什么选它?
全球约七千万人说闽南话
在美国Meta公司公布闽南话翻译系统后,很多人很吃惊:为什么是闽南话?
原因也很简单,目前,全世界大约有7000万人在说闽南话,分布在福建的厦、漳、泉地区,台湾地区,广东潮汕,雷州半岛,海南岛部分地区以及浙江温州部分乡镇等,此外还有广阔的东南亚。与此同时,闽南话被称为“中国最难学方言之一”。
2013年,洪青阳和许彬彬团队开始闽南话翻译系统研究,洪青阳说,这源于团队中不少人都是闽南人,有闽南情怀。而且,闽南话是我国重要方言之一。与此同时,许彬彬深耕闽南方言等汉语方言研究多年。
当然,Meta公司认为,之所以选择闽南话,还有一个原因:为了解决缺乏文字语种的语言翻译难题。但是,洪青阳说,其实闽南话是有用于书面记载的文字和发音词典。
扫码查看精彩视频