查看原文
其他

中心成果 |《面向北京冬奥会的机器翻译》项目资源和系统成果介绍

高而杰 语言资源高精尖创新中心 2022-06-09

 导 语 


自2016年成立至今,语言资源高精尖创新中心(以下简称“中心”)已经走过近五年的建设发展历程,并将于2021年4月迎来五年建设终期评估。近五年来,中心签约23个在研项目,着力建设“语言资源库”、“语言文化博物馆”“‘语言通’智能服务”三大工程,取得了诸多丰硕成果,具体包括18个语言数据库(集)、11个应用系统。其中,18个语言数据库(集)包括:世界语言基本信息库、一带一路国家语言文化核心资源集、中国周边国家(6国)语言资源集、用于语言识别的世界语言资源集、海外华语资源库、俄汉大规模语汇库与句对库、中阿语言资源集、中俄日韩英对齐4000词汇库、用于句法分析的大规模汉语语料库、汉语国际教育优质学习资源集、全球汉语中介语语料库、面向智能语音教学的汉语中介语语音库、中俄经贸合作信息库与双语合同文本库、冬奥会多语言术语资源库、面向冬奥会的机器翻译资源库、大规模冬奥项目知识图谱资源集、中华经典诗词资源集、汉学研究文献库和人才库等。中心开发的应用系统包括:冬奥术语库系统、冬奥机器翻译系统、智能化冬奥项目问答原型系统、中俄语商通系统、海外华语资源系统、SAIT汉语智能发音教学系统、“文心”智能作文批改系统、全球语言文化资源采录展示系统、《疫情防控外语通》在线查询系统等。本公众号自今日起,将推出“中心成果”系列文章,陆续介绍中心各项目的资源、系统成果。今日,我们首先推送《面向北京冬奥会的机器翻译》项目资源和系统成果。





 项目介绍 


      《面向北京冬奥会的机器翻译》项目由语言资源高精尖创新中心特聘研究员、清华大学刘洋教授主持开展。项目于2017年立项,2020年11月开展结项工作。该项目面向北京市2022年冬奥会筹办工作的重大需求,对机器翻译展开深入研究,建立了面向冬奥会的机器翻译资源库,探索了基于深度学习的机器翻译理论、模型和算法,研制了支持中文和英文互译的冬奥会机器翻译系统,为《北京冬奥会语言服务行动计划》的跨语言术语服务平台和中心的“语言通”智能服务提供了关键技术支撑。



 资源库介绍及特点 


      本项目建设了面向冬奥会的机器翻译资源库,包括:

      中文-英文文本机器翻译资源库(112万句对)

      中文-英文语音机器翻译资源库(10万句对)

      中文-哈萨克文文本机器翻译资源库(10万句对)

      中文-哈萨克文语音机器翻译资源库(1万句对)


      资源库具备以下特点:

      1、资源规模大:中英平行语料库达到112万句对规模,这是目前已知世界上最大的面向冬奥会垂直领域的平行语料库。

      2、语种类型多:既包含以中文和英文为代表的资源丰富语言,又包含以哈萨克为代表的资源匮乏语言。

      3、领域覆盖全:既包含书面语,又包含口语,能够有力支撑冬奥会场景下正式和非正式场合下的机器翻译业务需求。

      4、模态支持好:既包含文本,又包含语音,为研制面向冬奥会的语音机器翻译系统提供了数据基础。



 冬奥机器翻译系统 


文本翻译系统


     项目完成中文-英文文本机器翻译系统、中文-哈萨克文机器翻译系统、中文-法文机器翻译系统,在冬奥会数据集上翻译性能超过主流在线翻译系统。

      系统目前处于内测阶段,完成后对外提供服务。




语音机器翻译系统


      项目针对北京冬奥会的使用场景,采用目前最前沿的深度学习技术搭建了一个移动端的语音翻译系统。系统的前端基于微信小程序开发,后端基于Flask开发。系统可以方便地部署在安卓系统和IOS系统中,只要安装了微信即可使用。

微信扫码体验

语音翻译小程序截图:中英翻译(左)、英中翻译(右)


      上图是微信小程序界面。小程序支持中英、英中两个方向的翻译。用户按住麦克风按钮话,系统将为其返回对应另一种语言的文本和语音。同时系统还会显示语音识别的结果,如果用户发现识别结果有偏差,可以手动更改,系统会自动检测用户修改情况并返回修改后的句子对应的翻译。



 项目意义 


      本项目的成果是突破冬奥会语言屏障、实现多语言环境下无障碍沟通的关键技术,不仅与中心的三大工程之一——“语言通” 智能服务密切关联,同时紧扣北京市做好2022年冬奥会筹办工作的重大需求,具有重要的应用价值。项目产生的资源、技术和系统能够为其他面向冬奥会的机器翻译系统与服务提供资源技术和系统上的有力支撑。





项目整体情况介绍视频



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存