查看原文
其他

中心成果 |《海外华语资源库建设》项目成果介绍

高而杰 语言资源高精尖创新中心 2022-06-09

 导 语 


自2016年成立至今,语言资源高精尖创新中心(以下简称“中心”)已经走过近五年的建设发展历程,并将于2021年4月迎来五年建设终期评估。近五年来,中心签约23个在研项目,着力建设“语言资源库”、“语言文化博物馆”“‘语言通’智能服务”三大工程,取得了诸多丰硕成果,具体包括18个语言数据库(集)、11个应用系统。其中,18个语言数据库(集)包括:世界语言基本信息库、一带一路国家语言文化核心资源集、中国周边国家(6国)语言资源集、用于语言识别的世界语言资源集、海外华语资源库、俄汉大规模语汇库与句对库、中阿语言资源集、中俄日韩英对齐4000词汇库、用于句法分析的大规模汉语语料库、汉语国际教育优质学习资源集、全球汉语中介语语料库、面向智能语音教学的汉语中介语语音库、中俄经贸合作信息库与双语合同文本库、冬奥会多语言术语资源库、面向冬奥会的机器翻译资源库、大规模冬奥项目知识图谱资源集、中华经典诗词资源集、汉学研究文献库和人才库等。中心开发的应用系统包括:冬奥术语库系统、冬奥机器翻译系统、智能化冬奥项目问答原型系统、中俄语商通系统、海外华语资源系统、SAIT汉语智能发音教学系统、“文心”智能作文批改系统、全球语言文化资源采录展示系统、《疫情防控外语通》在线查询系统等。本公众号自2020年12月17日起,推出“中心成果”系列文章,陆续介绍中心各项目的资源、系统成果。今日,我们推送海外华语资源库建设项目成果。





 项目介绍 


《海外华语资源库建设》项目由语言资源高精尖创新中心特聘研究员、暨南大学郭熙教授主持。项目于2017年立项,2021年1月开展结项工作。

海外华语是全球华人共享的社会资源,它既是经济资源、文化资源,也是个人资源;它是汉语传播、传承的重要组成部分,也是语言智能研发的重要数据基础。本项目从全球视角构建全球华语资源库。项目意义重大:

1.构建海外华语语料库,和国内汉语语料库一起,构成全球汉语的语料库一体化系统;

2.海外华语资源库是全球华语视野下汉语研究新突破的重要数据基础;

3.海外华语资源库是汉语国际教育和汉语国际传播的重要支撑;

4.描写、展示海外华语面貌,抢救性记录和保存华语语言资源,是保护民族语言文化遗产的历史使命,是践行保护人类语言资源的实际行动;

5.海外华语资源库对社会语言学、人类语言学、语言地理学,甚至文化学、人类学、传播学、文学研究都有重要的数据支撑意义;

6.海外华语资源库等基础信息库将为国家语言战略尤其是“一带一路”语言规划提供数据和信息参考,是建设“全球华语学”的前期基础工作;

7.在语言经济学视野下,海外华语资源库的基础信息有利于规划华语传播和华语市场,培育、带动全球华语经济。

海外华语资源库建设层级体系



 资源成果 


本项目编写了《海外华文教育口述史资源库信息描述字段》《华侨华人华语信息库描述字段》《华语多媒体语料库信息字段》《华文教育口述史调查指导手册》等手册,并完成了资源库计划的三个子库建设:

(1)华侨华人华语基础信息库


项目完成了华侨华人人口信息数据,华语研究文献资源,相关国家语言政策资料、华语文政策研究资料、华校和相关教育机构以及华侨华人社团信息的采集工作。例如,华侨华人人口信息数据库以洲际国别为单位,以共时层面的数据为主,历时层面为辅,采集整理了5大洲183个国家和地区的华侨华人人口等方面的数据信息。亚洲(49个国家和地区)非洲(29个国家及地区)欧洲(41个国家)美洲(49个国家和地区)大洋洲(15个国家及地区)华校和相关教育机构的信息数据库目前共采集了420所华校及116个华教组织的信息。420所华校的分布信息为:亚洲162所、欧洲158所、大洋洲23所、北美62所、南美8所、非洲7所。116个华教组织的分布信息为:亚洲44个、欧洲35个、大洋洲7个、北美18个、南美8个、非洲4个。华文政策研究资料方面目前已收集了晚清、民国、建国后的华文教育的政策文件,共约9.4万字。“海外早期华文报章文献分类语料库”从《叻报》《新国民日报》《振南日报》《中兴日报》《总汇新报》《槟城新报》等早期华文报章辑录重要文献13400余篇,按照“国语推广”“华文教育”“侨民新闻”“社论”“图文广告”“文艺作品”等进行了分类。对与当前华语研究直接相关的文献进行了部分转写(120万字),并进入了Emeditor检索程序,可按照关键词进行全文检索。 

(2)华语传承口述史资料库


海外华语传承口述史资源库是中华语言文化传承体系的重要组成部分,海外华语传承口述史研究是一项“留根铸魂”的学术工程。再现华教精英的光辉事迹、生命历程、实践体验和动人话语,提炼他们维护华语文事业的精神核心,可以接续中华语言文化海外再生的动力。项目从对海外华语资源的抢救性搜集出发,采集到一批规模庞大、价值珍贵的海外华语传承口述史料和实物资料,建成“覆盖广泛、人物典型、形态多样、真实生动”的海外华语口述史资源库。目前已经访谈了33个国家和地区268位调查对象,涵盖重要人物音像400小时,口述实录材料50万字,珍贵文献档案100余件。

调查提纲涉及华语传承40大类重要问题,调查样态包括口语、图像、影像、实物等多模态数据,第一次全面、系统、深入、真实地记录海外华语传承口述历史。访谈对象包括华社团体领袖、华文教育行业精英、一线华文教师、主流华文媒体管理者等代表。受访者年龄以70岁以上为主,其中多位年龄超过80岁,最长者已有92岁。目前,第一批访谈资料已经完成文本转写,校对工作也在开展中。项目有幸保留了很多弥足珍贵甚至鲜为人知、不曾公开的资料。在项目开展过程中,有三位高龄重要受访者陆续辞世,抢救工程是在和时间赛跑!

郭熙教授在印尼泗水访谈爪哇前华文教育协调机构主席符福金先生

(符福金主席于2021年1月3日辞世)

2019年4月访谈郭全强主席(郭主席2019年11月去世)

2017年在台北访谈台湾世界华语文教育学会理事长董鹏程先生

(2018年在广州再次访谈,2019年9月,董先生辞世)


(3)多模态华语语料库


包含9个子语料库,目前语料规模如下:(1)海外主要华文媒体(网站、报纸)语料库,约7亿字;(2)华裔学习者汉语口语语料库,约400万字;(3)小学初中华文教材语料库,约100万字;(4)华裔学习者口语语料库,约20万字;(5)海外华语口语语言生活的录音录像,约20G;(6)海外华语语言景观图片20000余张;(7)完成东南亚华文媒体特殊用字数据库建设;(8)海外华语文学作品语料库,已完成约500万字;(9)华侨华人访谈录口语语料库,已完成约60万字(人工校对)。




 系统成果 


项目建设了全球华语语料库在线检索系统,包括(1)海外华语例句网络检索系统;(2)海外华语字词网络检索系统。网络版的在线语料(华文报纸、网络、教材、作文、口语、有声)检索系统,可以检索任意字串或符号,可以利用规则进行高级检索,例如“与、或、非”的检索、距离检索等等。

东南亚华文媒体语料库单个关键词例句检索示意图



东南亚华文媒体语料库多个关键词例句检索示意图


网络版的语料库用字用语检索系统,可以检索任意汉字或词语在各个媒体子语料库中的详细使用情况,例如汉字在各个媒体中的类别(规范字或繁体字、异体字等)、频序、频次、频率、覆盖率、使用率、文本数、文档频率以及该汉字在中国大陆语料库中的详细使用情况。

东南亚留学生作文语料库字词检索示意图

口语语料库字词检索示意图



全球华语语料库在线检索系统网址





点击“阅读原文”前往海外华语中心官网
https://huayu.jnu.edu.cn/
滑动页面至底部可找到系统入口


延伸阅读

中心成果 |《面向北京冬奥会的机器翻译》项目资源和系统成果介绍中心成果 |《汉语中介语语料库建设创新工程》项目成果介绍中心成果 |《基于知识图谱的北京冬奥智能问答系统》项目成果介绍
中心成果 |《新选中国名诗1000首:当代诗学名家经典选释系列》项目成果介绍中心成果 | 《中文句法语义分析及其应用》项目成果介绍


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存