查看原文
其他

中心成果 |《汉语中介语语料库建设创新工程》项目成果介绍

高而杰 语言资源高精尖创新中心 2022-06-09

 导 语 


自2016年成立至今,语言资源高精尖创新中心(以下简称“中心”)已经走过近五年的建设发展历程,并将于2021年4月迎来五年建设终期评估。近五年来,中心签约23个在研项目,着力建设“语言资源库”、“语言文化博物馆”“‘语言通’智能服务”三大工程,取得了诸多丰硕成果,具体包括18个语言数据库(集)、11个应用系统。其中,18个语言数据库(集)包括:世界语言基本信息库、一带一路国家语言文化核心资源集、中国周边国家(6国)语言资源集、用于语言识别的世界语言资源集、海外华语资源库、俄汉大规模语汇库与句对库、中阿语言资源集、中俄日韩英对齐4000词汇库、用于句法分析的大规模汉语语料库、汉语国际教育优质学习资源集、全球汉语中介语语料库、面向智能语音教学的汉语中介语语音库、中俄经贸合作信息库与双语合同文本库、冬奥会多语言术语资源库、面向冬奥会的机器翻译资源库、大规模冬奥项目知识图谱资源集、中华经典诗词资源集、汉学研究文献库和人才库等。中心开发的应用系统包括:冬奥术语库系统、冬奥机器翻译系统、智能化冬奥项目问答原型系统、中俄语商通系统、海外华语资源系统、SAIT汉语智能发音教学系统、“文心”智能作文批改系统、全球语言文化资源采录展示系统、《疫情防控外语通》在线查询系统等。本公众号自2020年12月17日起,推出“中心成果”系列文章,陆续介绍中心各项目的资源、系统成果。今日,我们推送《汉语中介语语料库建设创新工程》项目成果。





 项目介绍 


《汉语中介语语料库建设创新工程》项目由语言资源高精尖创新中心特聘研究员、北京语言大学张宝林教授主持开展。项目于2017年立项,2020年11月开展结项工作,课题旨在建设一个最好最大的通用型汉语中介语语料库。

汉语中介语语料库建设创新工程核心成果包括三项,一是资源成果,即“全球汉语中介语语料库”(以下简称“全球库”):二是技术成果,即“语言库建设与应用综合平台” (以下简称“平台”);三是学术研究成果,即“汉语中介语语料库建设标准”“汉语中介语语料库标注规范”



 资源成果 


项目建成“全球汉语中介语语料库”,全球库语料资源丰富,规模庞大,类型全面。原始语料总字数达2275万字,标注语料达到1.15亿字,包括来自111个国家和地区(语料不足10篇的国家和地区未予统计)汉语学习者的笔语、口语及视频语料,全面展现了外国人学习汉语的整体面貌。

秉持为全世界汉语教学与研究服务的宗旨,全球库于2018年4月上线试用,于2019年3月4日正式向全世界各界用户免费开放。


全球库具备以下特点:

语料更加丰富。大力充实了欧美国家学习者语料,非洲国家学习者语料也有所增加;区分了华裔汉语学习者语料与非华裔汉语学习者语料信息,以利研究。标注内容全面且尝试进行自动化标注:进一步完善了字、词、句、标点符号的标注,丰富了语篇标注,增加了短语、语体和辞格标注,以及口语语料和视频语料的语音标注,视频语料的体态语标注。对繁体字、异体字、字词层面的语体分类进行自动标注。全球库检索方式多样。设置了“字符串一般检索”、“分类标注检索”、“离合词检索”、“特定条件检索”“词语搭配检索”、“按词性检索”、“按句末标点检索”、“单来源对比检索”“两个来源对比检索”、“生语料检索”八项检索方式。全球库采用“全球共建,各尽所能,精诚合作,共襄盛举”的方式进行建设,海内外汉语学界合作共建汉语中介语语料库。



 技术成果 


项目建成语料库建设与应用综合平台。该平台是一个集成性的网络软件系统,集语料的上传(含单篇语料上传和批量语料上传两种方式)、录入与转写、标注、统计、管理、检索、众包修改维护、升级迭代扩展等八大功能于一体,可以在线完成语料库建设与维护的基本环节,同时生成语料检索系统,全球库的工程建设部分全部是在该平台上完成的。

该平台具有软件系统集约化、建设流程标准化、建设方式网络化与一定程度的自动化、移植推广灵活化等特点,从软件系统开发的角度推动了语料库建设的标准化、自动化,科学化,使语料库可以持续扩展、更新迭代。



 学术研究成果 


在语料库建设的本体研究方面,项目研制了“汉语中介语语料库建设标准”“汉语中介语语料库标注规范”。这些研究工作在一定程度上促进了语料库建设的标准化、规范化、通用化与资源共享。





全球库及平台链接:http://qqk.blcu.edu.cn/

全球库及平台使用介绍视频

(2019年10月录屏视频)



▼延伸阅读▼




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存