查看原文
其他

语料库语言学︱语言数据资源建设中的关键问题及对策

《语料库语言学》

主编 许家金


本文作者:上海大学 钱小飞

选自《语料库语言学》第16辑

提要:语言数据资源包括语料库和语言知识库,是语言服务和语言信息处理的重要支撑。本文分析了我国语言数据资源建设中存在的质量问题、发展不平衡问题、规范与评价问题、版权与共享问题,以及学科建设问题,并从理论建设、项目规划、管理与支持、规范与标准建设、版权研究、团队合作与人才培养等角度提出了14条建议,以推进我国的语言数据资源建设,弥补现有短板,面向未来语言学理论研究和应用发展的需求。


关键词:语言数据资源、建设、宏观问题、发展建议

1引言


语言服务不仅需要完善技术手段,建设语言资源也是重要方面。加强语言资源建设,是当前我国语言文字事业的重要任务。1991年,为了适应汉语语料库建设的需要,国家语言文字主管部门就已经把建立现代汉语语料库列入国家语言文字工作10年规划和“八五”计划。2016年,《国家语言文字事业“十三五”发展规划》进一步提出要加强语言资源建设的管理和统筹协调,研发基础语言资源库,建设国家语言资源服务系统,促进语言资源开放共享。


语言数据资源是语言服务和语言信息处理的重要支撑。这些语言数据资源包括语料库和语言知识库。冯志伟(2009)认为我国的基础资源开发“缺乏行之有效的国家标准和规范,至今我国还没有建立起权威性的国家语料库和语言知识库”。“对中国学者而言,如果狠抓各类有用数据,包括无标注、有标注的数据,就很有希望实现赶超”(连谊慧 2016:67)


语言数据资源建设主要讨论语言数据资源的规范标准、规划设计、需求分析、建设过程、建设技术和资源使用等方面的问题。本文主要关注规范标准、规划设计、需求分析和资源使用中的宏观问题,而不涉及建造过程、建造技术以及具体语料库建设的中观和微观研究。相关研究的任务是:反思当前语言数据资源建设研究的现状,提出相应的对策;以前瞻性的眼光研判语言数据资源建设未来发展的方向,规划语言数据资源建设的发展路径。

2 语料库建设中的宏观问题及发展建议


我国语料库研究起始于20世纪80年代,并在过去20多年中得到了迅猛的发展。国内语料库建设既包括通用语料库建设,也包括专用语料库建设,主要集中在三个方面:母语语料库、中介语语料库和双语语料库,这些语料库主要服务于语言研究、语言教学、语言翻译和自然语言处理等。尽管我国已经建成了一批面向公众开放的语料库,规模从百万字级到百亿字级不等,但目前仍存在不少问题。


2.1 语料库建设质量问题


我国大多数语料库质量不高,主要表现在四个方面:代表性不足、加工深度较浅、软件开发不足、规范性不够。


2.1.1 代表性不足

由于口语语料采集难度高,转写工作量大,通用语料库中口语语料往往占比较少。多模态语料库加工工作量大,标注难度高,规模常常受到限制(黄立鹤 2015)。而双语语料库的译文存在错误和不够地道的问题。这些都削弱了语料库的代表性。专用语料库建设也存在类似的问题,比如,我国的学习者语料库建设规模远远小于国外大型语料库,语料采集大多以容易收集或能够获得为准,但代表性和平衡性不一定合理或不足以支持研究(郑艳群 2013)。我国也还未建成较为系统、完善的手语语料库,尽管手语有地域特色,但受研究人员数量和经费的限制,很难在全国范围密集采样,往往按地域或就近取样,因此所收录语料范围较窄(张晓梅 2014),采样密度也较低。


2.1.2 加工深度较浅

大多数语料库加工到词性标注层面,加工深度较浅,大规模深加工的语料库,如句法树库,语义标注语料库数量少、规模小。造成这一现象的主要原因是,深加工语料库需要更多专业标注人员,更多的经费和时间投入,质量控制难度大。


2.1.3 软件开发不足

缺乏成熟的语料库软件支持也是加工深度较浅的重要原因之一。语料库的深加工需要高准确率的加工软件,但现在对语料加工技术及软件的研究还不能满足现实的需要。特别是在多模态语料库建设方面,我国的研究才刚刚起步,其标注工具的数据集成和检索功能有限,标注方案尚不够成熟,缺乏业界共识。


2.1.4 规范性不够

我国的语料库建设规范性不足,由于语言资源描述缺少共识,导致投入大量资金和人力建成的众多语料库结构上存在很大差异,缺乏模块性,难以重组使用。何婷婷、沈辉宇(2005)总结了元数据的采集和标注中存在的问题:一是元数据详略不一;二是没有统一的元数据命名标准;三是缺少统一的机读格式。此外,语料描述信息不够完整,标注规范与国际标准不一致,对于数据存储管理的信息缺少明确、规范的说明(傅爱平、宋培彦 2005)也是常见问题。专用语料库往往因为建设经验有限,难以形成建库的共识和标准,从而存在更多的规范性问题。少数较为依赖语料库研究的领域形成了国家标准,如术语研究领域。更多的领域则还没有统一标准的指导,如国际汉语教学领域。不同的中介语语料库在语料收集的原则与类型、规模和方式,背景信息的项目与内容,语料标注的范围、项目、方法与附码的设置,语料及相关背景信息检索与呈现的内容、方式等诸多方面存在不一致,造成质量与功能上的不足,难以满足用户的科研和应用需求。


2.2语料库发展不平衡问题


语料库发展不平衡体现在五个方面:一是书面语语料库占绝大多数,口语语料库数量很少;二是单语语料库占大多数,双语语料库数量少;三是文本语料库占绝大多数,多模态语料库很少;四是方言语料库建设薄弱,远远落后于普通话语料库;五是少数民族语料库的数量和质量都远远落后于汉语语料库。


专门用途语料库发展不均衡还表现在学科领域方面,集中在新闻、法律等传统领域,而新兴领域分布很少(董爱华 2013)。此外,相比于通用语料库,专门用途的双语语料库不仅数量少,而且用途单一,主要是面向翻译研究的平行语料库。具体到国内学习者语料库,发展不平衡的问题还包括:口语语料库建设落后于书面语语料库;多为共时语料库,追踪学习者语言动态发展的历时语料库匮乏;基本取材自语言等级水平测试作文,日常语言输出材料少(徐秀玲、许家金 2017);以亚洲国家留学生语料为主。


语料库发展不平衡有两个方面的原因。一是人力、物力和技术方面的限制使得建造特定的语料库较为困难,如口语语料库、方言语料库的采集和转写难度较大,因而建造难度大;二是我们的认识和行动还没有及时跟上现实需求,如随着专门用途英语需求快速增长,对专门用途语料库的需求增加,但相关的语料库建设尚不能满足现实需要。对多模态语料库而言,两种因素都存在:一方面,多模态语料库对未来自然语言处理和人工智能的研究具有重大意义,应用前景广泛, 产业界已经开始相关研究,但在学界尚未引起足够的认识和重视;另一方面,多模态语料库的标准建设、加工技术难度很高,人才储备不足。


2.3语料库建设的规范和评价


制定建设规范是语料库建设的重要任务。何婷婷(2003)指出,规范化是实现语料库共享、集成,开展语料库之间比较研究的基础,也是减少语料库重复开发的关键。


语料库建设的规范可以分为编码规范和内容标注规范。编码规范由行业惯例和国际标准主导,国内语料库研究领域的语料标注多使用行业惯例,而较少使用国际标准,这在一定程度上不利于语言资源的共享。因此,为了实现语料库的共享,方便数据交换,实现网络环境下的语料库集成,必须在国际标准和行业认同的基础上,建立统一的语料库编码规范标准。其中,元数据规范化是语料库标注规范中最有条件、最容易实行的规范(何婷婷、沈辉宇 2005),但国内目前仍然缺乏广泛认同的标准或行业规范。在内容标注规范方面,尽管国家出台了《信息处理用现代汉语分词规范》《信息处理用现代汉语词类标记规范》等文本语料库标注标准,但作为推荐性标准,行业采用率并不是很高,还在此基础上形成了多种难以沟通的修订方案,造成了语料库之间的异构性,资源之间难以相互转换导致重复建设。此外, 多模态语料库无论在元数据还是内容标注方面都未能建立广为接受的规范标准。


专用语料库的标准建设更是迫在眉睫。目前仅有术语研究等少数领域建立了国家标准或行业标准,大多数领域标准和规范阙如,制约了相关的语料库建设和使用。例如,建设标准的缺位影响了汉语学习者语料库的建设水平,但长期的建库实践也奠定了标准研究的基础,当前标准研究的时机已经成熟,亟需开展专项研究(张宝林、崔希亮 2015)


与语料库规范相关的是语料库评价问题。何婷婷(2003)提出要重视对语料库质量和代表性的科学评价,研究实用的语料库评价体系。但目前对语料库评价问题的关注仍然不够,研究进展有限。


2018年,中国翻译协会发布了由学界和产业界联合起草的《语料库通用技术规范》,描述并规定了语料库的建设与加工、管理与维护、交易与共享等的基本框架,但通用的元数据标注、内容标注和语料库评价的具体规范仍需进一步探讨和细化。


无论是语料库建设标准还是评价体系的制定、推广和使用,凝聚共识是必不可少的。共识不仅是学术思想的共鸣,也是参与其中的心血。目前语料库建设的标准基本是推荐性的,在缺乏强制性的前提下,只有在高水平研究机构的主导下,通过广泛的社会协商,建立起良好的生态,才能更好地发挥这些标准的作用,推动其迭代更新。如果仅仅依赖少数机构制定标准,而缺乏共识和共同行动,容易导致研究单位各自为政,制定不同的语料库建设方案,致力于扩张自身影响力。这也是我国的语料库建设缺乏一致性的重要原因。


2.4 语料库的共享与版权问题


随着国家对于语料库建设的重视,语料库建设项目增多,也出现了重复投资、缺乏共享、资源利用率不高的问题。肖忠华(2015)指出,大多数政府资助的语料库项目在建成后仅供内部使用,导致资源利用率低,进而引起重复投资。其中,低层次语料库的重复建设是常见的问题。


语料库共享是语料库价值的体现,也是学科发展的趋势。语料库的共享需要加强共享平台和制度的建设。


一些学者对语料库共享的方式进行了研究。胡凤国(2004)认为Web检索是推动语料库共享进程的较好思路。刘日升、杨振力(2012)提出建设由图书馆主导的语料库资源共享平台的设想。目前看来,语料库的Web检索已成为语言学研究领域的主要共享方式,但对于语言信息处理研究而言,往往需要语料库全文或子库,却常常难以获得。正如谭晓平(2014)所言,如何最大范围地实现资源共享,让语料库的受益群体最大化,仍然是值得研究的课题。


另一些学者主张改进学术管理制度,加强项目管理,促进语料库共享。肖忠华(2015)建议有关部门出台规定,国家和省部级纵向课题必须在结题后一定时间内向公众开放所建语料库。张宝林、崔希亮(2015)则提出将数据共享作为公开资助的前提和项目的考核指标,并纳入国家科研管理部门的明文规定。进一步研究和落实这些措施,将极大地提升语料库的资源利用率,同时也有助于保障语料库项目的研究质量。


事实上,语料库共享困难除了管理制度原因外,常常还有版权原因。语料库的版权保护问题涉及两个方面:语料库制作者的知识产权和语料作者的知识产权。


一方面,保护语料库制作者的知识产权是促进语料库共享的基础。一些版权问题是因为语料库设计不合理造成的,比如因收录大量全文而引起的版权问题,限制了语料库的对外开放(肖忠华 2015),因此合理设计语料库,与版权方加强沟通,是解决此类问题的关键。另一些版权问题与版权保护制度有关。程亚丽、王海萍(2012)认为我国版权保护制度不完善,制约了语料库的应用,不仅要利用《著作权法》对语料库实施版权保护,也要借用《反不正当竞争法》,参照欧盟及美国的数据库特殊保护措施制定适合中国的语料库特殊保护法规。


另一方面,保护语料作者的知识产权常常对语料库建设和共享造成限制。程亚丽、王海萍(2012)和甘莹(2015)认为,不经过原出版者和原作者同意将语料收入语料库违反了《著作权法》,而要取得同意、支付报酬,因知识产权所有人数量庞大,语料库制作者也难以完成。因此,语料库保护立法既要坚持版权保护的基本原则,也要正视无法逐一获得授权的现实。这样的观点值得进一步讨论。


此外,隐私保护也是影响语料库共享的因素之一。张宝林、崔希亮(2015:133)指出,要保护“语料产出者的个人隐私”,包括姓名和人物图像。但这只是问题的一部分,其他如时间、地点、事件信息及其组合信息也可能泄露个人隐私。因此,如何既能保护语料产出者的隐私,也能保障语料库共享,是亟需研究解决的问题。


2.5 学科建设问题


学科间沟通合作不足限制了语料库的发展。语料库建设涉及语言学、计算机科学等多个学科的专业知识,加强合作有助于提高语料库质量。语言学专家能为语料库标注提供新的理论体系,计算机专家能够提高语料处理的效率,并带来最新的产业应用需求。但在我国,由于研究目标不同,两个领域的语料库专家很少进行合作研究(肖忠华 2015),使得语料库建设不仅不能借鉴两者的优势,反而造成语言学界和产业界(特别是自然语言处理领域)的脱节,束缚了语料库建设的发展。


语料库建设领域还存在人才培养不足的问题。除了要增强学科合作,语料库建设还需要跨学科的人才。跨学科人才系统地接受语言学、语料库和自然语言处理领域的教育,通晓相关的知识技能,能够指导语料库的建设,也能更好地沟通语言学和计算机科学的专家。目前,跨学科人才的培养严重不足,语言学研究者往往缺乏自然语言处理的知识技能,计算机研究者缺乏语言学理论素养,是语料库建设高质量发展的瓶颈之一。


2.6 语料库的发展建议


针对语料库建设的不足,以及发展过程中遇到的问题,在前人研究的基础上,我们认为,需要从项目规划、管理与支持、规范与标准建设、版权研究、团队合作与人才培养等角度入手,进一步促进我国语料库建设的发展。具体包括以下七项措施。


第一,加强纵向项目数据管理。语料库建设应以国家统筹规划为主,通过纵向项目立项,建立语言资源立项审查机制,减少重复立项,大力支持现有语料库资源的整合研究。纵向项目数据管理可以通过多种方式鼓励语料库共享,例如,建设语料库共享资源平台,提供有偿的网络查询服务,将语料库共享作为项目考核目标,提供API接口访问。目前中国语言资源联盟网建设了一个语料库共享资源平台,提供购买服务,但语料库种类较为有限。少数语料库项目提供了免费的有限查询服务,但有偿的网络查询服务还未曾见到。总的来说,加强纵向项目数据管理有利于增进语料库建设者的共享意愿,但不能解决语料版权和隐私问题。


第二,面向未来研究和应用需求,通过国家项目形式进一步加强语料库建设,主要支持研究和应用需求多、建设难度大、数量少的语料库,重点支持对未来学科发展有重大意义的语料库建设。在母语语料库方面,重点支持研制大规模汉语口语语料库、句法树库(特别是依存树库)、语义和语用标注语料库、深加工的汉语多模态语料库、汉语历时发展语料库,以及汉语方言语料库。在多语语料库方面,研制比较语料库和平行语料库,特别是针对机器翻译问题,重点建设一个国家级的高质量双语语料库,解决高校研究机构训练用高质量大数据问题(孙茂松、周建设 2016)。在专门用途语料库方面,加快专门用途口语语料库建设,深入开展专门用途平行语料库建设(董爱华 2013)。在学习者语料库方面,开发教学用语料库资源,加强国际合作,积极参与或主动发起国际学习者语料库项目(徐秀玲、许家金 2017)。在多模态语料库方面,加强面向人工智能、自然语言处理和语言教学的多模态语料库建设,研究其建设标准、标注规范和检索技术。此外,还要加强少数民族语言语料库建设。


第三,通过社科项目支持研究高效的语料分析方法,开发系统化的语料库加工软件,提高语料库加工深度。语料库加工工具的开发往往依赖于语料库的内容加工规范(标记系统),两者相辅相成。针对不同的标记系统,从词语切分、词性标注、句法标注、语义标注和语用标注等层面开发系统化和高效率的语料库加工工具,有助于深化语料库加工层次,提高深加工语料库的质量、规模,提升语料库的可用性。


第四,建设和完善语料库的标准规范,提高语料库建设的规范性。由高水平研究机构主导,动员各学术机构广泛参与,在行业共识的基础上通过广泛的社会协商制定规范,在规范的基础上分领域和分类制作国家标准,并定期进行修订。通过产业界和学术界的联合行动研究规范标准,并通过配套软件工具的开发和推广使用,建设规范标准的行业认同和生态环境。如在《语料库通用技术规范》(中国翻译协会 2018)的基础上,支持学术界和产业界联合研究语料库的元数据规范和内容标注规范,以及数据沟通方案,开发配套的数据转换工具,重点支持多模态语料库的内容标注规范研究。支持学术界和产业界联合研究语料库的评价规范,并开发配套的评价工具。


第五,研究语料库的版权问题,促进语料库共享。省部级和国家级项目支持的语料库应要求在规划阶段考虑语料库的共享问题,提出语料库的共享方案,并作为立项和结项的考核依据。支持由语料库、计算机、法律等领域的专家组成的团队进行跨学科研究,研究语料和语料库的版权保护,以及语料内容的隐私保护问题,解决现实中知识产权、隐私保护和语料库共享的矛盾问题。


第六,加强学科之间的合作,进行跨学科研究。语言学家能为语料库建设提供语言学理论支持,提高语料库的代表性;计算机专家能使语料库建设效率更高、更加智能化。但加强学科合作不仅仅是鼓励研究者的自发合作,关键是要以资金和项目支持的形式,促进不同学科的专家共同研究课题,同时探索好的合作模式。


第七,加强研究梯队建设和跨学科人才培养。在全国范围内支持优秀的语料库研究学术共同体,资助青年学者,鼓励语言学专业在本科和研究生阶段开展语料库课程,有计划分层次地培养青年研究人才,形成语料库研究梯队,为我国语料库资源建设积蓄后备力量,同时,在语言学科内部加强计算语言学专业建设,鼓励与计算机学科联合研究及培养跨学科人才。

3语言知识库建设中的宏观问题及发展建议


语言知识是自然语言处理的基础。语言知识库是自然语言处理系统的重要组成部分,它的规模和质量很大程度上决定了自然语言处理系统的成败(俞士汶等 2005)。同时,语言知识库对语言学研究和语言教学也有重要的支持作用。


3.1 语言知识库建设的不足


20世纪80年代后期,我国开始建设大规模的形式语言知识资源,已经建成的重要语言知识库包括:综合型语言知识库(俞士汶等 2005),知网(董振东等 2007),等等。尽管如此,我国语言知识库建设的基础仍然薄弱,制约了应用研究的发展。很多研究停留在试验阶段,不能真正发展到大规模实用的程度(靳光瑾、富丽 2004)


汉语知识库有不同的用途,有面向汉语应用的知识库和面向汉语本体研究的知识库。其中,面向汉语应用的知识库较为多见,包括面向自然语言处理的知识库和面向汉语教学的知识库等。


在自然语言处理方面,我国语言知识库的建设始终落后于欧美先进国家,不仅数量少,建设进度也更为落后。这是因为重要的语言知识库常常植根于原创理论,而我国的语言学原创理论不足,几乎都是引入欧美国家的语言学理论,相应的语言知识库建设需要在引入国外理论和建设经验的基础上进行,如框架语义网。还有一些知识库由应用需求驱动,缺少理论框架的支持。相比较而言,我国高质量的文本知识库较多,而语音知识库较少。秦颖(2016:33)指出,尽管我国的语音识别水平和国际差距不大,但基础语音数据资源建设的差距明显,“尤其缺乏特殊条件下或面向特殊用途的语音数据库”,制约了语音识别技术的发展,因此基础语音库的建设还需要加强。


面向国际汉语教学的语言知识库建设由各类应用需求驱动,以自发建设为主,各种知识库的建设较为分散,缺乏统一规划,发展不平衡,汉字、词汇等基础资源较为多见,句法语用资源较少,知识库设计常常缺少理论框架或统一规范,影响力较为有限。因此,这些面向汉语教学的汉语本体资源库无论从数量分布,还是从质量上都还有继续拓展的空间。


我国面向本体研究的大型基础语言知识库并不多见,这也与语言学的理论创新不足有关。由于缺乏有影响力的原创语言学理论,一方面语言知识库的建设无所依从,缺乏理论框架;另一方面很少能看到聚拢于某一原创理论的研究群体,很多研究者或研究团队更倾向于研究某一个语言现象而非语言理论,并且相互之间缺乏合作,导致对语言知识库的需求匮乏或较为分散。因此,我们常常可以看到一些小型的自建语言知识库,但学界的认可度和影响力并不大。


与汉语资源库建设相比,民族语言文字资源库建设起步晚,技术基础和经费投入差距大(王铁锟 2008),是民族语言处理的薄弱环节。赵小兵等(2011)认为除汉语外,多民族语言均缺乏或没有本体知识库建设,提出创建统一标准和接口的多民族语言语义本体知识库,为多民族语言信息处理提供基础支撑。


评测资源是一类特殊的语言知识库或语料库,主要用于自然语言处理系统的评测,但我国仍然缺乏统一客观的评测机制和评测体系,导致中文信息处理研究缺乏比较的基础,或使比较缺乏可信性,或需要重复前人工作,导致研究资源的浪费,不利于保证研究向好的方向发展。具体表现为:第一,评测举办方以民间为主,官方举办的较少,无论是官方还是民办评测,评测资源的权威性不足,影响力小;第二,评测数据集多局限于传统评测任务,对新技术研究的引导性不足;第三,评测资源的规范性有待加强(朱琦、王敬 2016)


从资源共享的角度看,语言知识库的共享资源较少,少量资源可以有限地免费下载使用,部分资源开放了网上检索,还有一些知识库可以通过购买获得,但更多资源无法获得。语言知识库通常不存在语料版权问题,较少共享原因有两点:一是由于开发者付出了巨大的心血,希望优先发表研究成果,共享意愿不足或延迟共享;二是无论是网络共享还是线下有偿共享,非法复制知识库的事件时有发生,而维权成本较高。


3.2语言知识库的发展建议


针对我国语言知识库建设中存在的问题,我们同样可以从项目规划、管理与支持、规范与标准建设、版权研究、团队合作与人才培养等角度入手,针对以下七个方面采取措施,进一步促进我国语言知识库的发展。


第一,重点支持语言学研究中的理论创新。原创理论的发展是语言知识库发展的重要源泉,高价值知识库往往有语言学理论框架的支撑。国家通过项目规划支持语言学理论创新不仅有助于形成新的语言学理论,给予语言知识库以理论支持,也有助于形成新的研究热点和研究团体,提升语言知识库的使用率和影响力。


第二,提炼重要知识库,加强国家规划。由于大规模的语言知识库建设周期长、投入大,因此,对学科发展和社会发展有重大意义的知识库,可由国家征集选题,并组织专家确定选题,作出长期规划,有计划地推进重要知识库的建设,既可以使知识库的建设服务于当前需要,也能通过远期规划满足长期的学科发展和社会应用需求。


第三,加强民族语言文字知识库的规划和建设。民族语言文字资源库建设受到标准、平台和资源等因素的制约(王铁锟 2008)。因此,民族语言文字知识库需要统一少数民族语言知识库建设的标准,系统性地构建和整合知识资源,包括语音、语法、语义和语用资源,并建立知识资源管理平台,以统一规格集成各民族语言文字知识资源,在此基础上,给予各民族语言文字知识库的薄弱环节以资金和项目支持。


第四,加强评价资源的建设。权威评价资源能够有效促进自然语言处理向前发展。朱琦、王敬(2016)提出加强评测资源建设的两点建议:第一,优先建设面向特定领域的评测资源,弥补中文评测资源的空缺,避免重复建设同质语言资源。第二,改进资源建设方法,包括利用规范的标注语料库快速建设资源,建立评测资源共享机制。此外,可由国家联合行业共同举办评测,并建设评测资源,提高评测的权威性。


第五,加强知识库项目管理,促进共享。与语料库一样,省部级以上的社科基金可要求语言知识库项目在申请时规划并承诺知识库未来的共享形式,并作为立项和结项考评依据。


第六,分领域分问题制定知识库建设规范。统一的规范有利于提高资源的利用效率,促进资源共享和比较研究。尽管大多数语言知识库植根于不同的理论框架或应用需求,难以统一标准,但在不同领域的具体研究问题上有较好的共识时,可以提炼共同的规范,如面向自然语言处理的民族语言文字知识库需要采用共同的知识框架。


第七,鼓励深层次的团队合作。社科规划选题可鼓励有明确理论背景或理论探索的选题,既鼓励理论研究,也有助于形成理论研究团队,各个团队可以在共同的理论背景和知识库资源的支持下进行研究,能够更好地形成研究热点,并推进知识库向前迭代发展。

4  结语


语言数据资源对当代语言研究和语言工程具有重要价值。尽管我国的语言数据资源建设取得了巨大的进步,但无论是语料库建设,还是语言知识库建设,与先进国家相比还有较大差距。对语料库而言,主要表现在:建设质量不高,发展不平衡,规范和评价机制不完善,缺乏共享,相关学科缺乏合作,跨学科人才紧缺等。对语言知识库而言,主要表现在:缺少语言学理论框架支撑,高质量语言知识库少,大型基础知识库较少,民族语言文字知识库建设落后,规范性不足,较少共享,影响力小等。针对这些问题,本文从学科建设,理论建设,项目规划,管理与支持,规范与标准建设,版权研究与资源共享等多个角度提出了14条建议,以推进语言数据资源建设弥补现有短板,面向未来语言学理论研究和应用发展的需求。


长按识别下方二维码

前往中国知网

查看《语料库语言学》

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存