查看原文
其他

尤 易 曹贤文 | 20 年来国内外学习者语料库建设及应用研究分析

尤 易 曹贤文 外研社国际汉语 2023-01-10

提  要:本文从CSSCI与SSCI数据库中检索2001—2020年有关学习者语料库的研究成果,运用CiteSpace文献计量分析工具,分析了20年来国内外学习者语料库建设及应用研究状况,探究了学习者语料库研究领域的发展趋势、核心作者及合作关系、核心期刊、研究热点、研究前沿等问题。通过对比国内外研究成果,讨论了如何吸收借鉴国内外相关研究新成就,进一步推动汉语中介语语料库建设及应用研究。


关键词:学习者语料库;CiteSpace;可视化分析;研究现状;发展趋势


一、引言


学习者语料库(learner corpora)是指通过收集外语或二语学习者的自然语料,利用计算机软件工具进行加工整理而成的语言数据库。根据《剑桥学习者语料库研究手册》的定义,学习者语料库是“按照明确的设计标准收集汇编的,由外语或二语学习者产出的自然数据或近乎自然数据的电子集合”(Granger 等,2015)。冯志伟(霍斯顿,2006)指出:“语料库的使用……逐渐成为语言学研究的主流方法……是语言学研究的一次革命性的进步。”学习者语料库可以为第二语言习得研究提供大规模的真实语料作为分析材料,通过定量与定性分析,能够极大地提高研究结论的客观性、稳定性和普遍性(张宝林,2019)。

近年来,学习者语料库对于第二语言教学与研究的基础性作用日益凸显。汉语中介语语料库作为支撑平台,其提供的大规模学习者语言数据改变了传统的小规模、主观思辨式的研究范式,“为对外汉语教学研究提供了有力支持,极大地推动了汉语习得研究与中介语研究的发展”(张宝林,2019)。为了总结 20 年来本领域的研究状况和发展趋势,本文提取 2001—2020 年国内外核心期刊数据库中与学习者语料库 1 相关的研究文献,采用文献计量方法进行分析,通过对比国际学习者语料库、国内英语学习者语料库、国内汉语中介语语料库的建设以及应用研究状况,探讨如何吸收借鉴国内外相关研究经验,进一步推动汉语中介语语料库建设及应用研究。


二、研究设计


一)研究方法及思路

本研究以 CiteSpace 软件作为主要数据处理工具。CiteSpace 由美国德雷塞尔大学华人学者陈超美教授研发,是一款引文可视化软件,通过生成科学知识图谱,可直观呈现科学知识的结构、规律和分布等情况(李杰、陈超美,2016)。我们分别从中国知网(CNKI)和科睿唯安(Web of Science,简称WOS)数据库中检索“学习者语料库”相关研究,获得国内 CSSCI 和国际 SSCI 两大核心期刊数据库中的相关研究文献,然后利用 CiteSpace 软件针对以上数据进行处理和分析,用表格和可视化图谱的形式呈现 2001—2020 年,“学习者语料库”相关研究的发展趋势、核心作者及其合作网络、核心期刊、研究热点、研究前沿等内容。

(二)检索词筛选方法

CiteSpace 所需的领域文献主要通过关键词检索和基于领域的核心期刊定位检索这两种方式取得(赵丹群,2012)。本文采用前一种方式,即通过设定关键词在 WOS 以及 CNKI 数据库中分别收集相关文献。其中国际英文文献来源于 WOS 数据库,检索方式为主题词检索,语言设定为英语,文献类型设定为“Article”,最终主题词确定为“learnercorpora”或“interlanguage corpora”2,主题词检索 逻 辑 最 终 确 定 为“(TS=(learner corpora)OR TS=(interlanguage corpora))AND DT=(Article)AND LA=(English)”,文献时间跨度为 2001 年 1月 1 日至 2020 年 12 月 31 日,数据库限定为 SSCI数据库。于 2021 年 11 月 20 日共检索到 850 条符合条件的文献,后期经人工筛选,剔除非学习者语料库研究、书评等无关研究 457 条,剩余 393 条。

国内文献来源于 CNKI 数据库,检索方式为主题词检索。为使检索结果更全面,主题词检索逻辑最终确定为“SU(主题)=‘二语’OR SU(主题)=‘外语’OR SU(主题)=‘中介语’OR SU(主题)=‘学习者’ OR SU(主题)=‘学生’ AND SU(主题)=‘语料库’”。文献时间跨度为 2001—2020 年。

文献类型为学术期刊,并将期刊来源限定为 CSSCI数据库,于 2021 年 11 月 20 日共检索到 1249 条符合条件的文献,后期经过人工筛选,剔除非学习者语料库研究、会议通知、新闻、会议综述、书评等无关研究 690 条,得到有效文献 559 条。


三、研究趋势


(一)国内研究趋势分析

选取国内文献共 559 条,对这些文献进一步分类得到英语学习者语料库相关研究 415 篇,汉语中介语语料库相关研究 131 篇,其他小语种以及少数民族语言中介语语料库研究共 13 篇。由于小语种以及少数民族语言中介语语料库研究数量过少,因此本文只对 2001—2020 年国内英语学习者语料库研究及国内汉语中介语语料库研究情况做具体分析。


1. 英语学习者语料库


图 1 显示了 CSSCI 数据库中 2001—2020 年国内英语学习者语料库相关研究文献数量,并按年份绘制成折线图。2011 年前,中国英语学习者语料库研究总体呈增长趋势,尤其是 2006—2011 年发文数量快速增长,于 2011 年达到最大值 39 篇。2012—2020 年发文量有所回落,但是年均发文数量仍为 24 篇以上,维持在较高水平。


2. 汉语中介语语料库


图2 显示了 CSSCI 数据库中 2001—2020 年国内汉语中介语语料库相关研究文献数量,并按年份绘制成折线图。2009 年前,汉语中介语语料库文献发表处于缓慢发展阶段。2011 年迎来文献发表的第一个小高峰,这一年由北京语言大学、南京师范大学举办了“首届汉语中介语语料库建设与应用国际学术研讨会”,会议的召开一定程度上促进了中介语语料库研究,并刺激了发文数量增加。数据也显示,汉语中介语语料库研究 C 刊论文发表数量于 2013 年达到 20 年来的最高点,该年共有 17篇汉语中介语语料库的论文被 CSSCI 数据库收录,此后,发文数量维持在年均 10 篇上下波动。

(二)国际研究趋势分析

图 3 显示了 SSCI 数据库中 2001—2020 年国际学习者语料库相关研究文献数量,并按年份绘制成折线图。2001—2008 年,研究文献数量仍较少,从 2009 年起,有关国际学习者语料库研究文献达到 14 篇,并逐年稳定增长,2018—2020 年增长更加迅速,2020 年收入 SSCI 的文献数量达到 54 篇。

(三)小结

从以上三张发文量统计折线图可以看出,在与学习者语料库相关研究的核心期刊论文发表方面,国内英语学习者语料库与汉语中介语语料库相关研究的总体发展趋势大体相似,经过一段时间的快速增长和小幅回落之后,近年保持在比较稳定的水平。而国际上的研究文献数量,在经历较长时间的增长趋势后,近年仍保持快速增长,在大规模语料处理和分析技术的支持下,基于学习者语料库的研究愈加受到国际学术界的重视。


四、国内外研究者、研究团体

及期刊数据分析


(一)核心作者及合作关系

我们利用 CiteSpace 软件从研究文献中提取研究者信息,设置文献时间跨度为 2001—2020 年,时间切片(Time Slicing)为 1 年,每段时间切片中默认被引用或出现次数前 50 位,得到 2001—2020年国内英语学习者语料库、汉语中介语语料库、国际学习者语料库研究领域核心作者及其合作网络图谱。


1. 国内核心作者及作者合作分析


(1)英语学习者语料库。本研究共统计到国内英语学习者语料库研究作者 410 位。其中刘永兵、张会平、卫乃兴、梁茂成、王立非 5 位学者发文数量均超过 9 篇,见表 1。共 17 位作者发文数量均超过 5 篇,形成 20 年来国内英语学习者语料库研究核心作者群。从图 4 可以看到,国内英语学习者语料库研究形成了三个较大的合作团队:围绕梁茂成、王立非和文秋芳等学者形成的研究团队,该团队是国内该领域研究的最大团队;围绕刘永兵、张会平等学者形成的研究团队;围绕卫乃兴等学者形成的研究团队。

(2)汉语中介语语料库。本研究统计到国内汉语中介语语料库研究作者共计 134 位,收录发表文章数量前 5 位的作者分别是张宝林、肖奚强、施春宏、邢红兵、周文华,发文量均在 5 篇以上,见表 2。发文超过 3 篇的作者共 14 位,构成了 20 年来汉语中介语语料库研究领域核心作者。从图 5 可以看出,部分作者已经形成了较为稳定的合作研究关系。20 年来国内汉语中介语语料库研究学者较稳定的研究团队主要有三个:以张宝林和崔希亮两位学者为中心的研究团队,以肖奚强和周文华两位学者为中心的研究团队,围绕施春宏等学者的研究团队。


2. 国际核心作者及作者合作分析


本研究共统计到国际作者 578 位。其中,Scott Crossley 发文量 19 篇,排名首位;发文超过 10 篇的共 3 人;排名前 5 位的学者发文量均超过 5 篇,其中发文 9 篇的 Xiaofei Lu(陆小飞)为美国宾夕法尼亚州立大学华人学者,见表 3。从图 6 可以看出,在学习者语料库研究领域,国际学者形成了多个研究团队,其中 Scott Crossley、Kristopher Kyle、Danielle McNamara 为发文量排名前 3 位的学者,他们组成了 20 年来国际学习者语料库研究最突出的研究团队。图 6 也显示,刘海涛(Haitao Liu)与蒋景阳(Jingyang Jiang)等国内学者组成的团队活跃于国际研究领域。


3. 小结


由上文可见,主要研究团队中的核心研究者同时也是研究领域核心作者,学者之间加强交流并形成稳定的研究合作关系,能够更有力地推进研究进程。国际学习者语料库和国内英语学习者语料库研究都已经形成了较为稳定且具一定规模的研究团队,而国内汉语中介语语料库研究学者的团队相对较为零散,学者之间需进一步加强联系和合作。

(二)核心期刊统计


1.国内核心期刊统计


国内英语学习者语料库研究文献发表数量前10 位的期刊分别是《外语教学与研究》《外语电化教学》《现代外语》《外语与外语教学》《外语教学》《外语界》《解放军外国语学院学报》《外语学刊》《外语研究》《现代教育技术》,在 2001—2020 年发文数量均超过 10 篇,反映学习者语料库相关研究受到较多关注,见表 4。

汉语中介语语料库研究发文数量前 5 位的期刊分别是《语言教学与研究》《世界汉语教学》《语言文字应用》《汉语学习》《华文教学与研究》,在2001—2020 年发表数量为 8—13 篇,见表 5。


2. 国际核心期刊统计


国际学习者语料库研究发表数量前 4 位的期刊分别是 System、Applied Linguistics、Language Learning、Journal of Second Language Writing。这 4 种SSCI 期刊在 2001—2020 年发文量均在 10 篇以上,见表 6。

(三)小结

从以上数据可以看出,国内外本领域均有较多核心期刊发表了一定数量的学习者语料库相关研究成果,反映出学习者语料库建设和应用研究这一主题受到国内外较多关注,是二语习得研究的热点领域。


五、国内外研究热点


(一)国内英语学习者语料库研究热点

为了显示国内英语学习者语料库相关研究的热点问题,我们运用 CiteSpace 生成关键词结构可视化图谱,见图 7。然后统计各关键词的频次、中介中间性,并删除语料库、中介语、二语习得等范围宽泛的关键词,再分别按照频次和中介中间性进行排序,频次排序表择取频率高于 6 的关键词,中介中间性排序表择取数据大于 0.03 的关键词,整理得到表 7。

从图 7 中我们可以发现学习者语料库研究网络结构明晰,各话题之间关联紧密,反映该领域研究拓扑结构较为完整。结合表 7 考虑关键词的出现频次与中介中间性,可以看出国内英语学习者语料库研究对英语口语、英语写作以及学术写作比较重视,连同词块、短语学、类联接、语义韵等为热点研究话题。

(二)国内汉语中介语语料库研究热点

为了显示国内汉语中介语语料库相关研究的热点问题,我们运用 CiteSpace 生成关键词结构可视化图谱,见图 8。然后统计各关键词的频次、中介中间性,并进行排序,删除语料库、中介语、习得、二语习得等范围宽泛的关键词,再从排序表择取频率高于 3 的关键词,中介中间性排序表择取数据大于 0.03 的关键词,整理得到表 8。

本研究共统计到131 篇汉语中介语语料库相关文章,从中可以看出,国内中介语语料库研究呈块状分布,各板块间研究尚未形成紧密的联系。结合表 8 统计频次和中介中间性排名前 10 位的关键词,“偏误分析”作为最突出的分析方法在频次与中介中间性排名均靠前,“易混淆词”在频次与中介中间性排名也十分靠前,反映它们在 20 年来的研究文献中占比较高。在我们统计到的 131 篇研究中,与汉字有关的研究篇数不多,不过,“笔画”和“部件”这两个关键词的中介中间性较高,说明汉字研究的重要性;在国别化研究中,“韩国学生”出现频次最高,反映了学者们对这一研究对象的关注。

(三)国际学习者语料库研究热点

为了显示国际学习者语料库相关研究的热点问题,我们运用 CiteSpace 生成关键词结构可视化图谱,见图 9,然后统计各关键词的频次、中介中间性,删除 English、language、acquisition、learner corpus、second language 等范围宽泛的关键词,并分别按照频次和中介中间性进行排序。频次排序表择取频率高于 10 的关键词,中介中间性排序表择取数据大于 0.05 的关键词,整理得到表 9。

本研究共筛得国外文献 393 篇,从中可以看出,国际学习者语料库研究文献形成的关键词图谱拓扑结构完整且相互之间联系紧密。通过统计频次和中介中间性排名前 20 位,不难发现国际学者对于语言熟练度(proficiency)、准确度(accuracy)、复杂度(complexity)、流利度(fluency)这些语言能力评量标准较为关注,对二语写作(L2 writing)与学术写作(academic writing)也比较重视。除此以外,对频率(frequency)、词束(lexical bundle)、话语标记(discourse marker)等也很重视。


六、国内外研究前沿


通过运用 CiteSpace 从论文题目(titles)、摘要(abstracts)、描述符(descriptors)、书目资料标志符(identifiers of bibliographic records)中提取突发词(burst terms),能够检测到该领域出现频次在短时间内突然增加的研究术语,结合术语激增的年限,可以得知本研究领域特定时间段内研究者研究兴趣的变化,从而观察新出现的一些前沿问题。本文运用 CiteSpace 中突发词检测功能,设置 γ 值为 0.2,突发词最短持续时间为 4 年,分别运用于CSSCI 收录的国内英语学习者语料库、国内汉语中介语语料库文献,以及 SSCI 收录的国外学习者语料库文献进行分析。

(一)国内英语学习者语料库研究

2001—2010 年,国内英语学习者语料库文献突发词有:拼写错误、冠词、主题词、习得顺序、频率、性别差异、词语搭配、标记语、口语教学、心理词汇、分裂句等。2011—2020 年,突发词有:论说文、语体特征、相对频率、人称代词、类联接、学术英语、概念迁移、外壳名词、口译水平、二语知识、读后续写、语序分布等。其中,语体特征、概念迁移、二语知识、读后续写、语序分布等均为近几年突发词,可能成为未来研究热点,值得继续关注。

(二)国内汉语中介语语料库研究

国内汉语中介语语料库文献突发词中,汉字研究的排名处于绝对优势地位,汉字习得、笔画、部件这 3 个突发词于 2012 年以前持续时长均超过6 年,这表明汉字研究在 2012 年以前为学术界关注的热点研究课题。2008—2017 年的突发词有词语辨析、习得顺序、词汇习得与母语迁移,持续时长均超过 4 年。2016—2020 年突发词为“学术汉语”。随着高级汉语学习者和来华攻读学位留学生人数的大幅增加,汉语学术教学和研究日益受到关注,“学术汉语”作为近年来核心期刊文献突发词,进一步显示该研究课题极有可能是未来研究的热点,值得持续关注。

(三)国际学习者语料库研究

2004—2014 年,国际学习者语料库文献检测到foreign accent、interlanguage pragmatics、speech、constraint、knowledge、identity、error analysis这 7 个术语突显性较高。2011—2018 年,coh matrix、working memory、particle、strategy、tense、coherence、metadiscourse、writing assessment、competence、automated scoring、contrasive interlanguage analysis、writing development 这 12 个词突显性较高。在以上 19 个突发词中,writing assessment 作为突发词从 2014 年持续至 2017 年,competence,automated scoring,contrasive interlanguage analysis、writing development 作为突发词从 2015 年持续至 2018 年,说明写作评估、自动评分、中介语对比分析等课题作为国际学习者语料库研究的前沿,值得重点关注。


七、结语


根据上文对 CSSCI 与 SSCI 数据库 20 年来收录期刊文献的研究,特别是通过从发展趋势、核心作者及合作关系、核心期刊、研究热点、研究前沿等方面对国内英语学习者语料库相关研究、汉语中介语语料库相关研究、国际学习者语料库相关研究的对比分析,得出的分析结果对国内汉语中介语语料库建设和研究具有颇多启示。首先,在研究重点方面,汉语中介语语料库相关研究应多关注学习者口语、写作等产出能力的分析和评量,特别是对语言表现的评量维度、标准、指标等方面的量化分析;在探究习得特征和规律时,可以从单个词语或语法点的习得情况转向从语篇、语块、搭配等角度进行考察。其次,从核心作者群来看,学者之间加强合作,有利于开阔研究视野,丰富研究课题,充实研究数据,强化研究方法,扩大研究影响,推进研究发展。目前,国内汉语中介语语料库研究虽有了少量核心作者群,但发展后劲不足,还未形成有一定规模的研究合作网络。

另外,从国内文献研究前沿来看,国内英语学习者语料库与汉语中介语语料库部分研究有相似之处,如学术英语与学术汉语等,国内两个领域的学者可以就类似研究互相借鉴;与此同时,国内英语学习者语料库的研究前沿主题更丰富,例如语体特征、概念迁移、二语知识等研究话题,同样值得汉语中介语语料库研究者参考。从国际学习者语料库研究前沿来看,语料库研究的跨学科性较强,更重视二语写作、自动评量、语料库自动标注软件的开发和应用等,国内研究可适当加强自动评量系统、智能写作评估等方面的建设及研究。


(本文发表于《国际中文教育(中英文)》2022年第2期,更多文章信息,请扫描下方二维码或复制链接到浏览器,移步知网下载)


网页链接:

https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFDAUTO&filename=GZZY202202013&uniplatform=NZKPT&v=5CtGUHv3iSZmtr_rVEnVjaCiv6oJbT85-OXBF96R5h0mQmPWindxwb1HVo51qIzy


2022年第2期



关于我们

期刊简介

《国际中文教育(中英文)》(原《国际汉语教育(中英文)》)是由中华人民共和国教育部主管、北京外国语大学主办,外语教学与研究出版社、北外中国语言文学学院、北外孔子学院工作处共同承办的学术刊物。国内统一连续出版物号为CN10—1718/H,国际标准连续出版物号为ISSN2096—9716。季刊,16 开,公开发行。英文名称为International Chinese Language Education。


《国际中文教育(中英文)》办刊宗旨为:坚持正确的办刊方向和舆论导向,报道国内外中文教育教学政策和现状,反映国际中文教育推广的优秀成果和经验,探索总结科学有效的师资培养模式和语言学习推广政策,打造国际中文教育交流平台,推动国际中文教育与传播事业。


本刊入选国家新闻出版署首批认定学术期刊,是世界汉语教学学会理事单位刊物、《中国学术期刊网络出版总库》收录期刊、《中国学术期刊综合评价数据库》来源期刊、《中国学术期刊影响因子年报》统计源期刊、《中文科技期刊数据库》收录期刊。


本刊诚邀业内专家、学者及相关人士赐稿,《国际中文教育(中英文)》编辑部衷心感谢您的支持!


主要栏目

本刊特稿

专家主题论坛 

专业建设研究

教师培养发展 

中文教学研究

学习者研究

学术研究新论

二语习得研究

中文测评研究

海外教学动态

国际中文传播

新媒体教学研究

教学资源研究

中文教学漫谈

我的中文之路

书评/综评/综述



联系方式

  • 电子邮箱

    gjzwjy@fltrp.com  


  • 联系电话

    (8610)88819623(赵老师) 

    (8610)88819269(安老师)

期刊订购信息

1.邮发

本刊自2023年起可通过邮局预订全年刊物,邮发代号82-682。


2.天猫旗舰店

单期购买。通过外研社天猫旗舰店购买当期以及过刊(请用手机淘宝、天猫app扫描二维码进入)。


 订阅咨询电话:

(8610)88819680



往期精选

1

刊讯 |《国际中文教育(中英文)》2022年第2期

2

丁涵 丁安琪 | 抓住机遇、迎接挑战、展望未来——“新时期国际中文教育的机遇与挑战”高端论坛综述

3

张宝林 | 扩大汉语中介语语料库语料来源的途径



编辑 | 赵青  安琪  刘智贤

美术编辑 | 邓屹芃(实习)

原创稿件,转载请注明来自微信订阅号:外研社国际汉语

欢迎分享与转发


关注我们

微信公众号

教学资源网

教师发展课程


点击“阅读原文”访问期刊官网


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存