查看原文
其他

雷蕾教授:语言数字人文:“小帐篷”理论框架

雷蕾教授 语言科学 2024-03-07
      

引言
数字人文指的是将计算机和数字技术运用于传统人文学科研究与教学的新兴交叉研究领域(Hockey 2004;Terrasetal.2013)。数字人文作为学界的“下一件大事”(Kirschenbaum 2014),似已成为跨学科研究的热门话题。我国近年来更加重视跨学科发展,在倡导文科与理、工、农、医等学科融合的同时,要求发展新兴文科专业(教育部2020)。鉴于数字人文学科的快速发展及其对新文科建设的重要意义,教育部于2023年4月公布最新版《普通高等学校本科专业目录》,在中国语言文学门类下增列了“数字人文”专业。从研究实践层面来看,语言学等学科研究者积极参与数字人文研究,并在其中扮演了越来越重要的角色(Luhmann&Burghardt 2021;Mehl 2021)。然而,学界尚未见语言学与数字人文的关系、语言学研究者如何参与数字人文研究等相关系统讨论。鉴于此,本文提出了语言数字人文“小帐篷”理论框架,分理论探索、应用研究、基础建设三个部分阐述语言数字人文的内涵,并讨论语言学研究者参与数字人文研究的路径,以促进语言数字人文和新文科发展。

一、数字人文发展源流

1.1 早期的数字人文研究
数字人文起初被称作“人文计算”,其起源既来自实际工作需求,也来自研究需要。在实际工作中,当记录海量信息时,我们并不是费时费力将信息记录在一张张小卡片上,而是借助计算机技术高效完成任务。比如20世纪50年代意大利人罗伯托·布萨在工程师的帮助下将一千余万词的拉丁语神学著作做索引标注(Hockey 2004),此项标注工作也被普遍看作是数字人文的发端(Dalbello 2011;Sula&Hill 2019;Terrasetal. 2013;Wangetal .2020)。研究需求方面,20世纪60、70年代,研究者们接受了具有跨学科属性的实证社会科学,这也标志着注重思辨的传统人文研究与注重实证的硬科学开始结合(Thaller2012)。
20世纪后半叶则见证了数字人文研究的飞速发展,很多论文或专著都梳理和记录了数字人文的历时演进脉络(Dalbello 2011;Hockey 2004;LeDeuff 2018)。自20世纪60年代始,研究者已不满足于类似罗伯托·布萨所做的基础文本检索工作,而开始了基于文本特征的更深入探索。如Mosteller和Wallace(1964)运用同义词对(如big与large)、虚词等文本特征进行《联邦党人文集》的作者身份识别研究。如果说研究者早期的探索还只是星星之火,数字人文领域两本期刊的创刊则标志着“人文”研究离不开数字“计算”已成为业界共识,“人文计算”或数字人文研究的燎原之势渐成。这两本期刊是:
(1)《计算机与人文》(Computers and the Humanities),该刊创刊于1966年,是数字人文领域的第一本专业期刊,2005年更为现名《语言资源和评估》(Language Resources and Evaluation),开始转向语言资源相关研究;
(2)《文学与语言计算》(Literary and Linguistic Computing),创刊于1986年,2015年更名为《数字人文学刊》(Digital Scholarship in the Humanities),是专注数字人文研究历史最悠久的期刊。
随着20世纪80年代个人电脑乃至90年代互联网网络逐渐普及,大规模文本及多模态数据库基础建设逐步趋于丰富,各类本地和在线研究工具的诞生也进一步促进了计算机/数字技术与传统人文学科研究的融合,数字人文的春天已然到来。

1.2 20世纪的数字人文
Presner(2010)在《数字人文宣言2.0》中将20世纪90年代末至21世纪初的数字人文发展概括为两个阶段。第一阶段,从20世纪90年代末至21世纪初,是数字人文1.0阶段,该阶段大规模实体材料/文献的数字化或技术基础建设工作开始涌现,但研究内容依然聚焦或局限于已有学科内部的文本分析。第二阶段,2005年以后,数字人文开始进入2.0阶段,研究者开始突破传统学科界限,“生产、管理和交互‘天生数字化’的知识”。Berry(2012)对Presner(2010)的阶段划分做了进一步解释:在第一阶段,数字技术的运用还处于辅助既有人文学科研究的位置,即数字技术还处于服务既有人文学科研究问题的从属地位;而到了第二阶段,数字人文研究进入了一个全新阶段,开始其真正的智力努力,有了其专业实践和理论探索(Hayles 2012)。在第二阶段,计算技术已完全融入了人文研究,或者说已是人文研究重要甚至不可或缺的组成部分,计算技术为提出和解决人文学科新问题提供了可能(Berry 2012)。Berry甚至认为,数字人文背景下的人文研究正在经历“计算转向”(Berry 2011a,2011b)。
国内的数字人文研究也方兴未艾。王贺(2020:33)将2019年称作国内“数字人文元年”,首份专业期刊《数字人文》创刊,学术会议交流等活动在全国各地举行,“可以毫不夸张地说,无论从哪个方面来看,数字人文都成功地吸引了不少年轻学子和成熟学者的目光,呈现出爆炸式、井喷式的发展状态”。当然,国内外的数字人文研究虽快速增长,但仍“处于迷茫期”(王贺 2020:2),主要表现在理论基础薄弱,且无独特的研究方法和范式(张品慧等 2021:2)。
从上述对数字人文发展历史的简要梳理中,我们可以清晰地看到数字人文发展的主线。数字人文是文科学者不满足于传统研究方法的局限,突破人文学科界限藩篱,主动求变的必然结果。他们积极拥抱数字技术,采用数字技术更高效地解决传统方法低效或不能解决的问题,甚至突破传统人文学科界限的桎梏,透过数字技术来发现新问题、生产新知识。因此,数字人文的发展史就是理工学科与人文学科“两种文化”的融合史,是人文学者采用科学严谨方法来取代传统的以偶然方式处理人文问题的发展史(Hockey 2004:3)。

1.3数字人文“大帐篷”
当然,在数字人文看似繁荣发展的背后,学界一直存在其学科定位的争议。Schreibman等(2004)在其主编的《数字人文研究指南》开篇引论中直截了当地指出数字人文是一门学科。但由于数字人文的跨学科属性,其研究内容、研究问题、研究方法庞杂,又暂缺少学科核心理论支撑,故很难对数字人文的学科边界如其内涵和外延做出清晰的可操作性界定(Svensson 2010)。因此,有学者以更加开放和包容的姿态,将数字人文比喻成一顶马戏团的“大帐篷”,凡采用数字技术并与人文学科相关的研究都是数字人文这顶大帐篷下的成员(Svensson 2016; Weingart&Eichmann-Kalwara  2017)。

二、语言数字人文“小帐篷”
Terras(2013:269)反对将数字人文比喻成“大帐篷”,认为该比喻使得数字人文的边界更加模糊,而不利于数字人文的发展;同时,她告诫青年学者,数字人文并不是让研究者做术无专攻的万金油,而是要磨炼技术与方法,深耕自己的专业领域。Terras(2013)的提醒非常及时,也促使包括本文作者在内的语言学研究者思考:
(1)语言学研究者是否需要积极参与数字人文研究?
(2)如果是,语言学研究者将如何参与数字人文研究?
上述第一个问题的答案似乎不言而喻:语言学研究者需要积极参与数字人文研究。跨学科特征明显的数字人文研究,吸引了包括计算机科学、信息科学和几乎所有人文相关学科在内的学者参与,其中自然也包括语言学研究者。更重要的是,语言学研究者,特别是计算语言学、语料库语言学研究者,似乎与数字人文研究有种天然的亲近感。
从方法论来看,计算/语料库语言学研究和数字人文研究都基于问题和数据驱动,而很多数字人文学者也已然将计算语言学和语料库语言学研究作为数字人文研究的有机组成部分(Mehl2021)。Mehl (2021)的论断也得到了实证数据的支持。Luhmann和Burghardt(2021)基于数字人文专业期刊1990-2010年间发表的两千余篇论文,考察了数字人文的研究主题,发现排名前十的主题,除了数字人文自身主题和学术合作主题以外,其他主题均与文本数据相关(如文本与语料库、词典、作者身份与风格计量、文本编辑主题等)。也就是说,数字人文研究与文本数据及其处理分析密不可分,而语言学研究者特别是计算语言学和语料库语言学研究者理应积极参与,为数字人文研究贡献自己的智慧和力量。
关于上述第二个问题,Terras(2013)似乎已经为我们准备好了答案:语言学研究者需要掌握数字技术与方法,更需深耕我们自己的专业领域,即语言学及语言学相关学科。在数字人文研究的大背景下,我们姑且将语言学研究者参与的数字人文研究称之为语言数字人文研究。如果我们能对语言数字人文做出界定的话,则可以比较清晰地勾勒出语言数字人文研究者如何参与数字人文研究,从而更好地回答第二个问题。如果数字人文是一顶“大帐篷”,则语言数字人文是数字人文这顶“大帐篷”下的“小帐篷”。如果要给出一个比较明确的定义,语言数字人文是采用数字技术与方法以提出或解决语言学及其相关问题为目标的研究领域。针对上述定义,我们至少可以明确三点。
(1)语言数字人文研究聚焦于语言学及其相关问题研究,即传统语言学问题的研究和语言相关的其他学科问题研究;
(2)语言数字人文研究需采用数字技术与方法来进行研究;
(3)语言数字人文研究不但需要采用数字技术与方法来解决已有问题,更需要透过数字技术与方法,突破语言学的学科藩篱或界限,发现或提出新的问题。我们将在下一小节详细讨论语言数字人文的研究框架,以更好地回答第二个问题。
三、语言数字人文理论框架
语言数字人文具有天然的跨学科属性,在这顶“小帐篷”下,语言学、文学、翻译、信息科学、社会学、心理学、新闻传播等学科的智慧和方法交叉碰撞产生新知。当然,学科的交叉融合应有主体学科和支撑学科之分(Fonseca2021)。语言数字人文应该以语言学为主体学科,而其他学科为其支撑。因此,语言数字人文的研究对象需聚焦语言学及其相关问题,即提出和回答传统的语言学问题以及基于语言分析的其他相关学科的研究问题。在此立论的基础上,我们参考了Rosenbloom(2013)、Berry和Fagerjord(2017)、Mehl(2021)、王军和张力元(2020)、王丽华和刘炜(2021b)等关于数字人文学科建设或理论框架的讨论,以及Luhmann和Burghardt(2021)、Ma和Li(2021)、Kokensparger(2018:13-14)等基于文献计量分析的实证研究结果,并结合我们的阅读和研究积累,构建如下语言数字人文理论框架,以阐释语言数字人文研究的主要内容。框架由理论探索、应用研究、基础建设三个部分组成,每个部分又分若干内容。下面我们根据该框架做具体分析讨论。

3.1理论探索 
由于数字人文的学科定位问题尚存在争议,语言数字人文也必然存在类似争议,这也是语言数字人文后续研究的重要意义所在。张品慧等(2021)认为,某一研究方向若要成为独立的学科,至少需“同时具备独有的研究对象、独特的研究方法、独立的理论体系”(“三独立”原则)(付八军、龚放2021)。对于语言数字人文来说,已具有独有的研究对象,即以前文所述的语言学问题及基于语言分析的其他相关学科问题作为研究对象。语言数字人文研究或采用语言学分支学科如语料库语言学和计算语言学等方法,或借鉴计算机科学、信息科学等相关学科技术,因此其研究方法具有一定的独特性。语言数字人文的理论由语言学相关理论和其他相关学科理论构成,但尚未形成系统的理论体系。综上,语言数字人文具备独有的研究对象和较为独特的研究方法,是数字人文的一个分支研究方向,但由于其理论体系尚不完整,与独立的学科要求尚有一定距离。
我们还需厘清语言数字人文与其他研究方向或学科的关系。
(1)语言数字人文与语料库语言学:研究目的相同而研究方法不同。语言数字人文与语料库语言学具有相同的研究目的,即都以解决语言学问题为其核心研究目的和对象。语料库语言学主要采用文本检索方法,观察核心词、搭配、句法等语言特征,而语言数字人文除了采用传统语料库语言学方法以外,更多采用计算语言学/自然语言处理、计算机科学、信息科学等成熟数字技术来提取语言特征;
(2)语言数字人文与计算语言学:研究方法类似而研究目的不同。语言数字人文与计算语言学研究方法类似,但语言数字人文以解决语言学相关问题为其核心议题,而计算语言学以解决如文本分类、机器翻译等工程问题为其主要目的;
(3)语言数字人文与其他相关学科:研究目的不同、研究方法亦有差异。如文学研究,大多采用传统的思辨方法,近年也开始接受数字人文研究范式(秦洪武2021;严程2019),以探讨人性意义和审美价值并传承民族文化(李咏吟2009;罗宗强2002)。
语言数字人文的跨学科属性决定了其研究与社区建设密不可分。社区建设主要涉及跨学科和跨地区的研究合作,是数字人文研究长期以来重点讨论的话题(Luhmann&Burghardt2021;王军、张力元2020)。社区建设几乎贯穿语言数字人文研究的所有环节:语言数字人文的学科建设与理论探索离不开各学科和地区研究者的合作,大数据资源和平台及工具建设往往需要跨学科跨地域学者间的密切配合和无私分享,而具体研究合作在语言数字人文领域也已成常态。探索更高效的跨学科跨地区合作应是语言数字人文后续研究的重要命题。

3.2应用研究
语言数字人文的应用研究包括研究对象和数字技术两个方面。研究对象既包括运用数字技术研究传统的语言学问题(如语言本体、二语习得与教学、语言测试、词典编纂等),也包括运用数字技术提取语言风格或语言特征并与其他领域相结合的研究。比如,Lei和Wen(2020)关于两百余年来英语文本依存距离衍变轨迹从而揭示英语句法简化规律的研究,是基于大数据和新兴句法分析方法研究语言本体问题的生动案例。又如,Lu和Ai(2015)与Kim和Crossley(2018)开发词汇和句法语言特征分析新工具并运用于学习者文本研究,拓宽了二语习得和语言测试的研究思路(朱慧敏2021)。基于语言风格/特征的其他领域研究近年也层出不穷,如Jockers(2013)提出了基于数字计算的文学作品语言特征分析方法:“宏观分析”方法,Archer和Jockers(2016)则运用该方法详细分析了数千本畅销书的语言特征,以解开畅销书的畅销密码。Savoy(2020)将文本风格计量分析与机器学习算法相结合,为作者身份识别研究提供了新视角。另外,Wen和Lei(2021)分析了近五十年学术文本的情感特征变化,是数字人文“远读”理念的研究实践。最后,研究者还采用文献计量技术研究语言学、翻译学等学科发展动态(Lei&Liu2019a,2019b;胡显耀、李茂君2020;庞双子2020;田苗2020),是传统思辨性综述的有益补充。
语言数字人文研究所需的数字技术内容庞杂,研究者不但要学习基础的统计和文本分析知识,还要持续追踪层出不穷的自然语言处理和机器学习等相关新技术。这也对语言数字人文研究者,特别是语言学出身文科研究者提出了挑战,他们不但要熟悉各种本地或在线工具,更要掌握一定的编程技能(Lei&Liu2021;雷蕾2020),为生产语言数字人文新知识做技术准备。

3.3基础建设
语言数字人文研究离不开基础数据资源和平台/工具资源,因此基础建设是语言数字人文研究的基石。基础数据资源建设主要包括文本和其他多模态数据资源建设,例如,国家语委主持开发的《古籍语料库》和《现代汉语平衡语料库》以及中国台湾地区语言学研究所开发的系列古汉语和近现代汉语语料库均包含海量汉语数据,是研究汉语及其历时衍化的重要资料。又如,谷歌公司建设的谷歌图书N元数据库,提供了多语种海量历时数据(Micheletal.2011),为我们研究语言文化及社会心理等历时演进提供了数据支撑(Brysbaertetal.2011;Ilievetal.2016)。再如,英国国家语料库2014版口语数据库标注了丰富的说话人性别、年龄、社会阶层等信息(Loveetal.2017),为我们探索语言特征与社会因素间的互动关系提供了可能(Brezinaetal.2018;Shi&Lei2021)。
语言数字人文的基础建设还包括研究平台和工具的开发。比如,斯坦福CoreNLP和spaCy等通用自然处理工具使语言研究者充分利用数字技术研究语言问题成为可能,而TAALES(Kyle&Crossley 2015)和L2SCA(Lu2011)等词汇和句法分析工具则为深入观察和研究语言微观特征提供了机会。近年来,国内学者也积极开发汉语研究工具和平台,诸多工具已具国际影响力,如结巴汉语分词工具已成为spaCy等自然语言处理工具汉语处理模块的缺省分词工具,而自然语言处理工具HanLP已超越斯坦福CoreNLP和NLTK等工具,成为GitHub上星标数最高的自然语言处理工具(何晗2019)。
由上可见,语言学研究者在基础数据资源建设方面做出了重要贡献,而计算机科学研究者在工具/平台建设方面占据主导位置,工具/平台建设也亟须语言学研究者积极参与,贡献智慧,以开发更多语言数字人文研究所需的工具/平台。

结语:语言数字人文的未来
综上所述,语言数字人文是数字人文的一个分支研究方向,是采用数字技术和方法以提出或解决语言学及其相关问题为目标的新兴研究领域。目前,语言数字人文尚不能成为一门独立的学科,究其原因主要在于,语言数字人文的研究边界还不够清晰,且尚未形成系统的理论体系,这也正是语言数字人文研究者要解决的问题。今后研究亟须解决的一个重要问题是对语言数字人文研究的内涵和外延做出科学定义(Svensson 2010),这也是深入构建语言数字人文理论体系的基础。比如,鉴于语言数字人文的跨学科属性,如果语言数字人文以语言学为其主体学科,以文学、翻译、计算机科学、信息科学、社会学、心理学、新闻传播等为其支撑学科,其核心理论框架是以语言学理论为基础还是语言学理论与其支撑学科相关理论兼收并蓄共同构成语言数字人文的核心理论?又如,如果我们将语言数字人文定义为提出或解决语言学及其相关问题的研究领域,其研究内容的核心到底是解决语言学问题还是解决其他支撑学科相关问题?抑或是兼顾语言学和其他学科问题?如果兼顾二者,语言学的主体学科地位如何体现?再如,如何定义“数字技术”?是传统的统计方法即“数字技术”,还是自然语言处理或机器学习等其他新兴技术才是“数字技术”?最后,如果语言数字人文发展成一门独立学科,其学科属性到底是理论取向,还是方法/实践取向,抑或需要兼顾理论和方法/实践?
由于语言数字人文的跨学科属性,在目前语言数字人文的发展初期,上述问题可能还难以解决。正如语料库语言学在其发展过程中一直存在语料库语言学是独立学科还是方法论的争议一样(Gries 2010;Hardie&McEnery 2010),语言数字人文到底是独立学科还是方法共同体(Methodological Commons)(McCarty&Short 2002),或者说我们到底是需要技术还是理论,相关争议可能长期存在。王贺(2020)在讨论数字人文取向的文学研究时指出,我们需要“警惕在‘数字人文’研究中可能出现的过度理论化的倾向”,因为当前“与理论设想、建构相比,最重要、最需要的是诸多实实在在利用‘数字人文’方法所作的具体的现代文学研究”。我们同意王贺(2020)的看法。在当前语言数字人文发展的初期,我们需要搁置学科还是方法的争议,以实践为导向,实实在在“做事”(Ramsay 2013),采用数字技术探索解决语言学及其相关学科的问题。当然,“这不意味着要拒绝批判性思考,而是要防止坐而论道”(王贺 2020),在理论探索的同时,我们需要尊重语言数字人文的实践属性,以更多应用研究和基础建设成果推动语言数字人文研究的发展。
最后,除了前文提及的诸多应用研究和基础建设相关研究和实践以外,我们还需关注语言数字人文学科发展和人才培养,如在本科和研究生阶段开设语言数字人文相关课程,开发语言数字人文相关教学资源(如开发语言数字人文相关教材、学习或教学资源等),并在时机成熟时设置语言数字人文相关学位点。这既是语言数字人文自身发展的需要,亦与国家新文科建设战略同频共振。《新文科建设宣言》明确要求文科专业与现代技术深入融合,以发展新兴文科专业(教育部2020)。语言数字人文作为数字人文的分支研究方向,在研究内容、研究方法、知识创新等诸多方面具有新文科属性和特征(王丽华、刘炜2021a),语言数字人文完全有理由助力新文科建设与发展。

来源:《外语与外语教学》2023年第3期、上师大数字人文


1.相关阅读
认知语言学的研究方法
语言类型学视域下的领属范畴研究
起始年龄和语言学能与二语学习成效的关系研究
语言迁移和概念性迁移:理论与实证
李葆嘉教授等——幼儿语言的成长:常用词汇语义系统建构
鲜活的语言:语言人类学导论
杨亦鸣教授导读《人类语言的大脑之源》
冯志伟教授谈依存语法

2.学术资讯

【免会务费】第三届《中国外语》学术交流会

50+场语言/翻译学学术会议汇总

2023年“全国外国语言文学研究生论坛”

南开大学外国语学院第三届研究生学术论坛

2023年智能技术和语言学习国际研讨会

【免会务费】第十一届中国外语博士论坛


3.讲座回看
国际期刊论文写作发表系列
语言学讲座回放集锦(八)
语言文学讲座回放集锦(七)
语言文学公益讲座回放集锦(六)
语言文学公益讲座回放集锦(五)
语言文学公益讲座回放集锦(四)
语言文学公益讲座回放集锦(三)
语言文学公益讲座回放集锦(二)
语言文学公益讲座回放集锦
继续滑动看下一个

雷蕾教授:语言数字人文:“小帐篷”理论框架

雷蕾教授 语言科学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存