查看原文
其他

学术争鸣| 六年前浙大团队与MIT团队关于‘语言依存距离’的“纠纷”

语言学午餐 语言治理研究 2022-12-22

2015年 MIT的一个研究团队今年在《美国科学院院刊》(PNAS)发表了一项研究——“37种语言依存距离最小化的大规模证据”(Large-scale evidence for dependency length minimization in 37 languages)。然而,浙大刘海涛教授的研究团队2008年已经在国际期刊Journal of Cognitive Science《认知科学杂志》上发表了一项结果类似的、关于依存距离的重大研究。


谷歌学术的数据显示,这篇论文已被引用49次。




不过,就像很多外国研究者不太关注中国学者的研究一样,MIT团队没有在他们的文献综述里提及这项研究。


不久之后,MIT团队受到一些质疑,他们不得不发表一则声明——


We address recent criticisms (Liu et al., 2015; Ferrer-i-Cancho, 2015) of our work on empirical evidence of dependency length minimization across languages (Futrell et al., 2015). First, we acknowledge error in failing to acknowledge Liu (2008)'s previous work on corpora of 20 languages with similar aims. A correction will appear in PNAS. Nevertheless, we argue that our work provides novel, strong evidence for dependency length minimization as a universal quantitative property of languages, beyond this previous work, because it provides baselines which focus on word order preferences. Second, we argue that our choices of baselines were appropriate because they control for alternative theories.

http://arxiv.org/abs/1510.00436


大意就是他们的确忘记在文献综述中提及浙大团队的研究,并会在《美国科学院院刊》最新一期上刊登一个更正。不过他们强调,他们的研究为依存距离最小化提供了“新颖的”、“有力的”证据。他们还在更正说明中建议,所有阅读他们论文的读者应该去读一读浙江大学刘海涛教授团队2008年的研究。


他们的更正说明如下——




今天,我们特意邀请浙大团队的成员为各位读者介绍他们的这项研究。毕竟,这是中国本土语言学研究引起国际关注的难得的一次。




特邀作者丨徐春山 梁君英


在我们的日常语言中,一个句子中的词与词之间是有关系的。比如——


我买了很多苹果。


在这个句子中,“我”是“买”的主语,“苹果”是“买”的宾语,“很多”是“苹果”的定语等等。这些都是句法,或者通俗一点地说,是语法层面的关系。


那么句子中这些有句法关系的词是随意排列的吗?


答案显然是否定的:如果随意改变句子中词的顺序,句子可能变得难以理解,甚至根本无法理解。这些有句法关系的词在句子中的位置似乎总有一定的规律。从认知的角度来看,这种规律可能与依存距离有关,也就是句子中两个有句法关系的词之间的线性距离,其长度取决于间隔词的数量。


上面这个例句中谓语动词“买”和宾语“苹果”之间间隔了“很多”以及“了”这2个词。根据具体计算方法的不同,其依存距离是23


依存距离是依存语法的重要概念,而依存语法认为句法分析的目的就是按照句子的线性顺序一个词一个词地进行处理分析,找出每个词与句子中其它词之间存在的句法关系。作为一种认知活动,句法分析过程与工作记忆关系密切。


工作记忆对依存距离有很大的影响,因为两个词之间的距离越长,前面那个词被遗忘的程度可能就越高。这样一来,在当前正在处理的词与前词之间建立句法关系可能就越困难。其原因可能是中间的词对记忆造成干扰,也可能是两个词之间间隔时间较长导致了记忆衰退,或者是中间的词占据了有限的工作记忆资源。


总之,较长的依存距离(两个有句法关系的词之间有较多的间隔词语)可能带来更重的认知负荷,导致更大的句法处理复杂度。


语言系统演化的一个重要支配原则是省力原则,也就是要尽量减少语言处理的复杂度。鉴于此,人类语言理应偏好依存距离较小的结构,这就是依存距离最小化倾向。人类的工作记忆机制应当是相同的。这意味着,依存距离最小化倾向可能并不是某种语言的特殊倾向,而是所有人类语言的普遍特征,是一个受普遍认知机制所制约的语言普遍特征。但这只是语言学家的一个推论,需要进行大量的实证研究来验证。


20年来,人们通过语言心理学实验对依存距离进行了较多的研究,结果大都表明较短的依存距离处理难度也较小。但是,语言心理学实验使用的语言材料往往是人为编制的语句,数量极为有限,涉及的语言以及受试人数都比较有限。换句话说,其结果可能缺乏普适的说服力。因此,就依存距离最小化这一语言普遍特征(模式)而言,基于多语种语料库的大数据研究方法可能是心理学实验的重要补充手段。


当今社会,大数据方法已经成为研究人类行为模式的一个重要手段。而语言实际上就是一种受认知支配的人类行为。语言中也存在认知制约的各种模式。显然,基于多语种语料库的大数据分析方法也是挖掘语言模式以及语言普遍特征的重要方法。近十年来,语料库统计方法在依存距离最小化研究中开始占据越来越重要的地位,在这一方面浙大团队的成果处于世界领先水平。


2004年,西班牙学者Ramon Ferrer-i-Cancho对罗马尼亚语的树库(依存标注语料库)进行了研究,发现在大规模的真实语料中,依存距离趋向于一个比较小的值。


在同一时期,浙大团队对汉语树库也进行了研究,得出了相同的发现。之后,他们进一步扩大样本库,对包括汉语在内的20种语言进行了研究,同时还生成了两种随机语言,与这20种真实自然语言的依存距离进行比较,具体结果可见下图。



20种自然语言及相应的随机语言的依存距离


所谓随机就是说这不是人类真正的语言,是不符合语法的。从上图我们可以看出,真实语言的依存距离更小。这是在人类历史上第一次在多语种语料库的基础上用大数据方法证明了自然语言中可能存在依存距离最小化这一普遍特征。


最近麻省理工学院(MIT)的研究团队用37种语言进行了类似的研究,其结果支持了浙大团队先前的发现,再次证明自然语言中可能存在依存距离最小化这一普遍特征。MIT的研究结果发表在2015年出版的美国科学院院刊(PNAS)上,他们在回复刘海涛团队声明的文章中也特别指出他们的研究是对浙大团队2008年研究的补充与精细化。


这样看来,从目前的研究结果来看,中文的平均依存距离是最大的,理论上中文对工作记忆的挑战更大。详尽的信息请点击 http://www.lingviko.net


作为人类语言的普遍特征,依存距离最小化倾向反映了人类语言如何在普遍认知机制约束下运作与演化。从这个意义上说,依存距离最小化研究是一个具有交叉学科特点的研究领域,融合了语言学、统计学、大数据、认知科学等学科的理论与方法。


注意:

这里讲的研究只是浙大团队十四年前对依存距离的一些研究成果。影响依存距离的因素不少,因此,在随后的这些年里,浙大团队又做了许多相关研究。有兴趣者,可移步http://mypage.zju.edu.cn/lht, 那里有最新的相关论文,通过网页的researchgate链接,可以下载论文全文。

本文原标题为:“自然语言中存在依存距离最小化倾向”,发表于2015.11.13《浙江大学报》第三版:人文档案•视野。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存