查看原文
其他

刘海涛:数据驱动的语言应用研究

分享 语言科学 2022-04-24
本文来源:计量语言学、汉语堂

最新一期的《语言文字应用》(2021年第1期)刊登了一组数据驱动的语言文字应用研究论文。本号从今日起,将连续四天为大家做一些推荐,欢迎关注。今天小编给大家带来的是刘海涛教授为这组论文撰写的导言《数据驱动的语言应用研究》。全文如下:


周有光先生在《语言文字应用》的首期首篇文章中认为,应用语言学最主要和最紧迫的研究有三个方面:语言教学、语言计划、信息处理。时至今日,语言信息处理在人类语言大数据的加持下,已经取得了长足的进步。值得注意的是,在赋予计算机语言智能的过程中,语言学家所起的作用微不足道。为什么最懂语言的语言学家在这个最需要语言学家的智能时代,却被无情地抛弃了?为什么语言学家发现的那么多的语言规律没有派上用场?是寻找规律的方法有问题,还是这些“语言规律”本身反映的并不是人类语言的规律或人类语言系统最本质的规律?在这种情况下,应用语言学研究者,可能需要自已探求基于应用的语言规律,此时可从语言信息处理同行们的成功中得到启发:语言规律源于语言使用。

在语言教学方面,一个显见的事实是,不同水平的学习者产出的语言是不一样的。尽管可以采用各种现代的实验方法来研究学习者的心理、神经等认知机制,但对语言学家而言,从真实的学习者语言数据中发现语言学习的规律,并使用这些规律改进语言教学的过程,可能是一种永不过时的可靠方法。在《语言文字应用》的首期中,我们看到吕必松、鲁健骥等人有关语言教学的文章。由于受时代因素的限制,这些文章大多采用了思辨或举例的方法,但文中的许多思考至今仍有现实意义。如,吕必松说“没有对语言的规律和规则的描写,语言教学就寸步难行。”鲁健骥则认为,偏误分析旨在发现外语学习者发生偏误的规律,可使外语教学更有效、更有针对性。这说明,《语言文字应用》从创刊之日起,就非常关注语言规律对于语言教学的作用,关注应用语言学与语言规律之间的关系。


29年过去了,人类已经进入一个由大数据催生的智能时代,技术的发展,数据驱动语言学研究方法的进步,使得我们有了从大量学习者真实语料中发现规律的可能,也就有了本专题中有关学习者语言的两篇研究。学习者语言是一种过渡语。这就要求研究者采用同一种测度指标对不同水平学习者的语言数据进行统计分析,必要时也需要与母语者的语言数据进行比较,否则,我们很难发现中介语所具有的过渡性、渐进性、连续性、动态性等特点。本专题的两篇文章均采用了句法标注的学习者语料作为研究资源,但研究的对象与视角不同。


基于词间依存句法关系分析人类语言真实语料的方法,已在自然语言处理领域得到了广泛应用,并正成为基于数据的学习者语言研究的主要句法模型。动词在基于配价的依存分析架构中占有核心的地位。如果将配价理解为词语的结合能力,那么研究学习者动词配价的发展规律就显得尤为重要了。郝瑜鑫等采用“概率配价模式”,对英语母语的汉语学习者的动词配价发展进行了研究,结果发现学习者动词配价发展是一个连续、渐进与多因素并存的过程。严格说来,尽管“概率配价“使我们有了从动态的语料中获得和研究词语配价的可能,但配价本身是词的一种静态特征,它所蕴含的结合能力也是一种潜在能力。这种潜在能力只能在词语的具体使用中显现出来。实现了的配价便形成了句法关系。人类语言是一种人驱的复杂适应系统。这里的人驱有两层意思,一是离开了人的使用,语言将不再有生命;二是在语言使用过程中,人的认知机制对于语言结构是有约束的。依存距离指的是两个具有句法关系的词在句子中的线性距离。对数十种语言大规模语料的计量分析表明,由于受人类工作记忆容量的约束,人类语言具有一种依存距离最小的倾向。因此,两个形成句法关系的词在句子中离得越远,就越难理解或越难生成。蒋景阳、姜茜茜的文章,采用依存距离作为计量指标,以汉语母语的英语学习者为对象,考察了学习者错误、依存距离与二语水平之间的关系。她们的研究表明,对于相同的长距离依存关系,中低水平与高水平学习者的处理策略与能力是不一样的,展现了语言学习过程的复杂性和多样性。这两项基于英汉、汉英的学习者句法标注语料库的研究,在语言加工和产出之间建立了科学可信的证据链,为语言习得提供了一种符合数据+智能时代精神的研究思路。


语言计划,今天一般称之为语言规划,是周有光先生提及的应用语言学的另一个重要领域。汉字的规范化与简化历来是中国语言规划的主要内容之一。在《语言文字应用》的头三期中,我们也发现了多篇有关汉字(简化)的文章。在有关汉字的语言规划讨论中,繁简之争似乎是一个永远也难有结论的话题。尽管从理论上讲,文字只是记录语言的符号,但历史的长河为语言与文字的关系带来了太多难以分离的水滴。语言规划是一种顺势而为的活动,这里的“势”指的是语言文字的结构与演化规律。众多实践表明,顺势的规划更容易取得成功。索绪尔说,“语言是一个系统,它的任何部分都可以而且应该从它们共时的连带关系方面去加以考虑。”汉字是汉语书面语的基本组成单位。因此,为了更客观地判断汉字简化对于汉语结构的影响,我们可能需要从真实的汉字流中发现汉语书面语的结构规律。黄伟以计量语言学中研究线性规律的动链为指标,基于数百篇繁体字与简体字的文本,研究了两类字体文本的结构特征。他的研究表明,字形简化没有改变汉字构形系统与动态使用中的分布规律,也没有改变字形线性组合模式的频次与长度分布规律。这说明,现有的汉字简化并没有打破汉语书面语结构的线性规律,是一种顺势而为的语言规划活动。


这里的三篇论文只是数据驱动语言文字应用研究的初步尝试,还存在着一些不足,但可以肯定的是,基于语言使用数据的应用语言学研究更客观地反映了语言使用的现实,更密切地关注了“概率性”这一人类语言的本质属性,因此,也就有可能更好地回答应用语言学研究者关切的问题。



《依存语法的理论与实践》
刘海涛 著
北京:科学出版社,2020.3
ISBN 978-7-03-024866-4

作者简介

刘海涛,国际世界语学院院士,教育部长江学者特聘教授;浙江大学求是特聘教授、博士生导师;北京语言大学特聘教授,广东外语外贸大学云山领军学者。Journal of Quantitative Linguistics 等多种国内外语言学出版物的主编、副主编与编委会成员。浙江省优博论文指导教师。国务院政府特殊津贴获得者。研究成果曾多次获得教育部与省级社科奖。爱思唯尔2014-2020年“中国高被引学者”。


本书目录


重印说明
冯志伟序 i
Foreword vii
理查德·哈德森序 xi
前言 xv
第1章 依存结构树 1
1.1 引言 1
1.2 泰尼埃之前的句法树 4
1.3 泰尼埃的图式 6
1.4 泰尼埃之后的依存树 10
1.5 依存树的一般特性和结构 18
第2章 配价理论与配价词表 23
2.1 引言 23
2.2 泰尼埃与早前的配价研究 25
2.3 现代配价及依存理究研究概览 34
2.4 配价词爽(表)的格式和框架 55
2.5 配价词表结构框架 67
第3章 依存关系与汉语依存语法 76
3.1 引言 76
3.2 摩迪斯泰学派和泰尼埃的早期思想 77
3.3 其他学者关于依存关系的讨论 84
3.4 依存关系的属性和依存句法的构建 97
3.5 汉语依存语法 102
3.5.1 现代汉语词类体系 102
3.5.2 现代汉语依存关系 104
3.6 概率配价模式和汉语配价模式 106
3.7 汉语依存树库 111
3.8 小结 115
第4章 依存语法形式化研究 117
4.1 引言 117
4.2 语言的形式化 118
4.3 泰尼埃的依存语法形式化体系 120
4.4 美国的依存语法形式化模型 124
4.5 基于特征结构的依存语法形式化体系 129
4.6 基于树结构的依存语法形式化理论 131
4.7 基于约束的依存语法形式化研究 134
4.8 德国的依存语法形式化研究 136
4.9 基手配价模式的依存语法形式化模型 141
4.10 依存语法和短语结构语法的等价性 146
4.11 小结 153
第5章 依存句法分析 155
5.1 引言 155
5.2 句法分析的概念及定义 156
5.3 基于泰尼埃理论的依存句法分析 161
5.4 基于上下文无关文法的依存句法分析 163
5.5 基于扩展上下文无关文法的依存分析 165
5.6 基于约束的依存句法分析 167
5.7 规则与统计相结合的依存句法分析 171
5.8 基于槽概念的依存句法分析 174
5.9 基于语言学理论的依存句法分析 178
5.10 基于统计的依存句法分析 185
5.11 基于配价模式的依存句法分析 192
5.12 小结 194
第6章 基于规则的汉语依存句法分析 199
6.1 基于配价模式的汉语句法分析 199
6.2 基于简单合一运算的汉语分析 205
6.3 用链语法分析汉语 210
6.4 采用移进—归约算法分析汉语 214
6.5 基于复杂特征的汉语依存分析 217
6.6 小结 224
第7章 基于树库的汉语依存句法分析 226
7.1 真实文本汉语依存句法分析 226
7.2 归纳依存句法分析及应用 230
7.3 用自建树库进行的句法分析实验 232
7.4 修改树库标注方式后的句法分析 237
7.5 使用哈尔工业大学依存树库的依存分析实验 241
7.6 影响依存句法分析的因素探讨 244
第8章 基于依存树库的汉语计量研究 250
8.1 词类与依存关系的统计 251
8.2 依存距离的统计与分析 252
8.3 依存关系构成的统计与分析 259
8.3.1 按照依存关系对支配词和从属词的统计分析 259
8.3.2 按照支配词和从属词对依存关系的统计分析 261
8.4 从句法树到语言网 266
参考文献 276
结语 313
后记 316

长按二维码或阅读原文可购买本书

1.公益讲座

实验语言学线上讲座(5月10—13日)

语言文学公益讲座回放集锦(六)

5月7日-13日语言文学讲座/会议/论坛(第49期)

2021年5月语言文学学术会议预览

AI & Cognition Lab 2021年春季8场讲座


2.相关阅读
Richard Hudson院士谈依存语法
冯志伟先生谈依存语法
大数据时代语言研究的方法和趋向
《依存语法的理论与实践》典藏版出版



语言学交流群


小编邀您入群


欢迎入群共享学术资讯

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存