Ilab-具身语言研究推荐【55】

Original Connie 语言学习科学 2021-12-26

点击蓝字

关注我们

具身语言学研究方法篇四:语料库研究方法

作者 | Connie

Embodiedlinguistics.com

1.1定义

语料库语言学是指通过对自然发生的语言（语料库）数据进行实证分析，比如我们现在针对一个特定短语进行网络搜索就属于语料库语言学的研究工具，这一搜索的背后有一个强大的理论体系作为支撑。词频库（Kucera& Francis，1967）对于语言学刺激材料的理论贡献有目共睹。语料库语言学对句法分析的研究有重要影响，首先确定要证实的结构，然后发现此结构的相对频率，最后对句法分析进行计算机模型。在具身语言学领域，最有意义的研究就是针对词语出现的统计频率，建立具身语义指标，按照范畴和语义分类进行语料库的统计计算，针对一系列理论问题（如，儿童语言习得等）进行研究。

1.2研究假设和理论基础

语料库语言学的假设取决于语言研究者是对语言的兴趣点是产出还是感知，如果是语言产出研究，语料就需要有尽可能多的随机生成内容，可以是书面文字但大多数情况下是口语语篇，要求口语研究多于书面语研究，因为书面语往往会进行修改和编辑，不足以真实地反应实时语言思维。该方法的理论背景是反应潜在的语言产出过程并进行分析，比如，口语语误“dye a begger”应该是“buy a dagger”，反应了语音口语缩减的问题（Ernestus，Baayen，& Schreuder，2002）。对于语言感知的研究，语料库反映了语言使用者接触的活生生的语言现象，研究者可以计算人们接触到语言的词、词组、句法结构等的频率（Brysbaert & New，2009，Monsell，Doyle，& Haggard，1989），比如遇到句法歧义时研究者会看人们如何使用最常用的语言现象（Reali & Christiansen，2007）。但是对语言感知的语料库研究有一个误区，就是使用者接触到的语言未必就是使用者理解并感知到的，其中有第三个变量影响产出和感知。因此在语料库语言学中应该考虑到感知与产出语料的交互结果，采用“语言经验为基础”的具身语言分析模式，来揭示潜在的因果结构。

1.3研究工具和手段

只要有计算机、数据处理软件和一定的编程技能（最主要的是R和Python语言及其相关编程平台）就可以进行语料库语言学的研究。语料库中有上千万个词条，需要自动程序和运算法则去处理数据。事实上语料库语言学和自然语言信息处理（National Language Processing）领域的工作有极大区别，自然语言信息处理试图提升计算机的语言智能从而分析理解海量数据信息（通常是文本的，也有图片的）。在表层分析时研究者希望得到尽可能多的语料，因而语法分析手段（parsing）和标记（tagging）必不可少。一些小的语料库语法分析手段（parsing）和标记（tagging）是可以手动完成的（如Penn Treebank），但大多数情况下是自动完成的（可能会有遗漏和失误），其中，CLAWS （http://ucrel.lancs.ac.uk）和Stanford Parse （http://nlp.stanford.edu/software/lex-parser.shtml）是两个英语语料研究最常用的软件系统平台。当前众多研究者对词频（word Nagrams）有较高兴趣度，它包含了词汇的出现频率（bigram），一系列的三个词（trigram）等。相关语料库包括：谷歌（http://books/google.com/ngrams）和美国英语词频库（http://corpus.byu.edu/coca/）。

1.4语料和数据特征

语料有原始和再生语料之分，原始语料数据的局限性是版权，再生语料可免费用于研究，这些数据往往存储在excel表格中。重要的语料变量包括词频和语义矢量。词频是语料库语言学最常用的标准，主要有基于电影台词的SUBTLEX词频语料库，语料的语言包括中文、荷兰、英语、法语、德语、希腊语、波兰语、葡萄牙语和西班牙语（详见http://crr.ugent.be/programs-data/subtite-frequencies），另外也有来自推特和博客网站的语料。此外，还有一些语料库专注于儿童语言（http://childes.psy.cmu.edu/）。语义矢量是近期出现的词语同现（word co-occurrence）时的语义关系的计算数据，这个词语同现往往在同一语场和文本背景下（Lund & Bergess，1996；Landauer & Dunmais，1997）。Lund & Bergess获取了1600万个词条，每个词条在语场和文本中出现至少50次以上，得出7万次的词语同现的情形，词语每次出现都会对应一个语义矢量，研究发现词语出现在同一个范畴和地域时，语义矢量相似，相同的主题和启动词对应的词语的语义矢量跟控制组的词语相比相似性也会更大，这被称为语言的多维空间相近性（HAL），HAL语料分析方法包含语义相近系数的各种矢量成分的权重数。

Landauer & Dunmais从相同的原则出发，但使用不同的过程，首先从学生群体中获得上千万条语料词汇，然后每个词条都对应一个由大约151字的文本形成的矩阵，称为(singular value decomposition)维度递减的语料库，将上万条词条变为300个维度；然后每个词条在这300个维度上计算语义矢量，验证这个矢量库的有效性，研究者把托福考试阅读多选题作为对象，跟非正确答案与文本之间的相近系数相比，正确答案与文本之间的相近系数更小，此分析方法称为潜在语义分析（Latent Semantic Analysis，LSA）（计算相近词汇的相近系数请参考http://lsa.colorado.edu）。

最新研究（Mikolov, Chen, Corrado, & Dean, 2013）通过建立链接网络代替计算矩阵矢量，所有的目标词在三层语义网络上被表征为输入和输出的语义节点，输入层（input layer）的语境词汇能够预测, 而目标词在输出层（output layer）的某个节点中会激活，输入层和输出层通过一个隐藏层（hidden layer）来连接。这个方法比传统的分布式模型（distributional models）方法要更好，结果更稳定。

1.5数据收集

数据收集比较简单，可以从网络上下载，维基百科（http://www.wikipedia.org/），或之前研究者的积累。数据大小取决于使用情况，如果研究目的是单个词，那么2000到5000万词就足够了（Brysbaert & New，2009）；如果要研究低频词的词性问题，就需要更大的语料库。在数据收集的过程中，语场也很重要，如果研究学生被试，相关语料可包括社交媒介或电影字幕以及学校教科书，因为学生学习的资料主要来自这些语场（Brysbaert &Ellis， 2016）；如果研究老年被试，一些年代久远的通讯文本、报纸或录音录像语料可能会有用。语场的选择需要建立在科学问题基础上，如研究“情感词是否比中性词认识更快”的具身词语问题（Kuperman，Estes，Brysbaert，& Warriner，2014），选择的语料不是小说文本的话，其研究价值和结果就会大打折扣，这主要是由于在非小说文本中情感词出现的频率就会较低；相反，因为歌曲中情感词出现频率更高，如果语料是歌曲词汇，结果就会不同。

1.6局限

语料库语言学为语言信息加工研究提供了一种有效的的手段，最新研究是基于具体词语特征的可计算性建立语义矢量。目前具身语言学正在向着此方向发展，《具身故事词汇的数据库构建》就是延续此思路，比如给出一个词beautiful，那么同义词lovely，attractive，good-looking，gorgeous，stunning，striking，handsome就可以计算出在所有语言中的语义矢量，但是如果想要进一步工作来验证和优化这个语义矢量计算系统，就需要在一个小范围内对这些词汇进行相关矢量计算，然后将其扩展到更大范围中。

语料库语言学的局限性在于：（1）测量指标只对少数人开放；（2）语言种类少；（3）信息来源单一，仅限于可以分析的文本数据，而对于真实语言的中的活动数据和生活数据库研究较少；（4）语言真实输入来源的手段和验证方法局限；（5）语料库中冗余数据多，数据处理中的错误操作和错误信息较多；（6）运算法则存在错误；（7）矢量语义相关公式理论假设存在漏洞，比如在词库中“丑”与“美”被计算为语义矢量最近的词，但是现实生活中的语言使用并不是这样。研究者们在不断提升研究手段、运算公式的合理性和逻辑性，期待未来具身语言学研究中可以使用到更稳定、更高效、更多已被证实和验证的研究理论和工具。

主要参考文献：

Aertsen, A., Gerstein, G., Habib, M., & Palm, G. (1989). Dynamics of neuronal firing correlation: Modulation of “effective connectivity.”. Journal of Neurophysiology, 61, 900-917.

Allopenna, P., Magnuson, J. S., & Tanenhaus, M. K. (1998). Tracking the time course of spoken word recognition using eye movements: Evidence for continuous mapping models. Journal of Memory and Language, 38, 419-439.

Anderson, A.,& Gore, J.(1997).The physical basis of neuroimaging techniques. In M. Lewis & B. Peterson (Eds.), Child and adolescent psychiatric clinics of North America (Vol. 6, pp. 213–264). Philadelphia, PA: W.B. Saunders.

Asimov, I. (1951). Foundation. New York: Doubleday.

Baum, L. F. (1958). The wizard of oz. New York: Scholastic.

Baccino, T., & Manunta, Y. (2005). Eye‐fixation‐related potentials: Insight into parafoveal processing. Journal of Psychophysiology, 19, 204-215.

Baayen, R. H., Davidson, D. J., & Bates, D. M. (2008). Mixed-effects modeling with crossed random effects for subjects and items. Journal of Memory and Language, 59: 390-412.

Bates, E., Dale, P. S., & Thal, D. J. (1995). Individual differences and their implications for theories of language development. In P. Fletcher & B. MacWhinney (Eds.), Handbook of Child Language (pp. 96-151). Oxford, UK: Basil Blackwell.

Bates, E., Marchman, V. A., Thal, D. J., Fenson, L., Dale, P. S., Reznick, J. S., … Hartung, J. (1994). Developmental and stylistic variation in the composition of early vocabulary. Journal of Child Language, 21, 85-123.

Beckmann, C., & Smith, S. (2004). Probabilistic independent component analysis for functional magnetic resonance imaging. IEEE Transactions on Medical Imaging, 23, 137-152.

Berko Gleason, J., Perlmann, R., & Grief, E. (1984). What’s the magic word: Learning language through politeness routines. Discourse Processes, 7, 493-502.

致谢

感谢您的关注，感觉不错请点右下方“在看”，爱心支持请转发哦

往期推荐

＋

Ilab-具身语言研究推荐【54】方法篇之三计算研究方法

＋

Ilab-具身语言研究推荐【53】方法篇之二神经研究方法

＋

Ilab-具身语言研究推荐【51】现状篇之三:国内具身语言研究综述

＋

Ilab-具身语言研究推荐【50】现状篇之二：具身语言研究近十五年综述

扫码｜关注我们

团队微信平台：语言学习科学
智慧语言具身认知实验室
具身语言教育联盟

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

Ilab-具身语言研究推荐【55】

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

Ilab-具身语言研究推荐【55】

您可能也对以下帖子感兴趣