查看原文
其他

冯志伟:关于“第三人称数据”的观察和检验

语言科学 2022-06-09

关于“第三人称数据”的观察和检验——《Python 3:语料库技术与应用》序



      我怀着极大的兴趣通读了陆晓蕾博士的新著《Python 3:语料库技术与应用》。语料库是为一个或多个应用目标而专门收集的、有一定结构的、有代表性的、可被计算机程序检索的、具有一定规模的语料的集合。语料库应该按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段来建立。从其本质上讲,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本来代表某一研究中所确定的语言运用总体。

      语料库技术和应用是重要的语言学研究手段,但是,在已经出版的语料库著作中多涉及语料库的应用方面,关于语料库技术的著作还不太多见。

      从语料库研究的实际情况看来,语料库技术是不可忽视的。我曾经说过,为了适应信息时代语言学研究的新发展,语言研究者有必要进行更新知识的再学习,努力完善自己的知识结构,这应当是信息时代的语言研究者责无旁贷的任务。人文科学背景的语言研究者可以先通过学习利用一些编程手段和技术,从语料获取入手,逐渐获得利用计算机计算语言的能力,使自己成为文理兼通、博学多才的语言学一代新人。

      如果搞语言研究不使用语料库或概率,很可能就只能使用自己根据“内省”(introspection)得到的数据,这是“第一人称数据”(first person data),在使用第一人称数据时,语言研究者既是语言数据的分析者,又是语言数据的提供者。“第一人称数据”主观性很强,往往见仁见智。

      使用根据“问卷调查”之类的“诱导”(elicitation)得到的数据,这是“第二人称数据”(second person data)。在使用第二人称数据时,语言研究者不充当数据的提供者,数据需要通过“作为第二人称的旁人”的诱导才能得到。

      如果使用语料库的数据作为语言研究的数据来源,那么,语言研究者就不再充当数据的提供者或诱导者,而是充当数据的观察者或检验者了,这种通过“观察”(observation)和“检验”(verification)得到的数据是“第三人称数据”(third person data)。这是2000年Widdowson在他的论文The limitation of linguistics applied中提出的看法,值得我们借鉴。

      当然,如果使用第三人称的观察数据,语言学研究者同时也可以充当数据的“内省者”或“诱导者”,所以,第一人称和第二人称与第三人称是难以分开的,第三人称方法显然是比较科学的获取数据的手段。我们认为,语言学的一切知识,不论是过去通过“内省”或“诱导”得到的知识,最终都有必要放到语料库中来“观察”和“检验”,决定其是正确的,还是片面的,还是错误的,甚至是荒谬的,从而决定其存在的必要性,决定其是继续存在,还是放弃其存在,我们这一代语言研究者别无选择。

      在大数据(big data)时代,尤其是近年来的互联网(web)技术的日新月异,丰富的语料资源变得唾手可及。然而,使用传统的基于“内省”或“诱导”的方法来获取语言知识,犹如以管窥豹,以蠡测海。这种获取语言知识的方法不仅效率极低,而且带有很大的主观性和片面性。语料库语言学提倡建立语料库,在计算机的辅助下,使用统计的方法或机器学习的方法,自动或半自动地从浩如烟海的语料库中获取准确的语言知识。随着互联网日新月异的发展,互联网上有着无比丰富的文本语言数据,其中有经过标注的结构化的语言数据,也有未经过标注的非结构化的语言数据,我们可以从互联网上,使用语料库技术,从这些大量的语言数据中自动或半自动地获取客观而全面的语言知识。这是语言学获取语言知识方式的巨大变化,在语言学的发展历史上具有革命性的意义。

      我们应该敏锐地注意到这样的变化,与时俱进,努力学习语料库技术,逐渐改变传统语言学中获取语言知识的手段。该书除了讲述语料库的应用之外,还讲述了语料库的技术,这是难能可贵的,这也是该书最突出的特色。

      该书使用Python来进行语料库的获取与分析,Python作为一门高级语言,功能十分强大,易学易用,在语料获取和分析方面具备得天独厚的优势。作者选择Python作为工具,乃是明智之举。

      由于该书强调讲述语料库技术,实践性很突出,建议读者上机上线进行实际操作,切实地掌握这些技术,与时俱进,自觉地进行知识更新的再学习。读者在学习这些技术的时候,希望注意语料库的版权问题,遵守网络ROBOTS协议的有关规定。

      陆晓蕾博士是学文学出身的,几年来,她自学编程和语料库技术,学会了Python语言,还在课程中建设网站以提高效率。她的这本《Python 3:语料库技术与应用》,是她近年来在语料库研究实践深入思考的产物。语料获取与应用是个实践性特别强的工作,该书以大量的事例代码,带读者进入代码的世界。该书在平时也可以作为读者案头的一本Python工具书。在介绍语料的同时,陆博士还详细论述了网络爬虫相关的法律协议和常识。

      作为数据驱动的工作,无论是在统计机器翻译还是翻译质量评估等自然语言处理任务中,都缺少不了高质量语料和语言研究者的参与。语料库技术把语言研究者从艰苦繁重的手工劳动中解放出来,使语言研究者可以集中精力来研究和思考其他重要问题,这对于促进语言学研究的现代化具有不可估量的作用。在参与这些系统的研制过程中,语言研究者应当努力地学习计算机算法的理论和技术,不断地进行更新知识的再学习。

      希望读者在阅读了该书之后,积极地投身到语言库技术的研究工作中去,为语言学的新发展贡献聪明才智。


 本文摘自:陆晓蕾、倪斌 著《Python 3:语料库技术与应用》

(购书链接)


延伸阅读:方法工具/公益讲座/项目申报


1.方法工具

雷蕾教授《基于Python的语料库数据处理》重磅上市


互动赠书||带你玩转翻译技术


2.公益讲座

心理语言学系列论坛预告(1月13-3月24日)

第八期体认语言学讲学班通知(线上)

语料库语言学讲座预告

1月21-31日语言文学讲座/会议/论坛(第37期)

语言文学公益讲座回放集锦(六)


3.项目申报
(1)申报书发生重大变化,怎么拿下2021国社科?
(2)如何成功申报国家社科基金后期资助项目


(3)How  to  get  教育部人文社科基金项目



语言学交流群


小编邀您入群


欢迎入群共享学术资讯

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存