查看原文
其他

好文荐读丨张进凯:“X 不比 / 没有 / 不如 Y Z”变体选择的多变量分析

七万学者关注了→ 语言学心得
2024-09-03


讲座回放|语言学数据的R语言分析与可视化

2024-07-09


好文荐读(第119期)“X 不比 / 没有 / 不如 Y Z”变体选择的多变量分析。

好文荐读不定期更新,为大家带来最新的核心期刊亮眼论文,希望大家多多支持,也欢迎给我们留言推荐更多值得一荐的好文哦~




“X 不比 / 没有 / 不如 Y Z”变体选择的多变量分析


张进凯兴义民族师范学院文学与传媒学院,贵州兴义 562400

   

文章简介

文章来源:张进凯.“X 不比 / 没有 / 不如 Y Z”变体选择的多变量分析[J].当代语言学,2024(01):84-98.


摘要:本研究基于语料库标注数据,首先探讨制约“X 不比/ 没有/ 不如 Y Z”变体选择的显著因素及其影响效应,发现当语域偏向书面语、比较项和被比项为无生、结论项极性体现为积极义、比较点出现时,结构选择上倾向于“X 没有 Y Z”“X 不如 Y Z”,但是当比较项和被比项词长不等时,结构选择上倾向于“X 不比Y Z”。本研究发现“X 不比/ 没有/ 不如 Y Z”变体选择是多个因素互相作用的结果,而且不同因素之间常常呈现出复杂的多重交互效应。最后发现对“X 不比/ 没有/ 不如 Y Z”变体选择具有显著影响的预测变量,按照其相对重要性由高到低依次是:结论项极性、语域、比较点的位置、被比项的生命度、比较项和被比项的词长、比较项的生命度。

关键词:逻辑回归;对数优势比;条件推断决策树;随机森林;多变量分析

基金项目: 贵州省2022年度哲学社会科学规划课题(自筹经费)“民汉双语应急语言服务机制与人才培养模式研究”(22GZYB75)资助。

感谢张进凯老师授权推广,全文下载请点击文末“阅读原文”。


一.引言

差比结构“X 比 Y Z”的否定形式有“X 不比 Y Z”、“X 没有 Y Z”(吴福祥2004)、“X 不如 Y Z”等,三者具有互换性,但是在某些语境中三者却不能互换,或者互换后可接受度较低。例如:

本文考察“X不比/没有/不如 Y Z”变体选择的影响因素。在具体语境中“X不比/没有/不如 Y Z”变体选择往往受到诸多语境特征的共同影响,因此本文基于大规模真实语言数据,借助多变量统计分析方法,探讨“X不比/没有/不如 Y Z”之间的细微差异,揭示制约“X不比/没有/不如 Y Z”变体选择的影响因素。用量化手段来揭示影响变体选择倾向性的因素,使得研究有数据支撑,而不再只根据经验进行描写性分析。

逻辑回归分析(logistic regression analysis)可以计算因变量为二分类的分类变量或某事件的发生率,因此本文通过逻辑回归分析,探讨“X不比/没有/不如 Y Z”变体选择概率。条件推断决策树(conditional inference trees)能够很好地表现多个特征之间的相互作用,因此本文利用这一模型来探讨多个变量之间对“X 不比/没有/不如 Y Z”变体选择的交互作用。随机森林(random forests)可以产生模型中每个变量的重要性测度,本文利用此模型计算出对“X不比/没有/不如 Y Z”变体选择具有显著影响的预测变量,按照相对重要性进行排序。

本文第2节为文献综述,第3节介绍语料来源及其标注,第4节基于语料库概率模型分析“X不比/没有/不如 Y Z”变体选择,第5节为“X不比/没有/不如 Y Z”变体选择的条件推断决策树和随机森林分析,第6节为结论。


二.文献综述


相原茂(1992)比较了“不比”和“没有”两种类型的比较句否定形式,认为这两种类型不是等价的,两者的预设、含意和主张相反。周小兵(1994:251-255)将“比”字句否定式分为四类,指出“比”字句“不”的位置不同和数量宾语的有无,会使句子的预设、含意、蕴涵、否定的类型、范围、焦点等发生变化。吴福祥(2004)认为“X 不比 Y Z”是一种反预期结构,其语用功能是表达一种反预期信息。华雨(2017)对“X 不如 Y Z”和“X 不比 Y Z”在语义及主观性强度上的差异进行了计量分析。

以上研究大多关注“X 不比/ 没有/ 不如 Y Z”两两之间的变体选择,尚未涉及三者的变体选择,但是在语言研究尤其是国际中文教育中,三者的变体选择是不能绕过的话题。同时,既有研究较少涉及各种预测因素之间是否存在关系、 哪些预测因素对“X 不比/ 没有/ 不如Y Z”变体选择具有显著影响,也尚未基于用法系统阐述各预测因素在影响“X 不比/ 没有/ 不如 Y Z”变体选择中所占的权重。

鉴于此,本文基于北京语言大学 BCC 语料库,采用多变量分析探讨“X 不比/ 没有/ 不如 Y Z”变体选择,以期回答如下问题:

1) 制约“X 不比/ 没有/ 不如 Y Z”变体选择的显著影响因素是什么?这些因素影响效应下,选择变体的优势比呈现什么样态?

2) 预测因素之间是否有较强的交互效应?具体体现是什么?

3) 各预测因素所占的权重如何排序?

在研究“X 不比/ 没有/ 不如 Y Z”变体选择时应该主要考察哪些变量?以下先行研究考察到的变量,为本文的研究提供了参考。

李临定(2011[1986]:409-420)将“比”字句总结为 6 种格式,从能进入这些格式的名词来看,比较项和被比项有有生命(人和动物)和无生命(物质和抽象实体)之分。相原茂(1992)、史有为(1994)、徐燕青(1997)都对“不比”句和“没有”句结论项位置上的形容词褒贬义或者积极消极义进行了分析,本文认为这是一种对结论项极性的察。Fraser(1966)在考察小品词位置时,把直接宾语的词长,即是简单的还是受短语或分句修饰的,作为一个重要变量。Levshina(2014)、张懂(2019, 2020)都对语域(语体)进行了考察,发现不同语域对不同词汇的选择有一定的影响和偏好。邓耀臣、冯志伟(2013)验证了词汇的使用频数和词汇长度之间存在明显依存关系。何元建(2010)指出“比较点可以跟随主体、客体一起出现,也可以随其一,还可以完全不出现”。据此,本文将考察比较项生命度、被比项生命度、结论项极性、比较项与被比项词长、比较点出现与否、语域等多种变量对“X 不比/ 没有/ 不如Y Z”变体选择的影响。

本研究是对近义结构进行量化分析的一次尝试,用数据说话,并将研究结果可视化,直观形象,避免片面化和绝对化。


三. 语料来源


3.1语料来源

本研究以“不比”“没有”和“不如”为关键词在BCC语料库多领域频道进行穷尽式搜索,“不比”得到9803条,“没有”得到1928678条,“不如”得93377条。针对容量较大的“没有”和“不如”,本研究采用系统抽样法(systematic sampling),各抽取其中的10000例。之后以是否含有“X 不比/ 没有/ 不如Y Z”的所有部件为删选条件进行清洗,最后获得1420 条“不比”句、1015条“没有”句、1090条“不如”句, 分别编码为分别编码为BB1-1420、MY1-1015、BR1-1090

3.2 语料标注

语言类型学中比结构应该由比较项、比较基准、比较标记、结论项四个重要概念组成(Stassen 1985;李蓝 2003),赵金铭(2001)将四类比较次范畴统一编码为:比项+标记+被比项+结论项,其中被比项对应比较基准。

本研究对以上四个部分进行标注,即 X 为比较项,“不比/ 没有/ 不如”为标记,Y 为被比项,Z 为结论项。另外,比较句有时比较的是比较项和被比项的某个方面,例如“这本书没有那本书价格高”,比较的是价格,本研究称之为“比较点”,并作为标注对象。标注因素及其水平见表1。


四. 基于语料库概率模型的“X 不比/ 没有/ 不如 Y Z”变体选择分析


4.1 语料库概率模型的建立

本研究通过多元逻辑回归分析,揭示制约“X 不比/ 没有/ 不如 Y Z”变体选择的显著因素及其影响效应。多元逻辑回归分析涉及更多斜率,同时考察多个预测变量对因变量的影响,它可以在控制其他变量影响的基础上,考察每个个体变量的影响,同时还可以考察变量之间的交互效应。因此,个别变量的影响不会被夸大,而是在控制其他因素作用的情况下考察这个变量的影响。本文将标注好的数据导入R语言软件,在安装调用程序包mlogit、polytomous 后使用mlogit函数,进行多元逻辑回归建模,对数据进行拟合。在R中运行以上函数得到的多元逻辑回归结果如表2所示。

“拟合对数” 表示允许的偏差量,绝对值越小,表示拟合越好(Levshina 2015:280)本模型的拟合对数为-2812.2。多元逻辑回归中的R2类似于线性回归中的R2,其数值在0.2到0.4之间被认为是非常好的拟合。对应于线性模型中的0.7到0.9(Louviere 等 2000:55;Levshina 2015:280),本研究的R2为0.27,表明本模型能很好地拟合。同时,p值<0.001说明本研究的模型具有较高的预测度。通过以上拟合优度统计指标可知,本研究构建的语料库概率模型对数据具有很强的解释性能,模型能够依据预测变量对反应变量进行较为准确的分类和预测。

为了防止多重共线性(multicollinearity)对模型的参数估计和预测性能造成干扰,本研究对模型做多重共线性检验,检验各变量之间是否具有高度相关性(Levishina 2015:159-160,272;张懂 2020)。由表2可知,本研究模型中各个预测变量的方差扩大因子(VIF)的值均小于2,因此本研究模型不存在严重多重共线性(Baayen 2008)。

4.2 语料库概率模型结果

回归系数是当其他预测变量不变时, 一个单位预测变量的变化可引起的响应变量对数优势比(log odds ratio)的变化。在本模型中,系统默认的预测因素“不比”要与其他两个因素“没有”和“不如”分别进行比较。当回归系数为正时,意味着在差比结构否定式的选择上,选择“X 没有 Y Z”或者“X 不如Y Z”的概率要大于“X 不比 Y Z”;相反,当系数为负时,意味着在差比结构否定式的选择上,选择“X 没有 Y Z”或者“X 不如 Y Z”的概率要小于“X 不比 Y Z”。使用exp( )函数可以去掉对数并获得相应的简单优势比,因此本研究使用 exp( )来计算优势比。下面进行具体分析。

当语域偏向书面语时,选择“X 不如 Y Z”的发生比(odds)是“X 不比 Y Z”的8.71( e2.16463)倍;相反,选择“X 不比 Y Z” 的发生比是“X 不如 Y Z” 的1/8.71=0.11倍。在本研究的原语料中,语域为书面语的“X 不如 Y Z” 共有536句,如(2a),表现出较强的优势,“X 不比 Y Z”为130句, 如(2b)。

当语域偏向书面语时,选择“X 没有 Y Z”的发生比是“X 不比 Y Z”的2.2(e0.78646)倍;相反,选择“X 不比 Y Z”的发生比是“X 没有 Y Z”的1/2.2=0.46倍。在本研究的原语料中,语域为书面语的“X 没有 Y Z” 共有210句,如(3a),表现出较强的优势,“X 不比 Y Z”为130句,如(3b)。

当比较项为无生时,选择“X 不如 Y Z”的发生比是“X 不比 Y Z”的1.36(e0.30838)倍;相反,选择“X 不比 Y Z”的发生比是“X 不如 Y Z”的1/1.36=0.73倍。在本研究的原语料中,比较项为无生的“X 不如 Y Z” 共有974句,如(4a),表现出一定优势,“X 不比 Y Z”为791句,如(4b)。

当比较项为无生时,选择“X 没有 Y Z”的发生比是“X 不比 Y Z”的1.81(e0.59181)倍;相反,选择“X 不比 Y Z” 的发生比是“X 没有 Y Z” 的1/1.81=0.5533倍。在本研究的原语料中,比较项为无生的“X 没有 Y Z”共有908句,如(5a),表现出一定优势,“X 不比 Y Z”为791句如(5b)。

当被比项为无生时,选择“ X 不如 Y Z” 的发生比是“ X 不比 Y Z” 的2.19561(e0.78646)倍;相反,选择“X 不比 Y  Z” 的发生比是“X 不如 Y Z” 的1/2.19561=0.55倍。在本研究的原语料中,被比项为无生的“X 不如 Y Z”共有866句,如(6a),表现出一定优势,“X 不比 Y Z”为685句,如(6b)。

当被比项为无生时,选择“X 没有 Y Z”的发生比是“X 不比 Y Z”的2.86(e1.05102)倍;相反,选择“X 不比 Y Z”的发生比是“X 没有 Y Z”的1/2.86=0.35倍。在本研究的原语料中,被比项为无生的“X 没有 Y Z” 共有793句,如(7a),表现出一定优势,“X 不比 Y Z”为685句,如(7b)。

当结论项极性体现为积极义时,选择“X 不如 Y Z” 的发生比是“X 不比Y Z”的54.11(e3.99098)倍;相反,选择“X 不比 Y Z”的发生比是“X 不如 Y Z”的1/54.11=0.02 倍。在本研究的原语料中,结论项为积极义的“X 不如 Y Z”共有1054句,如(8a),表现出较强优势,“X 不比 Y Z”为197句,如(8b)。

当结论项极性体现为积极义时,选择“X 没有 Y Z” 的发生比是“X 不比Y Z”的15.42(e2.73547)倍;相反,选择“X 不比 Y Z”的发生比是“X 没有 Y Z”的1/15.42=0.06倍。在本研究的原语料中,结论项为积极义的“X 没有 Y Z”共有913句,如(9a),表现出较强优势,“X 不比 Y Z”为197句,如(9b)。

当比较项与被比项词长不等时,选择“X 不如 Y Z” 的发生比是“X 不比Y Z”的0.31(e-1.18183)倍;相反,选择“X 不比 Y Z”的发生比是“X 不如 Y Z”的1/0.31=3.26 倍。在本研究的原语料中,比较项与被比项词长不等的“X 不如Y Z”共有481句,如(10a)表现出劣势,“X 不比 Y Z” 为1192句,如(10b),表现出优势。

当比较项与被比项词长不等时,选择“X 没有 Y Z” 的发生比是“X 不比Y Z”的 0.43(e-0.84396)倍;相反,选择“X 不比 Y Z”的发生比是“X 没有 Y Z”的1/0.43=2.33 倍。在本研究的原语料中,比较项与被比项词长不等的“X 没有Y Z”共有568句, 如(11a),表现出劣势,“X 不比 Y Z” 为1192句,如(11b),表现出优势。

当比较点出现时,选择“X 不如 Y Z” 的发生比是“X 不比 Y Z” 的2. 72(e0.99895)倍;相反,选择“X 不比 Y Z”的发生比是“X 不如 Y Z”的1/2.72=0.37倍。在本研究的原语料中,比较点出现的“X 不如 Y Z”共有994句,如(12a),表现出较强优势,“X 不比 Y Z”为431句,如(12b)。

当比较点出现时,选择“X 没有 Y Z” 的发生比是“X 不比 Y Z” 的2. 69(e0.98865)倍;相反,选择“X 不比 Y Z”的发生比是“X 没有 Y Z”的1/2.69=0.37倍。在本研究的原语料中,比较点出现的“X 没有 Y Z”共有723句,如(13a),表现出较强优势,“X 不比 Y Z”为431句,如(13b)。

4.3 语料库概率模型结果讨论

根据以上统计结果,本研究所选定的预测因素均对“X 不比/ 没有/ 不如 Y Z”变体选择具有显著影响。具体而言,当语域偏向书面语、比较项为无生、被比项为无生、结论项的极性体现为积极义、比较点出现时,倾向于使用“X不如 Y Z” “X 没有 Y Z”;当比较项和被比项词长不等时,倾向于使用“X 不比 Y Z”。

吕叔湘(1999[1980])指出“X 不如 Y Z”比较前项(比较项)总是比比较后项(被比项)差。根据吕先生的分析,Z应该为积极义,和本概率模型结果一致。本研究的1090条“不如”原语料中,Z为积极义的共有1054句,Z为消极义的只有36句,前者为后者的29.3倍。例如,(14a)中位于 Z 位置上的“强壮”为积极义,不能替换为“弱”;(14b)中位于 Z 位置上的“冷”为消极义,可以替换为“暖和”,但是句义相反。

相原茂(1992)认为“X 不比 Y Z”最基本语义等于“X 不 Z, Y 不 Z”,即对于“不 Z”来说, X = Y。刘月华等(2001)认为“X 不比 Y Z”主要有两种意思,一是“X 不如 Y Z”,二是“X 跟 Y 差不多 Z”,但有可能出现正面偏移或负面偏移。由此我们有理由相信,“X 不比 Y Z”中的 Z 既可为积极义又可为消极义,和本概率模型结果一致。本研究的1420条“不比”原语料中,Z为积极义的共有597句,Z为消极义的有823句,前者与后者比为0.73:1。例如,(15a)中位于 Z 位置上的“高为积极义,可替换为消极义的“矮”,句义虽然稍有不同,但是基本句义不变;(15b)中位于 Z 位置上的“少” 为消极义,可以替换为“多”,但是句义相反。


五. “X 不比/ 没有/ 不如 Y Z”变体选择的条件推断决策树和随机森林分析


Tagliamonte 和 Baayen(2012)首次将条件推断决策树和随机森林引进语言学研究中,本研究使用条件推断决策树考察“X 不比/ 没有/ 不如 Y  Z”变体选择影响因素之间的多重交互,利用随机森林分析变体选择的影响因素之间的相对重要性。语言特征之间经常存在多重共线性,会给统计建模带来严重问题(Szmrecsanyi 2010),而条件推断决策树和随机森林属于非参数统计模型,不需要呈正态分布的数据,同时不被多重共线性所干扰。

5.1 “X 不比/ 没有/ 不如 Y Z”变体选择的条件推断决策树分析

条件推断决策树是一种基于二元递归划分的回归分类方法,可创建树状模型,能够很好地表现多个特征之间的相互作用,适用于多种数据类型。首先,变量选择是无偏的(传统的方法偏向于有许多分支可能的变量)。其次,不必“修剪”(即简化)生成的树以避免过度匹配。最后,该算法还返回p值,这些值显示了圆锥曲线在每次分割时的大小(Levshina 2015:292)。这一过程的结果可以被可视化为一个树结构,二元分裂形成“分支”和“叶子”。因此,决策树包含众多节点(node),节点分为根节点(root  node)与叶节点(leaf node)。其中根节点位于决策树最顶部,它是分类的起始点,位于最底端且没有子节点的节点称为叶节点。本研究在R语言软件中加载party程序包,使用ctree函数构建条件推断决策树模型(Hothorn 等 2006a),对数据进行统计。结果如图1所示。

图1显示了该决策树的所有可能拆分,椭圆里的是最佳分割选择的变量名称,以及相应的p值。上一级节点在某个变量条件下下分为下一级节点,依此类推,直到不能再下分。由条件推断决策树统计结果可知,决策树模型整体具有高度显著性(p<0.0001)。通过混淆矩阵(confusion  matrix),得到模型分类准确度为 63.45%,证明该决策树模型能够根据变量特征,对数据集内部63.45%的“X 不比/ 没有/ 不如 Y Z”变体进行正确分类,远高于基准分类准确度。由图1可知,结论项极性,即其积极义、消极义将顶部的第一个节点分开(第1节点)。观察决策树模型可以发现,对“X 不比/ 没有/ 不如 Y Z”变体选择具有显著影响的变量有:结论项的极性,比较项的有生、无生,比较点出现与否,比较项和被比项词长,语域。其中,结论项极性,即其积极义、消极义,对“X 不比/ 没有/ 不如 Y Z”变体选择影响最大,而变量之间存在多重交互。具体而言:当结论项的极性体现为消极义且语域偏向口语体、被比项为有生,结构变体选择上“X 不比 Y Z”有绝对优势(第4节点, 共406个观察结果),如(16a);当被比项为无生,与比较项和被比项的词长无关,结构变体选择上“X 不比Y Z”有绝对优势,其次是“X 没有 Y Z”(第6节点,共77个观察结果;第7节点,共349个观察结果),如(16b);当语域偏向于书面语时,结构变体选择上“X 不比 Y Z”有绝对优势,其次是“X 不如 Y Z”,最劣势的是“X 没有 Y Z”(第8节点,共128个观察结果),如(16c)。
当结论项的极性体现为积极义且语域偏向于口语体、被比项为无生、比较点不出现、比较项和被比项词长不等且比较项为有生时,结构变体选择上“X 不比 Y Z”有绝对优势(第14节点,共18个观察结果),如(17a);相反,当比较项为无生时,变体选择倾向比较平均,但是依然呈现“X 不比 Y Z”>“X 没有Y Z” >“X 不如 Y Z” 的顺序(第15节点,共有245个观察结果),如(17b);当比较项和被比项的词长相等时,结构变体选择上“X 不如 Y Z”有一定优势,其次是“X 没有 Y Z”,最后是“X 不比 Y Z”(第16节点,共214个观察结果),如(17c);当比较点出现时,结构变体选择上“X 没有 Y Z”的优势较大,其次是“X 不如 Y Z”,最后是“X 不比 Y Z”(第17节点,共754个观察结果),如(17d)。当结论项的极性体现为积极义且语域偏向于口语体、被比项为有生、比较点出现、比较项为无生时,变体选择倾向比较平均,但是依然呈现“X 不比 Y Z”>“X 没有 Y Z” >“X 不如 Y Z” 的顺序(第20节点,共有210个观察结果),如(18a);当比较项为有生时,三种结构的选择倾向顺序为“X 不如 Y Z”>“X 不比 Y Z” >“X 没有 Y Z” (第21节点,共有 93 个观察结果),如(18b)。当结论项的极性体现为积极义且语域偏向口语体、被比项为有生、比较点不出现、比较项与被比项词长不等时,变体选择倾向上“X 不比 Y Z”具有绝对优势,其次是“X 没有 Y Z”,“X 不如 Y Z”的优势最弱(第23节点,共有180个观察结果),如(19a);当比较项与被比项词长相等时,变体选择倾向上,“X 不比 Y Z”的优势较大,其次为“X 不如 Y Z”,最后为“X 没有 Y Z”(第24节点,共有102个观察结果),如(19b)。当结论项的极性体现为积极义且语域偏向于书面语体时,变体选择倾向上“X 不如 Y Z”具有绝对优势,其次是“X 没有 Y Z”,“X 不比 Y Z”的优势最弱(第25节点,共有748个观察结果),如(20)。由此可见,“X 不比/ 没有/ 不如 Y Z”变体选择是多个因素互相作用的结果。而且,不同因素之间常常呈现出复杂的多重交互效应。比较条件推断决策树和逻辑回归分析的统计结果发现,决策树模型中对“X 不比/ 没有/ 不如 Y Z”结构变体选择具有显著影响的变量全部包含在逻辑回归模型中。逻辑回归注重某个变量影响下变体选择的概率,而决策树能发现多种变量对变体选择的交互作用。5.2 “X 不比/ 没有/ 不如 Y Z”变体选择的随机森林分析随机森林是以决策树为基础的一种更高级的算法,它是用随机的方式构建的一个森林,而这个森林是由很多的相互不关联的决策树组成。随机森林可以产生模型中每个变量的重要性测度,这些变量在许多决策树上求平均值(Levshina 2015:292)。因此,随机森林的表现一般要优于单一的决策树。随机森林在当前所有算法中, 具有极高的准确率;能够有效地运行在大数据集上;可以统计并可视化呈现各个变量的相对重要性(Szmrecsanyi 2010)。它也能够处理具有高维特征的输入样本,而且不需要降维;不容易产生过拟合,具有很好的抗噪能力和稳健性。本研究通过在R语言软件中加载party程序包,使用cforest函数构建随机森林模型(Hothorn 等 2006b),对数据进行拟合,通过随机构建1000次决策树模型,得到随机森林模型。然后对预测变量的相对重要性进行统计,结果如图2。

随机森林模型整体具有高度显著性(p<0. 0001)。模型的分类准确度为63.45%。随机森林模型对变量相对重要性的统计结果具体数值见表3:

因此,对“X 不比/ 没有/ 不如 Y Z”变体选择具有显著影响的预测变量,按照其相对重要性由高到低依次是:结论项极性、语域、比较点是否出现、被比项的生命度、比较项和被比项的词长、比较项的生命度。可见,随机森林模型和逻辑回归模型中的显著预测变量基本一致,并且随机森林模型包含了决策树模型中的所有显著分类特征。 六.结语

本研究基于语料库标注数据,使用逻辑回归分析,首先探讨制约“X 不比/没有/ 不如 Y Z”变体选择的显著因素及其影响效应,发现当语域偏向于书面语体、比较项和被比项为无生、结论项极性体现为积极义、比较点出现时,结构选择上倾向于“X 没有 Y Z” “X 不如 Y Z”,但是当比较项和被比项词长不等时,结构选择上倾向于“X 不比 Y Z”。再次,发现“X 不比/ 没有/ 不如 Y Z”结构变体选择是多个因素互相作用的结果,而且不同因素之间常常呈现出复杂的多重交互效应。条件推断决策树和逻辑回归的统计结果揭示,对“X 不比/ 没有/ 不如 Y Z”变体选择具有显著影响的变量全部包含在逻辑回归模型中,并且两个模型中预测变量的影响效应方向基本一致。最后通过随机森林发现对“X 不比/ 没有/ 不如 Y Z”变体选择具有显著影响的预测变量,按照其相对重要性由高到低依次是:结论项极性、语域、比较点是否出现、被比项的生命度、比较项和被比项的词长、比较项的生命度。根据吕叔湘(1999[1980]),“X 不如 Y Z”的 Z 应该为积极义,根据相原茂(1992)、刘月华等(2001),“X 不比Y Z”中的 Z 既可为积极义又可为消极义。结合本文结论和已有成果可知,Z的极性(积极义/ 消极义)对“X 不比/ 没有/ 不如 Y Z”变体选择起着决定作用,并与其他变量进行交互。“不比”“没有” “不如”的原型语义是这一结果产生的动因,其中“没有”“不如”的原型语义为“在 Z 上,X<Y”,“不比”的原型语义为“在 Z 上,X≤Y”(相原茂 1992;刘月华等 2001;华雨 2017),因此前者中Z 倾向于表达积极义,后者中 Z 可为积极义也可为消极义。

本研究是一次将差比结构变体选择进行量化分析的尝试,其中涉及了三种量化统计模型,本研究不仅验证了上述变量对“X 不比/ 没有/ 不如 Y Z”变体选择具有显著影响,还揭示了变量之间存在多重交互效应,同时发现了各个变量的相对重要性。其中结论项的极性(积极义/ 消极义) 在“X 不比/ 没有/ 不如Y Z”结构变体选择中起着决定作用。


作者简介







张进凯

个人简介:张进凯,文学博士,兴义民族师范学院教师,主要研究方向为汉语语言学、语言学及应用语言学。主持国家社科项目一项、贵州省社科一项、教育部语和中心项目一项,发表论文多篇,出版专著一部教材多部。联系方式:kelvinsoul@naver.com。

本文来源:《当代语言学》

点击文末“阅读原文”可跳转下载

推  荐



好文荐读|谢枝龙:双语优势研究的争议与展望

2024-07-11

好文荐读丨冷雨航、曾毅平:《标准》与《基准》词表比较研究

2024-07-10

好文荐读|林 娟、郭 锐:“差一点”和“差一点没”的语义

2024-07-05

好文荐读|崔希亮、赵霞:AI大语言模型背景下的修辞学研究

2024-07-03

好文荐读|常  辉:论我国二语研究的主要任务

2024-06-29

好文荐读|顾曰国、张永伟:人生历程叙事与修辞场景元宇宙技术重构

2024-06-28

好文荐读|陈平:论汉语语法研究中的主语概念

2024-06-25

好文荐读|邓丹、唐一然:汉语二语学习者韵律表达中的音高实现

2024-06-24

好文荐读|柳茜、李泉:美国中小学中文教学调查研究:内容、效果与对策

2024-06-20


欢迎加入
“语言学心得交流分享群”“语言学考博/考研/保研交流群”


请添加“心得君”入群请备注“学校/单位+专业/研究方向”

今日小编:语安  

审     核:心得小蔓

转载&合作请联系

"心得君"

微信:xindejun_yyxxd

点击“阅读原文”可跳转下载

继续滑动看下一个
语言学心得
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存