查看原文
其他

重 磅|ChatGPT在语言使用方面是否类似于人类?@ 港中文最新发现

The following article is from 计算神经语言学 Author 王书琪 Succi

ChatGPT在语言使用方面是否类似于人类?


本研究由香港中文大学语言处理实验室团队完成。

实验材料、数据分析代码等可以在osf.io/vu2h3/ 中获得。

推送作者:王书琪;编辑:段旭峰,吴翰林。






乔姆斯基2023年3月8日在《纽约时报》上发表了题为《ChatGPT的虚假承诺》的文章,认为“ChatGPT在推理和语言使用上和人类有巨大差别”。但是,很多ChatGPT的使用者都被ChatGPT的像人程度惊艳过,甚至开始担忧自己作为人会被ChatGPT所代替。

那么,ChatGPT在语言使用上多大程度上像人呢?本研究从心理语言学角度出发,开创性地将ChatGPT作为“被试(participant)”,让其完成12个经典的心理语言学实验,然后再和人类的实验结果做对比。这12个实验囊括了从语音、词汇、句法、语义再到语篇、对话等语言能力的多个方面,全方位地探究了ChatGPT的语言使用能力。下面我们将具体介绍这12个实验。



I. 语音 1 | 语音与形状间的联系

ChatGPT能否根据单词的发音来判断单词所指示的物体的形状呢?

能。

人类实验表明,英语母语者可以根据单词的发音或拼写形式来判断一个新单词(novel word)是表示尖的物体还是圆的物体。比如,“takete”或“kiki”可能表示尖的物体(因为听起来比较尖锐),而“maluma”或“bouba”则表示圆的物体。本研究给ChatGPT呈现10个人类判断为尖的单词和10个人类判断为圆的单词,让其判断该单词表示尖的物体还是圆的物体。

结果显示,ChatGPT能够更多地将听起来是圆的单词判断为表示圆的物体(见下图)。这表明,ChatGPT和人类一样,能够复原语音与形状之间的联系,符合语音象征主义(sound symbolism)。


语音与形状间的联系实验结果。柱状图为ChatGPT的结果,菱形为人类实验结果。下同。

II. 语音 2 | 语音与性别间的联系

ChatGPT能否根据名字的发音来判断性别呢?

能。

在英语中,女性名字更多以元音结尾,而男性名字则多以辅音结尾。因此,英语母语者可以根据名字的语音信息来判断一个不认识的名字的性别。本研究想要探究ChatGPT是否具有这种能力。具体方法为:给ChatGPT呈现包含辅音结尾名字或元音结尾名字的前一个从句,让其续写后一个从句,例如,给ChatGPT呈现“Although Pelcrad/Pelcra was sick...”,然后通过观察ChatGPT在续写中使用的代词(“he, him, his”或“she, her, hers”)来确定其将名字判断为男性还是女性。

结果表明,ChatGPT能够更多地在元音结尾的名字后面使用女性代词(见下图),这表明,ChatGPT和人类一样,能够习得名字中语音和性别之间的联系,通过语音信息来推断名字的性别。


III. 词汇 1 | 单词长度与预测性
在高预测性语境下 ,ChatGPT能否像人类一样选择使用更短的单词?
不能。

人类实验表明,在预测性高的语境下,人们更倾向于使用较短的单词,而在预测性低的语境下,则更倾向于使用较长的单词。例如,同样是表示“数学”意思的词“maths”和“mathematics”, 在预测性较高的语境下“Susan was very bad at algebra, so she hated...(Susan代数很不好,所以她恨...)”, 人类倾向于选择短的“maths”,而在预测性较低的语境下“Susan introduced herself to me as someone who loved...(Susan将自己介绍为是一个喜欢...)”,人们则倾向于选择长的“mathematics”。本研究想要探究ChatGPT是否也具有这个能力。

结果显示,尽管ChatGPT有在高预测性语境下选择更短单词的倾向,但是并没有像人一样有显著差异(如下图)。这表明,ChatGPT并不会像人类一样根据预测性的高低来选择使用单词较长或较短的形式。


IV. 词汇 2 | 词汇意义启动

对于多义词,ChatGPT能不能像人类一样倾向于使用前面出现过的意义呢?

能。

英语中有很多多义词,如,“post”有“邮件”或“工作”的意思。对于多义词,人们倾向于使用它前面出现过的意思。例如,在看到句子“The man accepted the post in the accountancy firm”或句子“The man accepted the job in the accountancy firm”后,人们会比没看到任何句子时更倾向于将“post”联想为“工作”相关,而不是“邮件”或其他意思相关,尽管“邮件”才是“post”的主要意思,而“工作”只是其次要意思。这其中,前一个句子被称为“词汇意义启动(word-meaning prime)”,后一个句子被称为“近义词启动(synonym prime)”。

本研究想要探究ChatGPT能否根据前面句子中出现过的意思来更新多义词的意义。具体方法为:先给ChatGPT呈现44个句子,其中13个为词汇意义启动句,13个为近义词启动句,18个为填充句。然后再给其呈现39个多义词让其进行联想,其中13个在前面的词汇意义启动句出现并使用了其次要意思,13个在前面的近义词启动句中有和其次要意思相关的近义词,13个没有任何对应的启动句。

结果显示,ChatGPT在联想任务中联想到该词次要意思的比例在词汇意义启动条件下最高,其次是近义词启动条件,最后是无启动条件(见下图)。这表明,ChatGPT像人一样,能够根据最近的输入来更新形式-意义间的映射。

V. 句法 1 | 句法启动

ChatGPT能不能像人类一样倾向于重复使用前面出现过的句法结构吗?

能。

人类实验表明,人们倾向于使用前面出现过的句法结构。比如,如果前面出现了介宾结构(prepositional-object, PO)“The racing driver gave the torn overall to his mechanic”,后面再看到“The patient showed...”时会更多续写成介宾结构,而非双宾结构(double-object, DO)。 这种现象被称为句法启动(syntactic priming)效应。而如果前后两个句子使用了同一个动词(如,都是动词“gave”),那么这种句法启动效应会得到增强,即词汇增强(lexical boost)效应。本研究想要探究ChatGPT是否具有这两个效应。

结果显示,ChatGPT在使用了介宾结构后更倾向于重复使用介宾结构,且当动词相同时,这种效应更明显(见下图)。这表明,ChatGPT和人类一样,具有句法启动效应和词汇增强效应。


VI. 句法 2 | 句法歧义消解

ChatGPT能利用前面的语境消解句法歧义吗?

不能。

英语的介词短语有时具有歧义。例如在句子“the hunter killed the poacher with a rifle”中,介词短语“with a rifle”既可以修饰名词短语(NP)“the poacher”,即“带着一把来复枪的偷猎者”, 也可以用来修饰动词短语(VP) “killed the poacher”,即“用一把来复枪杀死偷猎者”。但是人们通常倾向于将其理解为后者。不过,这种歧义消解受到前面语境的影响,相较于只有一个“偷猎者”的语境(There was a hunter and a poacher),人们在有两个“偷猎者”的语境(There was a hunter and two poachers)下更容易将介词短语解读为修饰名词。本研究想要探究ChatGPT是否也具有相似的倾向。

结果显示,相比较于询问动词短语时(“Did the hunter have the rifle?”),ChatGPT确实能在询问名词短语(“Did the poacher have a rifle?”) 时更多地将介词短语解读为修饰名词,但是不同的语境之间则没有显著差异(见下图)。这表明,ChatGPT并不能像人一样利用前面的语境进行歧义消解,究其原因,要么该语言模型同时保持了对歧义句的多种解读,要么其解读受到提问方式的影响。

VII. 语义 1  | 不合理句子的解读

面对不合理的句子,ChatGPT能否将其合理化呢?

能。

人们在遇到不合理的(implausible)句子时,如双宾结构(DO)“The mother gave the candle the daughter”,通常会对其进行非字面(non-literal)解读,即通过增加"to"的方式将其理解成”The mother gave the candle to the daughter(妈妈把蜡烛给了女孩)”,而不会进行字面(literal)解读,即“妈妈把女孩给了蜡烛”。以往研究表明,相较于不合理的介宾结构(PO)句子(如“the mother gave the daughter to the candle”),人们更倾向于对不合理的双宾结构进行非字面解读,因为人们觉得漏掉一个“to”比增加一个“to”更有可能,所以会自动给不合理的双宾结构补上一个to让其合理(如上述例子),这符合噪音通道模型(noisy-channel model)。本研究想要探究ChatGPT在理解不合理的句子时是否也有类似的倾向性。

结果显示,相较于介宾结构,ChatGPT更容易对双宾结构进行非字面解读(见下图)。这重复了人类实验的结果,表明ChatGPT像人一样,能够用噪音损失(noise corruption)来解释不合理的句子。

VIII. 语义 2  | 语义错觉

ChatGPT能不能像人类一样产生语义错觉从而注意不到句子中的明显错误?

能。

人类实验表明,有时人们很难注意到句子中明显的错误。例如在被问到“During the biblical flood, how many animals of each kind Moses take on the ark(在圣经大洪水中,每个动物摩西带了几只上方舟)?”,人们通常难以察觉到不是摩西而是诺亚将动物们带上方舟的,这种现象被称为语义错觉(semantic illusion)。如果这个错误的词和正确的词的语义差异比较大,比如亚当,那么人们就会更容易注意到这个错误。因此,像摩西这样和正确的词语义更接近的词被称为强替代(strong imposter),而像亚当这样和正确的词语义差别更大的词被称为弱替代(weak imposter)。本研究想要探究ChatGPT能否像人一样产生语义错觉,并且强替代产生的语义错觉更多。

结果显示,ChatGPT会产生语义错觉,且比人产生更多的语义错觉。而且,相比较强替代条件,其在弱替代条件下能够探测出更多的错误(见下图)。这表明,ChatGPT像人一样,若将正确的词替换成和其语义更接近的错误词,则更难探测出这种错误。

图为语义错觉实验结果,纵坐标表示察觉到错误的比例。

IX. 语篇 1 | 隐含因果

ChatGPT能否判断出动词中隐含的因果关系呢?

能。

英语中一些动词隐含着因果性。例如,对于句子“A scared B”, 人们自然而然地认为是A的某些特质让B害怕,因此A是刺激(stimuli),B是经历者(experiencer);相反地,对于句子“A feared B”,则认为是B的某些特质让A害怕,因此A是经历者,B是刺激。像“scare”这样将主语分配为刺激、宾语分配为经历者的动词被称为“刺激-经历者(stimuli-experiencer)”型动词,而像“fear”这样将主语分配为经历者、宾语分配为刺激的动词被称为“经历者-刺激(experiencer-stimuli)”型动词。人类实验表明 ,人们能够根据不同的动词类型推断出不同的因果关系。

本研究想要探究ChatGPT是否也具备这种能力。具体方法为给ChatGPT呈现因果从句的前半句,如“Gary scared/feared Anna because...”,让ChatGPT完成因果从句的后半句。通过观察其续写使用的代词来判断其因果关系的分配。如果是he,则表明其认为主语Gary是刺激、宾语Anna是经历者;如果是she,则表明其认为主语Gary是经历者、宾语Anna是刺激。

结果表明,相较于“刺激-经历者”型动词,ChatGPT在“经历者-刺激”型动词条件下更倾向于把原因归结为宾语(见下图)。这表明,ChatGPT能够像人一样使用动词语义推断隐含因果关系。

X. 语篇 2 | 推理

ChatGPT能够连接两个句子的信息从而进行推理吗?

能。

人类实验表明,相较于联想推理(elaborative inference),人们更容易进行连接推理(bridging inference)。所谓连接推理,指的是通过连接两个相关的信息进行推理,如句子“While swiming in the shallow water near the rocks, Sharon stepped on a piece of glass. She called desperately for help, but no one around to hear her(Sharon在礁石附近游泳的时候踩到了一块玻璃。她绝望地呼救,但是周围没有人听到她)”,人们更容易通过连接“Sharon stepped on a piece of glass(Sharon踩到了一块玻璃)”和“she called desparately for help(她绝望地呼救)”这两个信息推理出” She cut her foot(她割破了脚)”这个可能性。

所谓联想推理,指的是只从一个信息中进行推理。如句子“While swimming in the shallow water near the rocks, Sharon stepped on a piece of glass. She had been looking for the watch that she misplaced while sitting on the rocks(Sharon在礁石附近游泳的时候踩到了一块玻璃。她刚才一直在找她坐在礁石上时放错位置的一块手表)”。人们只能从“Sharon stepped on a piece of glass(Sharon踩到了一块玻璃)”这一个信息来推理“She cut her foot(她割破了脚)”,因此这种推理相较于连接推理更困难。本研究想要探究ChatGPT是否也像人类一样对这两种推理有不同的表现。

结果显示,ChatGPT能够像人一样,相较于联想推理,能够更多进行连接推理(见下图)。

图为推理实验结果。纵坐标为yes回答的比例,表示成功进行推理的比例。Explicit表示外显条件,即直接在句子中告诉要推理的内容(“She cut her foot on a piece of glass”)。

XI. 对话 1 | 词汇意义通达

ChatGPT能否根据不同的人来理解单词的不同意思?

能。

同一个词,在英式英语(British English, BE)和美式英语(American English, AE)中有不同的意思。例如,“bonnet”这个词,在英式英语中表示“汽车的阀盖”,而在美式英语中则是“帽子”的意思。人类研究表明,英语母语者能够根据不同的口音来通达(access)同一个单词的不同意思。

本研究想要探究ChatGPT是否也能像人类一样根据对话者(interlocutor)不同的身份通达单词不同的意思。由于ChatGPT无法进行口语输入,因此不能利用口音信息,所以研究者直接在最开始的对话者自我介绍时介绍自己是英国人还是美国人,以此帮助ChatGPT确定对话者的身份。

结果显示,ChatGPT能够像人一样根据对话者的身份来通达相应的单词意思,即在对话者为美国人的情况下更多通达美式英语的意思(见下图)。

XII. 对话 2 | 词汇提取

ChatGPT能否对不同的人说不同的话?

能。

和上一个实验类似,对于同一个定义,人们能够根据不同的口音来提取美式表达或英式表达。例如,对于定义“a housing unit common in big cities that occupies part of a single level in a building block(大城市中常见的占大楼某一层的屋子)”,如果用英国口音说,则人们更多会回答“flat”这个词,而如果用美国口音说,则会更多回答美式表达“apartment”。本研究想要探究ChatGPT是否具有这种根据对话者身份来提取不同词汇的能力。

结果显示,ChatGPT能够像人一样根据对话者的身份来提取相应的单词,即在对话者为美国人时更多回答美式表达(见下图)。

总结

本研究针对ChatGPT的12个实验中,有10个重复了人类实验的结果,2个没能重复(实验III与实验VI)。这表明,「ChatGPT的语言使用能力很大程度上和人类接近,这有可能为研究人类的语言使用和习得提供借鉴。

本研究和乔姆斯基的观点不符,关于这个具有争议性的问题你是如何看的呢?欢迎留言讨论。


文章来源:Cai, Z. G., Haslett, D. A., Duan, X., Shuqi, W., & Pickering, M. J. Does ChatGPT resemble humans in language use? PsyArXive [Preprint] (2023) https://psyarxiv.com/s49qv/





点击“阅读原文”可跳转下载




课程推荐



学术会议|第56届英国应用语言学年会@3月17日截稿

2023-03-14

学术会议|第四届教育与语言学国际会议

2023-03-13

青年学人|国际中文教育系列讲座(第8+9期)回放资源

2023-03-13

博士招生|北京航空航天大学2023年博士招生(语言学)

2023-03-12

重  磅|2022人大复印报刊转载(语言学)

2023-03-11

招  聘|上海师范大学2023年教师招聘(语言学+汉语国际教育)

2023-03-11

招  聘|华东师范大学2023年教师招聘(语言学)

2023-03-10

博士招生|东北师范大学2023年博士招生(语言学)

2023-03-10

今日一词|焦点敏感算子 Focus-sensitive Operator

2023-03-09

招  聘|复旦大学2023年青年教师招聘(语言学)

2023-03-09

学术会议|第十二届现代汉语语法国际研讨会

2023-03-08

学术会议|第20届国际应用语言学学会(AILA)世界大会

2023-03-07

好文荐读|王昭、徐彩华:英语母语者对汉语语法体标记的习得过程

2023-03-07

招  聘|北京科技大学2023年教师招聘(语言学)

2023-03-06


欢迎加入

“语言学心得交流分享群”“语言学考博/考研/保研交流群”
请添加“心得君”入群务必备注“学校+研究方向/专业”

今日小编:心得君

审    核:心得君

转载&合作请联系

"心得君"

微信:xindejun_yyxxd

点击“阅读原文”可跳转下载

继续滑动看下一个

重 磅|ChatGPT在语言使用方面是否类似于人类?@ 港中文最新发现

向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存