查看原文
其他

董志翘 | 互联网、大数据时代汉语字词典的编纂与修订

董志翘 语言学 2024-02-19

//点击蓝字,关注我们





阅读本文前,请先点击上方的蓝色字体“语言学”,再点击关注,这样就能天天免费收到精彩文章了。每天都有更新,完全是免费订阅,请放心关注!


为了更好地为读者服务,我们组建了若干微信群,每年开放1次,每人只能进一个群,若已进入我们的微信群系列,请不要再加。资源有限,望理解!


下列四个群还有部分名额,限时开放:

1.语言学2群;

2.简牍学2群;

3.文学艺术群;

4.哲学教育群


请在公众号界面回复“加群”,获取进群信息~(不要发私信)







∗董志翘,文学博士,北京语言大学文献语言研究所特聘教授,南京师范大学文学院教授,汉语言文字学专业博士生导师,主要研究方向为汉语史、训诂学、古典文献学。

摘 要:随着互联网、大数据时代的到来,传统的字词典的内容与形式,编纂、修订方式已经跟不上时代的步伐,满足不了大众的需求。我们必须与时俱进,充分发挥互联网、大数据的优势,通过网络更广泛地收集字词典的编纂、修订素材,通过网络进一步协调字词典内部的知识点的联系,通过网络使单一的文本字词典成为多链接、多形式的字词典,通过网络变定时的专家编纂、修订为“在线”的专家、读者相结合的“动态”编纂、修订。这样才能真正保证字词典的质量,才能跟上不断发展的形势。

关键词:汉语字词典 字词典编纂 字词典修订


目次

一 字词典的内容与形势


二 字词典的编纂、修订方式


《汉语大字典》首版(八卷本)是20世纪末由四川、湖北两省300多名专家学者经过10多年的努力编纂而成,于1990年出齐。全书收字5.6万,是我国规模最大、编纂最精的一部以解释汉字形、音、义为主要任务的大型语文工具书。2010年又出版了第二版修订本(修订了错误,增加字头至6万余),其间还出版了缩印本、简编本、三卷本、三卷简编本、袖珍本、四卷本、普及本等各种版本。《汉语大字典》的出版,结束了我国“大国家、小字典”的历史。30多年来,为我国优秀传统文化的传承和发扬、为汉字汉语的传播及规范化做出了重大贡献。当然,在几十年的使用过程中,我们也发现了在时代、条件、编辑修订手段的限制下的一些错误和不足(故每个版本都有一些局部的修订)。如今,由四川大学发起,将进行新一轮的全面修订,这是非常必要的,这是具有重大历史意义的盛举。


在西方,没有“字典”的概念,如《韦氏英语词典》(相当于我们的《新华字典》)、《牛津英语词典》都称“词典”。“字典”是汇集单字、按某种查检方法排列,并一一着明其读音、意义及用法的工具书。它是汉语和类似语言文字(如西夏文、契丹文)所特有的,是具有明显中国特色的。(一般认为以“字典”为名,始于《康熙字典》,也有人认为唐代慧琳《一切经音义》中已引《字典》一书,故“字典”的出现可上溯至唐代。如果我们将“字书”算在内的话,那么“字典”可谓源远流长,自春秋战国的《史籀篇》、秦代的《仓颉篇》、东汉许慎的《说文解字》就已经开始了。)


从文字角度而言:在西方,文字是记录语言的符号(不属于语言范畴)。一个词可以分成几个音节,一个音节可以分为若干音素,文字符号是记录音素的。在中国,汉字是“形、音、义的结合体”,一个文字符号就是一个音节,往往表示一个意思(除记录“联绵词”“外来词”等的汉字而外)。


索绪尔《普通语言学教程》称:“语言学的对象不是书面的词和口说的词的结合,而是由后者单独构成的。”[1]其后西方语言学家乃至中国语言学家,都把语言研究的重点转到了口语上。


笔者细读此书,发现这是一个被误解的命题,原因有二。


其一,学界受了古希腊哲学家亚里士多德的影响。他曾经提出,声音是概念的符号,而“文字是符号的符号”,这一观点在西方延续了2000多年,因为它基本符合古希腊以来西方语言文字的事实,也大体能解释当今世界上大多数语言文字的事实,然而它并不是“放之四海而皆准”的理论,尤其不符合中国语言文字的事实。


其二,学界片面地理解了索绪尔的学说。索绪尔固然曾经说过,文字“唯一的存在理由是为了表现语言”;但是索绪尔毕竟是通晓世界语言文字的大家,他在《普通语言学教程》中也明确地强调了“只有两种文字的体系:(1)表意体系。一个词只用一个符号表示,而这个符号却与词赖以构成的声音无关。这个符号和整个词发生关系,因此也就间接地和他所表达的观念发生关系。这种体系的典范例子就是汉字。(2)通常所说的‘表音’体系。他的目的是要把词中一连串连续的声音摹写出来”。不仅如此,他还进一步表明:“对汉人来说,表意字和口说的词都是观念的符号;在他们看来,文字就是第二语言。”①接着说:“我们的研究将只限于表音体系。”等于说,他的书实际上只是“以希腊字母为原型的体系”的印欧语言学,并不包括中国的语言文字。然而书中如此重要的论点,过去却被大家忽视了。


《汉语大字典》在每个字头下,都需要分列“义项”,要释义,要列举书证。而汉语又有“音随义变”(破读等)的特性,所以一个字头下会有不同的注音,加之数千年来,汉字的字形也在不断地变化(书写方式、造字结构、派生、繁简、正俗等等),因此还需要列出各种形体。所以《汉语大字典》其实兼具“汉语单音词大词典”的功能(甚至有超出《汉语大词典》的方面,如罗列各个时期的字形),它的编纂及修订的难度绝不在《汉语大词典》之下。


而随着互联网、大数据、融媒体时代的到来,传统的字词典编纂、修订方式已经跟不上时代的步伐和大众的需求了。这包括两个方面。


一  字词典的内容与形式

(一)在字词典的内容方面


(1)要通过互联网广泛收集更全面、更丰富的编写素材及资料。主要有三类。


a.《汉语大字典》出版以来,凡是涉及《汉语大字典》的研究论著都应在收集之列。包括正式出版的,以及从相关学术会议论文集中才可以查到的(目前各类学术会议一般有电子版论文集)。此类材料比较容易收集,因为有明显的标志。但也有不少专书研究、专题研究的论著,从题目上看不出与《汉语大字典》有关,而其中个别章节是涉及《汉语大字典》的,此类材料的收集就颇费功夫了。


b.相关文字学的专门著述。这些年,随着出土文献大量发现及研究,随着对历史上各阶段各类不同文献的研究,发现了同一字的更多的形体,更多的实际用例,更多的义位,甚至更多的读音。更有不少学者,如裘锡圭、刘钊、陈伟武、李守奎、梁春胜、张涌泉、毛远明、杨宝忠、黄征、曾良、郑贤章等一大批学者的古文字、近代俗字研究成果(如果加上这些年的一些优秀文字学硕博士论文,那就更是不计其数)纠正了以往字词典中的不少错误,提出了新见,或者提供了实际使用的例证。此类材料我们必须通过网络予以全面收集。同时,近些年来的一些训诂学、音韵学论著(这涉及字典的释义、注音)也是不可忽视的参考资料,亦需广泛收集。


c.近年来关于各类文献的整理材料(特别是新发现的出土文献)。这将为修订版提供大量新书证(原来的《汉语大字典》有不少字头下只有注音、释义而缺乏书证或书证严重滞后)。这类文献面广量大,也必须通过网络搜索。


(2)要通过电子语料库对每个字词字形、意义、读音产生的年代以及用法等进行数据统计。


(3)要通过电子检索系统对一部字词典中的相关字词的字形(古今、异体、繁简、正俗)释义、例证进行比勘统一。传统字典编纂及修订,大多是以部首分工分册进行,分册先后出版的。这存在不少弊病。所以,必须对全书的前后内容进行统一核查。a.全书的“参见”条目的核查;b.繁、简字,正、异体字及其统属的多音节条目(包括异形条目)的核查;c.“同源字”的释义关联的核查。词源研究不仅是探求一个词(在《字典》中主要指单音词)的“得名之由”以及探求词义系统的需要,它在语文字典中对于一些相关词的义项分列、准确释义有着至关重要的作用。它可以有效避免我们在义项分列、词义解释时的主观性(随文分列义项、随文释义),使我们顺利找到字形、字音、字义的变化理据。


如“票”,《说文》:“火飞也。”段注:“此与熛音义皆同。引申为凡轻锐之称。”“熛”(分化区别字)主要义素有:轻、疾、锐、上扬、漂浮、黄白色等。

,《说文》:“轻行也。”

嫖、僄,《集韵》:“轻也,或从人。”

骠,《说文》:“骠,黄马发白色。一曰白髦尾也。从马,票声。”《集韵·笑韵》:“骠,马行疾貌。”

嘌,《说文》:“嘌,疾也。”

慓,《说文》:“慓,疾也。”《广韵》:“慓,急也。”

飘,《说文》:“飘,扶摇风也。”

翲,《广韵》:“翲,高飞。”

,《集韵》:“,峰头。”

標,《玉篇》:“標,木末也。”

剽,《说文》:“剽,砭刺也。”段注:“砭刺必用其器之末。因之凡末谓之剽。《庄子》谓本末为本剽。”

幖,《说文》:“幖,帜也。”

篻,《集韵》:“篻,竹长皃。”

漂,《说文》:“漂,浮也。”

……


这些字分布于不同的部首下,如何在释义时予以统一观照,这是一个棘手的问题。这也提醒我们在收集研究材料时,还要注意参考王力《同源字典》、殷寄明《汉语同源字词丛考》《汉语同源词大典》、黄易青《上古汉语同源词意义系统研究》之类的著作。


(二)在字词典的形式方面


当今,我们已逐步进入互联网、大数据、人工智能、全球化的信息时代,不断学习和吸收知识成了个人发展的必然要求。字词典不仅对字词的形、音、义做了必要的注释,更有着国家和民族的文化印记;不仅能帮助人们查字认字,在字义、词义方面释疑解惑,还能帮助人们获取多方面的文化知识。因此,字词典被称为“不说话的老师”,已成为传承与传播文化的一个重要媒介。同时,飞速发展的时代也在逐渐改变着人们的生活习惯、学习方式,这就要求未来的字词典从形式到内容都要适应时代需要并适时变化。字词典能不能随着时代的发展,随着人们学习习惯、方式的改变而起到它应有的积极作用,跟它的介质、表达形式和表示方式有很大的关系,我们要考虑如何能使字词典与每个人使用的计算机和手机相连接,但又不是简单地将现有的字词典电子版植入计算机和手机。因此不仅要有传统的纸质版,还需要有网络版(计算机检索版、手机检索版);不仅要有文字版,还要逐步努力实现音像版;不仅要有字词典的原文,还要有更多链接。要链接更多的形象、动态数据(包括字形演变的动态图像、相关事物的音像数据等)。《现代汉语词典》网络版已增设“听说”“书写”“辨析”三个链接,其实还可增“图像”),以增强其直观性,适应新时代大众的需求。另如《汉语大词典》网络版新增了5种功能。(1)全文搜索(可搜索词条、释义、书证中的内容);(2)部件查字(除拼音、笔画、部首查字而外,增部件查字法,为生僻字、异体字、俗写字的查验提供方便);(3)繁简字、异体字对照;(4)同义词、反义词功能(释义中加入词的同义词、反义词功能);(5)成语小工具(集合进多种专门成语功能性词典:《实用成语词典》《连用成语词典》《同义词典》《反义词典》《歇后语词典》。将来我们完全有可能将其发展为“智能字词典”(就像地图导航一样,通过人机对话来查阅使用字词典)。


二  字词典的编纂、修订方式


(一)由定时编纂、修订到随时编纂、修订


历来字词典的编写、修订方式是集中一批学者利用若干年时间进行编纂,出版后隔若干年(少则十来年,多则几十年)再集中进行修订。但在目前互联网、大数据、知识爆炸(新的数据、新的知识层出不穷,研究成果不断涌现)的时代,这种修订方式显然是滞后于时代步伐了。所以,将已有的字词典数据化、网络化,然后在此基础上采用“随时发现问题,及时解决问题”的方式进行“动态编纂”“动态修订”,可能是今后努力的方向。


(二)由少数专家的固态编纂、修订到专家与读者相结合的动态编纂、修订


历来参与字词典的编纂、修订的人员主要是汉语言文字学、文献学的学者。但大型的字词典往往带有百科性质(其中的词条、字条涉及社会生活的各个方面:文、理、法、医、农、工、商等各个领域),编纂、修订者可能是某一方面的专家,但不可能是各行各业皆通的全才。因此在面对一些涉及百科性质的词条时,可能发现不了问题,即使发现了问题,在知识面上也会显得捉襟见肘。(这是有教训的:《汉语大词典》第一版编成以后,在一次学术会议上,有一个农业大学茶叶专业的教授对《汉语大词典》中几十个涉茶词条就提出了尖锐的批评意见,指出部分内容是有悖专业常识的。)《汉语大词典》(修订第二版)2018年底出版第一册征求意见本,我仅翻看了数十页,就发现涉佛教词语的立目、释义、书证存在很多错误,便写了一篇文章发表在《古汉语研究》上。如果没有征求意见本,那么这些错误就要等到若干年后第三次修订时才能改正过来。因此,只有将字词典数字化,推出网络版,让各行各业使用,同时设置一个“互动窗口”(我们在进行国家重大招标项目“汉语史语料库建设与研究”的研究时,已经进行过尝试,从程序设计角度而言并不困难),使用者若发现问题或者有新的建设性意见都可通过“互动窗口”随时提交。字词典编辑部安排专门人员及时收集、归类,一段时间后集中请有关专家对反馈的意见和建议进行分析、研究,对相关字条、词条做出修订,然后再通过“互动窗口”对使用者做出回复,进一步听取意见。经多次互动之后,才基本改定(当然,随着时代的发展,研究的深入,今后还会进一步修订)。只有这样不断进行“动态修订”,变少数专家的定时修订为使用者与专家结合的随时修订,进行“在线编纂”“在线修订”,才能真正保证字词典的质量,才能跟上不断变化的形势。


目前在线编纂、在线修订、在线发布等互联网时代的新模式,作为今后的方向和趋势已基本成为共识。上海世纪出版集团已对5000万字的《汉语大词典》第一版进行了初步订补和电子排版,并反复校对,以保证文本数据的准确性。这一方面作为第二版动态修订的工作底稿,另一方面为后续的数字化词典奠定基础。


当然,新型的字词典要实现最广泛的链接(字词的形、音、义、用等各方面的链接与实时显示),而且力求链接、显示程度与“跳转”(包括词跳转、代码跳转、页面跳转等)都能迅捷而准确。这就要求编纂队伍中有计算机程序设计人员的参与,这无疑也是个新的课题,需认真研究、尝试。


另外,字词典的广泛链接,在线编纂、在线修订、在线发布等互联网时代的新模式,还要解决好自己的版权问题(网络版字词典更容易被盗版,如何防盗版)及链接方的版权问题,同时还要考虑网络版字词典的经济效益问题(网上使用如何收费的问题,此问题我们也做过研究)。所以新时代的字词典编纂、修订、出版不仅需要高素质专家与热心的专业读者的结合,还需要高水平的计算机数字专家、密码专家等加盟。


当前还有人在研发“汉语辞书辅助编纂系统”,汉语辞书辅助编纂系统是一个正在开发的计算机应用软件,用于汉语辞书的编纂,目的是改变以往全部由手工操作的工作方式,提高词典编纂的质量、效率和科学性。据介绍,这个系统的几项功能是:用可扩展标记语言(XMLSchema)支持下的辞书结构模型描述多部语文辞书的文本结构;根据新编词典的需要定制词典的词条结构;有选择地复制词条内容;保留词条编写和修改的记录,并根据需要追溯词条的编写过程;在词典编写过程中积累词汇数据;词条内容的规范表达;编纂系统的数据统计;词典编纂数据的收集。


总之,利用互联网、大数据提供的有利条件进行字词典编纂和修订是今后的一个方向,是一场字词典的重大革命,任何革命都不可能一蹴而就,肯定会遇到各种各样的困难,甚至遭到无数次的失败。故真正实现还需攻克一道又一道的难关,需要一代人甚至几代人的不懈努力。不过我想,目前《汉语大词典》《辞海》《现代汉语词典》等大中型辞书的修订都已经在探索过程中,《汉语大字典》的修订要跟上时代的步伐,也应该着手进行尝试。


注释

[1]〔瑞士〕费迪南·德·索绪尔:《普通语言学教程》,高名凯译,商务印书馆,1980。





01
文史优质公众号推荐

“语言学”专门发布最新的语言研究资讯、社会热点话题的语言学解析等内容;


“简牍学”专门发表简牍学及出土文献相关研究成果、学术信息;


“讲座与学术”发布人文社科讲座信息和学术热点话题。


敬请新老朋友关注“语言学”“简牍学”和“讲座与学术”公众号,以便及时获取最新资讯!

02
推荐阅读

会议议程丨11月4日-5日第八届“汉语语法史青年论坛”


会议议程 | 11月5日第七届全国语言学博士论坛


资讯 | 2023年10月国家社科基金年度项目、青年项目和西部项目结项情况


白军鹏:写本时代“收”“牧”“放”的混同问题及古书校勘


简帛网|简读西北工作坊:《悬泉汉简(叁)》札记(二)


李克强:教育走的太快,请等等落下的灵魂


克强总理二三事

03
温馨提示

推广内容如有侵权请您告知,我们会在第一时间处理或撤销;互联网是一个资源共享的生态圈,我们崇尚分享。其他平台转载请注明(来源:语言学)


转载仅供思考,不代表【语言学】立场。


今日文章就到这~近期,微信公众号信息流改版。每个用户可以设置常读订阅号,这些订阅号将以大卡片的形式展示。因此,如果不想错过“语言学”的文章,你一定要进行以下操作:


第一步:点击顶部蓝字“语言学”进入公众号主页


第二步:点击右上角“...”


第三步:点击“设为星标”




编辑:燕黎宁

审核:马玉倩

来源:“中国语言学研究”公众号


语言之妙 妙不可言

既可意会 也要言传



点个“在看”不失联
继续滑动看下一个

董志翘 | 互联网、大数据时代汉语字词典的编纂与修订

董志翘 语言学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存