《语言战略研究》∣周建设：语言智能评测理论研究与技术应用——以英语作文智能评测系统为例

Original 周建设等语言战略研究 2023-03-12

主持人语：自人类有语言、有文字以来，关于语言的话题从来没有如当今这样丰富，“语言生活”全域介入人类活动，从文化到经济，从政治到军事，从现实到虚拟。在科技领域，作为人工智能重要组成部分的语言智能，引领人工智能潮头。近年来，中国语言培训、语言翻译、语言出版、语言文字信息处理、语言艺术、语言康复、语言创意、语言能力测试等语言产业都快速发展，研究成果日益丰富。

本期刊物出版，恰逢“首届中国北京国际语言文化博览会”举办。这次盛会将填补世界华语区语言文化主题博览会的空白。“语言科技与人类福祉”的主题涉及语言政策规划与语言教育、语言智能与产业发展、语言康复与人类健康、工具书与文化传承等方方面面，标志着中国语言会展业的勃然兴起，也昭示了中国语言产业从分散走向聚合、从自发走向自觉。

本期专题的5篇论文，涉及语言智能测评、语言产业发展历程、语言康复、语言培训供给、语言会展。论文材料丰富，颇多创见。作者阵容整齐，既有资深著名专家，也有近年崭露头角的学界新锐。此专题意在呈现关于语言产业研究的最新成果，同时也期待得到学者更多的关注和投入，以推动语言产业研究的发展。

主持人简介：贺宏志，北京市语言文字工作委员会办公室主任，研究方向为语言政策与规划、语言产业、语言文化建设、行业语言服务。著有《语言产业导论》《语言产业引论》等。

语言智能评测理论研究与技术应用——以英语作文智能评测系统为例

周建设张凯罗茵娜仁图雅张跃刘小力

（首都师范大学中国语言智能研究中心北京 100048）

提要 近些年，语言智能评测技术取得了重要突破并得到应用推广，拓展了中国语言产业发展的新领域。本文基于大数据背景，分析语言评测技术发展及相关理论模型，结合2017 年“英语百万同题英语写作”数据，对比分析用户行为、效果提升等情况，印证评测技术的有效性和发展语言智能评测产业的重要性。

关键词 英语作文评测；评测技术；语言智能；语言产业；人工智能

Theoretic Study of Language Intelligence Evaluation and Its Technology Applications:Taking the English Writing Intelligent Evaluation System as an Example

Zhou Jianshe, Zhang Kai, Luo Yin, Naren Tuya, Zhang Yue, and Liu Xiaoli

Abstract In recent years, the technology for language intelligent evaluation has made a significant breakthrough and has thus opened up a new area in the development of China’s language industry. The paper first reviewed the development of language testing technology and related theoretical models in the context of big data. Furthermore, utilizing the English database containing millions of topics, it conducted comparative analysis of user behavior and effect promotion, etc. and verified the validity of the evaluation technology and the significance of developing language intelligent industry.

Key words English Automated Essay Scoring; Automated Essay Testing Techniques; language intelligence; language industry;artificial intelligence

一、引　言

人工智能是引领未来的战略性技术，世界主要发达国家把发展人工智能作为提升国家竞争力、维护国家安全的重大战略，加紧出台规划和政策，围绕核心技术、顶尖人才、标准规范等强化部署，力图在新一轮国际科技竞争中掌握主导权。语言智能“是人工智能皇冠上的明珠，如果语言智能能实现突破，跟它同属认知智能的知识和推理就会得到长足的发展，就能推动整个人工智能体系，有更多的场景可以落地”。语言问题是人工智能研究需集中攻关的一大屏障，语言智能基础理论与关键技术研究的突破对于实施人工智能国家战略具有重大意义。

（一）语言智能发展的必然性

作为专门术语，“语言智能”是语言信息的智能化，是运用计算机信息技术模仿人类的智能、分析和处理人类语言的科学（周建设等 2017）。

人类已经进入智力集成时代，人机交互必将成为常态。语言智能将大幅度代替人类自然语言，实时进行人机交流。这是人类社会科技进步的重大标志，也是人类科技发展的必然结果。

（二）大数据为语言智能评测创造条件

大数据时代给社会带来三大变革：思维变革、商业变革、管理变革。各行业将大数据纳入日常配置已成必然之势。大数据包括结构化、半结构化和非结构化数据，且非结构化数据越来越成为数据的主要部分。

大数据为语言智能化发展创造了前提条件，这是因为大数据具有三个重要特征。一是“基因”的存储性。每个数据都是事物属性的记录。考试成绩存储着知识或技能的“基因”等。二是规律的蕴含性。当数据积累到一定数量级后，其事物变化规律则可以从数据变化中显示出来。长期记录一个人的语言数据，可以按其声音分贝发现其声高与情感表达的关系。三是趋势的预测性。大数据存储的事物“基因”反映事物的变化规律。因此，根据基因变化规律，可以预测事物未来的发展趋势。大数据的特性使语言智能评测得以成为现实（周建设等 2015）。

二、语言智能评测基础理论

人工智能范畴内语言智能术语的提出，跟研究者长期关注人脑语言的运行机制密切相关。这一思想酝酿、术语提出与概念形成大致经历了三个阶段：（1）语言来源认识阶段，探究语言与思维的关系，从思维活动的基本元素入手，认识语言组织单位产生的根源及其在思维活动中的依存地位；（2）语言结构认知阶段，探索汉语词项与言语生成的基本规律，构拟汉语词项生成模型与语句生成模型，揭示汉语表达结构的组织原理；（3）语言智能实现阶段，探讨机器表达汉语的智能模型、全信息评测模型和情感分析四维模型，实现从言语智能生成到文章智能评测的计算机全自动操作。

（一）语言智能评测研究现状

语言智能评测指利用计算机评测文章（作文）。目前的基本思路是通过各种自然语言处理技术，从待评测文章中提取文本特征，让机器对文本特征与分数之间的关系进行学习，通过所得文本特征与分数之间的关系进行自动评分。这种方式采用一个整体回归公式得到最终的评分结果。这样得到的评分结果，往往存在与人工评分结果拟合度不高的问题，要给出详细的批改建议也很不容易。

（二）全信息语言智能评测模型

全信息语言智能评测模型基于文本语义离散度表示和多知识融合方法，构建包含词汇、句法、语义、篇章等多维度的全信息语言评测模型，实现词汇级、句子级、段落级和篇章级等不同粒度的点评、建议和综合评分，解决机器评测与人工评测拟合度不高的难题。

（三）主题聚合度计算理论

智能评测理论所说的主题，主要是从外延意义上界定的。主题就是篇章指称的对象。篇章涉及的对象有具体对象，也有抽象对象。具体对象，可以是个体对象，也可以是个体对象组成的类（集合）。当一篇文章仅仅涉及一个对象时，这个对象就是文章的主题；当文章涉及一类对象时，这个类就构成文章论域（domain），这个论域实际上就是该类中诸多个体的上位概念，这个类、论域或上位概念，就是该篇文章的主题。

三、英语作文智能评测系统发展及规模

自20世纪60年代以来，国外已开发出多个作文自动评分系统，并应用于 GRE、GMAT 等大型考试中（Dikli 2006 ；Quellmalz & Pellegrino 2009 ；Williamson 2009）。国内，梁茂成（2011）和北京语言智能协同研究院分别研制了适合中国英语学习者的作文自动评分系统并取得了良好的效果，其中首都师范大学主导研发的英语作文批改系统得到广泛应用。在翻译领域，一些研究机构也对学生汉译英的自动评分进行了有益尝试（王金铨、文秋芳 2009 ；王金铨 2010）。目前，针对英语作文的自动评分研究已有一定的积累，相关产品也日趋成熟。

（一）同类型评测产品对比分析

历史上第一个作文自动评分系统是1966年研制的PEG（Page 2003）。20世纪90年代以后，IEA、E-rater、IntelliMetric、MY Access 等系统相继出现（Burstein 2003）。本文在江进林（2013）研究的基础上，进一步丰富各类系统的特点形成表1，以对比并反映各类型自动评测系统的相关情况。现有作文自动评分系统在评分步骤、主要技术和变量挖掘方面对机器自动评分研究具有重要启示作用。

（二）英语作文智能评测系统助力语言产业发展

促进语言事业的发展，包括促进语言产业的发展（贺宏志 2012）。广州大学屈哨兵教授提出“语言产业、职业、行业、基业：语言服务四业并论”。2010年，语言智能评测系统批改网上线试用，实现了英语作文在线快速批改。目前，批改网日均批改作文30余万篇，已经积累形成了60亿例句的地道英语大数据、3.42亿篇中国学生作文语料库，并且定期更新美国英语作文、SCI摘要等17种英文类型库，形成了国内最大的英语学习语料库，为中国语言产业拓展了新领域。

作文批改由智能化向教学过程的渗透，也触动了传统教学模式，不少名校竞相与批改网合作，探讨信息化时代教学模式的改革创新。

（三）产业规模及效益分析

目前，英语批改网已服务2000多所高校、4000多所中小学，其中清华大学、北京大学、南京大学等多数985高校已经使用该服务。系统现已服务教师逾15万人、学生逾1700万人，基本覆盖国内英语作文智能评测市场。作文批改主要是公益服务，若以批改作文的普通标准价格20元/篇计算，其惠民经济效益逾68亿元。

四、大数据的产业数据挖掘

2014年开始的“百万同题英文写作”活动，至今累计吸引全国9000多所学校，学段覆盖大学、高职、高中、初中和小学高年级，师生参与量累计超过450万人次，为中国英语教学与研究提供了大量真实语料数据。

（一）用户自主学习行为分析

在2017年“百万同题英文写作”活动中，全国32个省市地区提交了1 408 626篇作文。2017年的同题作文写作，从数据反馈可以看出学生的自主学习行为改善主要表现在以下几个方面：

1. 修改行为

学生共提交作文1 408 626篇，累计修改提交作文11 222 309次，平均每人每篇作文修改7.97次，约75% 的学生都对自己的文章进行了多次修正，超过10%的学生修改作文达20次以上（详见图1），学生整体修改表现良好。

图1和图2反映了各类院校作文修改次数的分布情况。其中，985和211院校学生的自主修改比例最高，80.2%的学生都在写作过程中进行了自主修改；高职学生在未修改及修改20 次以上区间内占比较高，修改次数分布相对分散；而高中学生修改10次以上的占比在各类院校中最小，学生修改次数普遍相对集中。整体上来看，约75%的学生都对自己的作文进行了自主学习及修正。

2.分数变化

从图3我们可以看到学生作文在修改过程中有较为显著的分数提升。通过平均每人7.97次的修改，学生作文分数在整体上由初版作文的74.59分上升到终版作文的79.07分，分数提升了4.48分。在各类院校中，985及211院校学生在修改中分数提升幅度最大，达到4.79分；其他各类院校也完成了有效的自主学习，分数有所提升。

3. 错误修正

图4显示各类院校学生作文语法错误修正率情况（不计书写错误）。学生累计修改错误超过40%，各类院校作文错误均有20%至60%的修正，其中985和211院校修正率最高，达到52.76%。

4. 修改过程

这里从五个类型的学校各抽取10 000篇作文为样本，对作文的第一版、第二版、中间版本、倒数第二版以及最终版进行分析。通过版本间的数据变化，从中可以看出学生自主修改过程中的一些特点。

从表2可知，学生的修正大多集中在前半段修改过程中，特别是拼写类错误，前半段的修正率均高出后半段15%以上。部分院校对成分缺失、词性误用、搭配错误的修正更多集中于修改过程的后半部分，大概与这几类错误修改难度相对较大有关系。985和211院校以及高中学生对于错误的修正较明显集中于前半段，语法自我修正的进度较快，高职院校及初中对部分高频错误的修正相对集中于后半段，语法自我修正的进度相对慢一些。综上所述，可以得知，学生自学过程的前半段修改更为高效。学生修改过程前期主要进行基础语法错误修正；修改过程后期，学生会对修改难度相对较大的句子结构类错误给予更多关注和修正；对词汇与句型的调整会在整个自学过程中循序渐进地进行。

（二）语言写作技能提升分析

自主修改过程中分数出现一定提升的作文可称有效修改作文。对有效修改作文进行分析，有助于了解学生在英语人机互动写作中有效修改行为的特点。这里选取的数据样本为各类院校随机抽取的10 000篇作文中提升分数达到5分以上的作文。

完成一篇作文需要30分钟，修改一篇作文需要20分钟，参与活动的学生，平均一篇作文花了近3个小时，作文分数提升了约4.5分。

图5和表3表明，各类院校学生有效修改作文的修改次数基本在20次以上，分数提升基本在10分左右，修改行为较为频繁且效果显著。相较于整体作文的普遍修改情况，有效修改作文的初版作文分数普遍较低。这说明，基础较差的学生也能够通过人机互动在自主学习过程中实现自我提升。从修改效果上看，中学生及高职学生有效修改效果与整体修改效果的差异较大，说明该学段的学生通过人机互动学习，自我提升的空间更大。

五、未来发展趋势及影响

（一）语言智能评测产业的未来发展趋势

语言智能评测是教育产业对人工智能技术的必然要求。该评测领域未来发展将呈现如下趋势：

1. 应用普及化

2. 人机拟合同质化

3. 语种多样化

4. 产业国际化

（二）语言智能评测系统对教育领域的重要影响

语言智能评测系统以其评测拟合度高、反馈速度快且教育成本低等优势在母语学习和二语学习过程中对语言技能训练和语言能力提升起到重要作用，因而必然有广阔的应用前景。

参考文献

略

作者简介

周建设

首都师范大学教授、中国语言智能研究中心主任，研究方向为语言学、语言智能。著有《中国逻辑语义论》《西方逻辑语义研究》《语义、逻辑与语言哲学》《语言学名词（语法卷）》等.

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

《语言战略研究》∣周建设：语言智能评测理论研究与技术应用——以英语作文智能评测系统为例

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

《语言战略研究》∣周建设：语言智能评测理论研究与技术应用——以英语作文智能评测系统为例

您可能也对以下帖子感兴趣