查看原文
其他

徐路明:基于简易式百分等级成长模型的学业增值评价

徐路明 中国考试 2022-04-25

原文刊载于《中国考试》2021年第3期第9—14页。


作者

徐路明,浙江省温州市瓯海区教育研究院评价员。


摘要

  教育评价是教育教学的关键环节,其中的增值评价以学生的起点定终点,关注学生的成长变化,是教育评价中的重点与难点。归纳总结国内现有学业增值评价方法,分析基于分数纵向比较的方法、基于位次纵向比较的方法、基于最小二乘回归的增值模型和基于分位数回归的增值模型的应用现状及存在的不足。在此基础上,提出简易式百分等级成长模型,阐述该模型的原理与操作步骤,并通过某地区6年级毕业生的成绩追踪,初步验证该模型的效用,以期为增值评价的探索应用提供参考。


关键词

教育评价改革;增值评价;百分等级成长模型;增值模型


正文

  教育评价是教育教学的关键环节,具有导向、鉴定、诊断等功能。评价的鉴定功能在教育教学中应用较多,诊断功能却常常被忽视。实际操作中不乏把排名等同于评价的现象,过分强调结果,淡化成长过程,忽视学生基础起点。中央全面深化改革委员会于2020年6月30日审议通过《深化新时代教育评价改革总体方案》,指出教育评价事关教育发展方向,要针对不同主体和不同学段、不同类型教育特点,改进结果评价,强化过程评价,探索增值评价,健全综合评价,着力破除唯分数、唯升学、唯文凭、唯论文、唯帽子的顽瘴痼疾,建立科学的、符合时代要求的教育评价制度和机制[1]
  增值评价以起点定终点,考虑学生基础水平对学生学业成绩的影响,以发展的眼光看待学生学业表现,对学生成长是一种激励,也有利于进一步的诊断和精准教学,挖掘高增长水平学生的学习方式方法,从而不断完善教育教学。现有的增值评价方法有许多,但科学有效且适合一线实际应用的少之又少,需要探索适合基层教育评价部门、学校使用的增值评价方法。本文在总结现有增值评价方法的基础上,提出简易式百分等级成长模型,以期能够为增值评价的应用提供参考。


1

国内学业增值评价方法的应用现状及存在的问题


1.1 基于分数纵向比较的方法
  基于分数的纵向比较包括原始分数和标准分数的比较,这类方法通过2次测试分数的差值得到增值结果。基于原始分数的比较在实际应用中比较常见,尤其在一些欠发达地区,不过使用者已经认识到这种比较存在测试难度不同的问题。相对来说,标准分数的比较则考虑到不同测试的难度值、参与群体的不同等问题。然而,在实际应用中,虽然教育评价部门、第三方评价机构均会呈现标准分数,但是多数学校和教师较少使用。这与中考、高考等高利害性考试仅使用原始分数,以及学生、家长不了解标准分数有关,也与教师本身对标准分数不了解有关。
  原始分数的增值评价简单,但缺乏科学性。标准分数的增值评价相对科学,但不够完善,实际测试中前后2次测试分布通常不同,相同标准分数的含义会存在差异,基于标准分数相减的增值也存在偏差。如某学生2次测试同为2分,虽然2次测试距离均值的单位相同,但是2次测试超越的人数比率是不同的,那么2次测试的标准分数含义就是不同的。最为关键的是无论是基于原始分数还是标准分数的比较均未解决不同水平学生增值空间不一致的问题。


1.2 基于位次纵向比较的方法
  基于位次纵向比较的方法包括对排名、百分等级等的比较。评价者通过2次测试排名、百分等级之差对学生、学校作出评价。受历史文化影响,我国对名次历来较为看重,古有科举三甲,今有高考状元。排名是一种强绩效管理的评价思路,评价结果简洁、明了,但不可否认这种方式对学生成长、学校发展存在一定的消极影响,尤其是弱势学生、学校,每一次测试、排名对于弱势群体来说都是一次积极性、自信心的打击。基于排名、百分等级的纵向比较解决了这个问题,它把评价视角转向过程而不是结果。基于位次纵向比较的方法在学校、基层评价部门使用较多,该方法更加突出不同水平学校的增值空间不同这一现象,高水平学校的名次增长相对分数增长来说更为困难。


1.3 基于最小二乘线性回归的增值模型
  基于最小二乘线性回归的增值模型有一元线性回归、多元线性回归、多水平线性回归等。模型的基本计算方法是:在2年的成绩之间建立线性回归方程,纳入学生家庭社会经济地位、学校规模等背景信息,根据第一年的成绩预测第二年成绩,计算该学生预期成绩与实际成绩之间的差值。如果实际成绩高于预期成绩,该生就取得了比较满意的增值;相反,则增值的情况不理想[2]。此种方法把学校效能从众多的影响因素中分解出来,计算学校层面的净增长。一些国家、地区采用此种方法对学生、学校效能进行评价,如美国的田纳西增值评估系统,我国香港、天津等地区也构建了用以评估学校效能的增值系统[3-4];但是这种方法需要通过问卷调查等方式收集学生、学校背景信息,较为烦琐,且统计原理晦涩难懂、操作复杂,不易在学校或者县(区)级基层教育评价部门施行。此外,该方法没能解决不同水平评价对象成长空间不一致的问题,高分学生增值困难现象突出。


1.4 基于分位数回归的增值模型
  学生成长百分等级模型(student growth percentiles, SGP)通过在以往学业水平一致的考生群体(同类学生)中进行比较来确认每个学生的进步情况,该模型由Betebenner于2009年提出,并在美国得到较为广泛的应用[5-6]。该模型通过建立不同百分等级学生分位数回归方程的方式,克服了传统线性回归不同水平学生成长空间不同的问题,有效解决了评价的天花板效应(高水平学生成长空间小)与地板效应(低水平学生退步空间小);但是该模型需要进行分位数回归计算,大大限制了其使用范围,因为有回归就会伴随着统计误差,所以该模型的精度也较少被描述和证实[7]

  增值评价将评价视角从结果质量转向过程质量,关注学校、学生的成长过程,挖掘成长潜力,激发成长动力。现有增值评价方式各有特点,基于分数纵向比较的方式简单、直观,基于相对位次纵向比较的方式便于管理,基于最小二乘回归的增值评价将学校效能从众多因素中分离出来。然而上述方法均未解决不同水平学生增值空间不同、无法直接比较的问题。增值模型应该对所有水平的学生都是公平的,能够科学地衡量优等生、中等生及后进生的进步水平。基于分位数回归的增值评价考虑了不同水平学生增值空间不一致的问题,但是较为复杂;基于此,笔者提出简易式百分等级成长模型。


2

简易式百分等级成长模型基本原理与统计操作

  在Betebenner提出的学生成长百分等级模型基础上,简易式百分等级成长模型取其精华,摒弃复杂的分位数回归方法,代之以百分等级计算,对教育行政管理者来说容易理解与接受,便于一线的教育评价工作者及教师使用。


2.1 基本原理
  简易式百分等级成长模型以学生的起点定终点,通过学生在同类群体中的进步情况对学生进行评价。若学生进步超过大多数同类学生,则学生进步较大,反之学生进步较小。
  举个例子,某年级中有A、B2名学生:学生A在第一次测试中得到600分(满分650分),处于年级段第4名,在第二次测试中得到605分,处于年级段第3名;学生B在第一次测试中得到320分,处于年级段第350名,在第二次测试中得到350分,处于年级段第320名。就分数、位次的进步情况而言,学生B增加了30分,进步了30名,学生A增加了5分,进步了1名。从量上来看,似乎学生B进步更大,但是这对于学生A来说不公平,因为他的进步空间明显比学生B少得多,这也是传统相对位次、分数评价的不足。
  采用简易式百分等级成长模型能有效地解决这个困扰。简易式百分等级成长模型计算示意图见图1。第一次测试后,将所有学生成绩从高到低排序后计算学生百分等级分数,学生A的百分等级为100;在同为100百分等级的这个群体中(群体X),学生A在第二次测试的百分等级为60,说明学生A在同一起跑线的群体中,进步程度超过了群体X中60%的学生。学生B在第一次测试的百分等级为5,所属群体为Y;第二次测试的百分等级为55,超过群体Y中55%的学生。因此,虽然2位学生都在进步,但学生A的进步程度更大。


2.2 统计操作
  简易式百分等级成长模型统计操作有2个主要步骤:第一步,对学生的第一次测试成绩排序,计算每个学生的百分等级PR=100-(100R-50)/N(式中R为某分数在按大小排列的数列中的名次,N是分数的总次数),并将百分等级四舍五入取整,最终得到的学生百分等级在0~100;第二步,将学生群体分为101个子群体,分别计算各自群体内学生的百分等级,得到第二次百分等级结果,称之为进步程度。学校水平的成长变化取该校学生成长百分等级的中位数,以避免极端值的影响。
  成长水平的判断采用美国科罗拉多州的分类标准,以35分和65分为成长水平的评价标准,成长百分等级在65分以上为成长水平较高,成长百分等级在35分以下为成长水平较低,成长百分等级在35~65分为成长水平一般[8]


3

简易式百分等级成长模型的初步应用分析


3.1 数据来源与变量选取
  选取温州市某区2019届6年级毕业生为样本,这些学生参加了毕业考试,2年前参加了4年级学业质量监测。全区共有62所小学,将学生6年级第二学期成绩和4年级第一学期成绩关联匹配后,剔除缺失4年级成绩的学生。为保证学校层面分析的有效性,选取学生匹配率(每个学校6年级参与增值评价人数除以学校6年级总人数)在60%以上的学校,共有58所学校6021个样本纳入。
  4年级测试学科为语文、科学2门,6年级测试学科为语文、数学、英语、科学4门。各学科测试均按照课程标准的要求由市、区学科专家命制,测试工具有良好的信效度。


3.2 模型对比分析
  用2种方式计算学校成长变化:一是用简易式百分等级成长模型,二是用学校2次测试标准分(平均分为80分,标准差为10分)的变化。图2和表1列出部分学校的计算结果,可以看到简易式百分等级的计算结果与标准分变化的整体变化趋势是一致的,成长百分等级越高,标准分增加越多。成长水平高的,标准分的变化为正,成长水平低的,标准分的变化为负,成长水平一般的,标准分的变化正负均存在。

  从此次收集的数据来看,简易式百分等级成长模型在一定程度上克服了传统方法的弊端,即天花板效应。初测成绩较高的学校即使标准分数增加的不多,其成长水平也与初测成绩较低但增加分数较多的学校差不多,如校39的初测成绩为83.11分,后测成绩为84分,增长分值为0.89分,校47的初测成绩为69.89分,后测成绩为74.79分,校39与校47的成长百分等级均为67。


4

简易式百分等级成长模型的优势与不足


  简易式百分等级成长模型是对增值评价的积极探索,也是对结果评价的有效补充。它既有纵向评价的痕迹,学生的成长水平判断是基于自身前测结果,也有学生间的横向比较,学生进步程度的判定是在与同一水平学生的对比中产生的。
  简易式百分等级成长模型的优势体现在以下4个方面:第一,增值分数可解释。现有的评价方式,如原始分数、标准分数的比较存在分数含义模糊、难以解释的问题。1名学生2次测试结果相比进步了3分,这3分的含义是什么?而简易式百分等级成长模型的评价结果——百分等级,这个分数的含义是清晰的,1名学生2次测试后,经过模型计算百分等级为60,表明学生在同类群体的进步程度超过了60%的同伴。此外,这类基于分数纵向比较的方式还涉及分数的垂直等值问题。第二,增值分数可比较。现有增值评价方式,如相对位次的比较,会遇到不同水平学生的成长空间不一致的问题,从第2名进步到第1名明显要比从第100名进步到第95名难,然而从进步名次的量来看,一个进步了5名,而另一名学生仅仅进步了1名。简易式百分等级成长模型克服了该问题,每个学生的进步程度只会与同一水平的学生比较,而且不同水平学生的成长量纲是相同的,都是从0~100。第三,原理容易理解,操作简便。基于多水平最小二乘回归的增值评价模型和基于分位数回归的百分等级成长模型涉及复杂的统计数理原理,在操作上也不适用于一线评价工作者和教师,同时用回归模拟学生成长轨迹存在一定偏差。简易式百分等级成长模型原理简单,容易被理解、接受,操作上较为简便,笔者编制了简易式百分等级成长模型R语言代码,只需读入数据,就可得到相应的学生成长百分等级。各地区、学校也可利用互联网+教育的优势,加强增值评价平台开发,简化一线评价人员操作,提高增值评价模型的利用率。第四,可以同时对学生、学校的进步情况进行评价。简易式百分等级成长模型计算出每个个体的进步程度之后,可以拟合出学校的进步指数。
  简易式百分等级成长模型也存在一些不足之处:既有增值评价的共性问题,如不同测试之间评价内容不同质;也存在成长百分等级模型的共性问题,如只描述成长过程,无法分析影响成长的因素。就个性问题而言,简易式百分等级成长模型会存在微小的误差,用该方法对同类学生归类时,百分等级在99.1~99.4的学生都会被归为99百分等级,但这是在平衡模型简便性与模型精度后的妥协,也是可以接受的。


5

结束语


  综上所述,简易式百分等级成长模型是值得应用探索的增值评价方式。教育是一个复杂的生态系统,仅用一种评价方法对教育教学现象作出价值判断显然有失偏颇。在教育教学过程中需要综合、科学地运用增值评价、结果评价、过程评价、综合评价,从而优化教育管理,更为客观地记录、评价学生学业表现、评价学校效能。



参考文献

更多相关文章

▷关丹丹, 韩宁, 章建石. 立足“四个评价”、服务“五类主体” 进一步深化高考评价改革[J]. 中国考试, 2021(3): 1-8.

▷ 袁建林, 刘红云. 过程性测量: 教育测量的新范式[J]. 中国考试, 2020(12): 1-9.

▷ 秦春华, 姜佳玥.深化考试招生制度改革 推进新时代教育评价改革[J]. 中国考试, 2020(12): 10-14.

▷ 周洪宇. 深化教育评价改革 加快推进教育现代化——《深化新时代教育评价改革总体方案》解读[J]. 中国考试, 2020(11): 1-8.

▷ 张会杰. “四个评价”落实中的主要矛盾及化解思路[J]. 中国考试, 2020(11): 9-16.

▷ 刘海峰, 李木洲. 构建“四位一体”功能互补的教育评价新体系[J]. 中国考试, 2020(9): 1-4.

▷ 何莲珍. 以语言评价专业化建设推动教育评价改革[J]. 中国考试, 2020(9): 5-9.

▷ 雷新勇. 关于教育评价改革的若干思考[J]. 中国考试, 2020(9): 10-14.

▷ 朱立明, 宋乃庆, 罗琳, 等. 新时代教育评价改革的思考[J]. 中国考试, 2020(9): 15-19.

▷ 张会杰, 赵唯杜. 为了更好地学习:增进教育测评有效性的基本原则[J]. 中国考试, 2020(9): 20-26.

▷ 刘建达, 李雪莲. 英语课程的教学评价改革[J]. 中国考试, 2020(9): 27-31.

▷ 周光礼, 袁晓萍. 聚焦“四个评价” 深化教育评价机制改革[J]. 中国考试, 2020(8): 1-5.

▷ 张楠, 宋乃庆, 申仁洪. 新时代教育评价改革的价值意蕴与实践路径[J]. 中国考试, 2020(8): 6-10.

▷ 张志勇, 杨玉春. 综合评价是考试招生制度改革的根本方向[J]. 中国考试, 2020(8): 11-15.

▷ 刘学智, 田雪. 新时代基础教育评价改革的路向转变[J]. 中国考试, 2020(8): 16-19.

▷ 许海霞, 王蕊, 马陆亭. 教育评价改革的几个关键问题[J]. 中国考试, 2020(8): 20-23.




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存