返回主站|会员中心|保存桌面|手机浏览

《广西教育》杂志

杂志等级
    期刊级别:省级期刊 收录期刊:万方收录(中) 上海图书馆馆藏 国家图书馆馆藏 知网收录(中) 维普收录(中)
本刊往期
站内搜索
 
友情链接
  • 暂无链接
首页 > 杂志论文 > 关于“考试”,我们了解多少?——教育测量理论和它的应用实践(五)
杂志文章正文
关于“考试”,我们了解多少?——教育测量理论和它的应用实践(五)
发布时间:2024-07-01        浏览次数:33        返回列表

柳州市教育科学研究所 廖先祥 莫海浪

关于考试,我们已经讨论了8个问题,这8个问题都是关于试题、试卷的,由此我们明白了我们为什么而考,怎样才能确保考试是有效的、可信的,不同性质的考试应该选用什么样的试题和试卷等等。考试结束以后,接下来就是要知道“这次考试的表现水平”即成绩如何了。比如,2013年某考生的高考成绩如下表:

这是我区近年考生考试成绩的常见呈现方式,即把各科原始分数相加后得出一个总分(不合照顾分),以此作为考生的表现水平。在此,我们想弄清楚的是这种处理方式有什么好处?还有什么不同的处理方式?它们各自的特点与优缺点分别是什么?

问题9:对考试成绩,怎样处理更科学?

我们已经知道,考试是为考试目的服务的。比如,对于常模参照的高考,我们必须考虑如下几个问题:总分是不是反映了学生的能力水平并有利于高校录取?哪科成绩比较好?不同学科成绩差异大吗?毫无疑问,单科原始分(即卷面分数)和原始总分(各科原始分累加)的呈现方式是最为直观易懂的方式,是上至教育行政管理部门,下至老师、家长、学生都比较认可的“最为公平”的方式。这也是包括广西在内的多数省份用原始分作为高考成绩呈现方式的主要原因,甚至有些省在已经实行了标准分之后又回到了原始分状态。可是,大家都容易接受的就是最好的吗?

应该说,在命题和考务管理都标准化的前提下,单科原始分基本上能够较好地反映出考生的单科水平,单科成绩以原始分呈现是没有太大问题的,但是把单科分数累加成总分却会出现偏差。因为不同学科考查考生能力的维度不同,各科试题的难度也不尽相同,其分数自然不是在“同一把尺子”上。简单地说,语文卷的1分与数学卷的1分就有可能是不等值的;如果直接把各科原始分累加,极端情况会出现对学生能力水平评价的偏差超出可以容忍的范围。举一个大家都知道的极端例子,就是我们中考的体育考试,考生需要考三个项目(以跑、跳、投居多),谁都不会把某考生投掷实心球的成绩11米和立定跳远的成绩2.5米直接相加,更不会认为“11米”比“2.5米”能力水平更高,这两项的“l米”完全不等值,那么应该如何做才好呢?我们的建议,将各项的成绩转换成相应的分数再计入总分。

在原始分制度下,对分数的解释让人颇伤脑筋,单个原始分无法揭示考生成绩在考生团体成绩中的位置(你一定没忘记前面我们说过这是常模参照考试的目的)。在前面的一个高考考生成绩表的例子中,语文和数学的原始分都是85分,该生哪科的成绩更好些?哪科成绩在考生群体中的位置更靠前?如果你知道2013年该考生所在省高考语文平均分为85分,数学(文)平均分为57.9分,你就明白该生的数学成绩比语文成绩要强多了,但即便如此,你还是不清楚这个数学成绩比语文成绩好到什么程度,该考生在群体中排在第几,等等。原始分制还有其他一些缺陷,比如考试中各科规定有相应的权重,各科权重是在考试科目设置时以满分值形式确定的,以各科赋分在总分中的比例为依据,但受各科试题难度不同的影响,所占比例很难实现,无法体现考试的意图。前面说的某生语文、数学高考成绩均为85分就是一个典型的例子。不仅如此,高考总分通常是750分,若考生有20多万,如果按照原始总分划线录取,会出现非常多的考生重分,这也将给高校的录取增加不必要的麻烦。

对于上面的这些问题,其实测量学家们一直在关注和研究,并提供了一些解决的办法,主要思路是把各科的原始分转换成“同一把尺子”上的数值,其基本原理是“在原始分数转换的基础上,按照一定的规则,经过统计处理后获得的具有一定参考点和单位,且可以相互比较的分数量表或符号系统”,最常用的一种方式就是把原始分转换成标准分。当然,不论哪种转换方式,都需要一定的测量理论知识和数学基础。比如,标数,其他符号含义同上。由于Z分数常常带有小数和出现负值,使用起来不方便,与日常生活中人们的评分习惯不一致,又不直观,于是产生了多种将Z分数进行线性变换,使负号与小数消失的转换方法,而在高考中经常采用T=1002+500的计算公式,T分数就是可以向考生呈现的高考成绩标准分。某生的标准分为500,表示其成绩处于平均水平。显然,这个转换过程有点麻烦,不过它不需要我们操心,因为这个转换完全可以交给计算机去完成。

标准分制度经过多年理论和实践的探讨,已经证明是成熟、可靠的,最关键的是各科分数转换成标准分之后,变成了“同一把尺子”上的分数,各科的“1分”差距是相同的,可以进行学科之间的比较,还可以将各科标准分与相应科目的权重相乘后求和,得到标准分总和,再用上面的方法求出总分的标准分。标准分的大小,既表明考生水平的高低,也表明该生在考生团体中位置的高低。一般来说,在标准分制度下,成绩单里除了给出标准分外,还应给出对应的百分等级,或者标准分与百分等级对应表,这样考生就能很清楚地看出自己的成绩排名了。

那么,什么是百分等级呢?

百分等级是一种相对位置的百分比,粗略地说,将全体考生单科原始分进行排名,每名考生都有一个对应的位置,算出每个原始分以下的考生人数占团体考生总数的百分比,即单科百分等级;对标准分总和进行同样处理,也可以得到总分百分等级。这里我们就不为它的转换公式抓狂了,让计算机去算就好了(如你有兴趣可以去查阅相关的资料),我们只管弄懂它有什么用,怎么用它就行。我们还是用某生的高考成绩(标准分)报告单来说明吧(如下表)。

可以看出,该生各科成绩都高于平均水平约一个标准差,其中英语在各科中是最好的,排在92.2%的考生前面,其综合分排在91.1%的考生之前,他可据综合分的百分等级对照录取率较准确地估计自己是否上各批最低录取控制分数线,预测能录取到哪类学校。另外,由于标准分是在“同一把尺子”上的量值,对于一所学校、一个团体同一学科不同年份或同年份不同学科的成绩比较、评价具备了可能,这对进行教育教学质量的评价是非常有参考价值的。

既然标准分有这么多优势,为什么采用标准分呈现高考成绩的省份越来越少呢?首先,标准分有一个顽固的壁垒:它的转换复杂到连很多老师都搞不清楚,对一般大众来说就更难理解了。原始分在人们头脑中如此根深蒂固,以至于免不了有人会问:“标准分满分是多少?及格又是多少分?”在利害攸关的高考、中考中,家长和考生最担心如下问题:“你会不会把我的原始分转换错了?”甚至有人想要从标准分倒推回去,算算自己的原始分是多少。其次,标准分也有一个硬伤:它是基于原始分呈正态分布的前提下,才能充分体现它的优越性和内涵,但在高考、中考中,考生分数的分布基本都跟正态分布存在一定偏差。

美国的托福、SAT和英联邦的雅思考试的成绩都使用标准分呈现,这从一个侧面说明了标准分的科学性。理论上讲,先进的标准分制度在高考中遭遇尴尬是值得思考的,也是令人遗憾的。在这里我们无意于原始分与标准分优劣之争,只想表明我们的想法:就技术层面而言,对于更科学的成绩处理方式,应该是想方设法创造条件推广它,用好它,并设法取得人们的理解,不宜降低技术要求去迎合大众的感受,这显然不利于提高民众的科学水平和科学态度。此外,包括标准分和百分等级在内的各种转换方式都脱胎于原始分,因此很难有新的突破,要想更好地解决这一讲里遇到的问题,我们得离开经典测量理论的框架,进入另一个更为先进的测量理论空间——项目反应理论,希望我们有机会从应用的角度讨论这个问题。

问题10:我们应该怎样进行考试质量分析?分析哪些内容?

在前面我们已经讨论了什么样的试卷才算是一份好试卷,为什么要讨论这个问题呢?你已经清楚,这是因为如果没有一份好试卷,就不可能完成我们设定的考试目的和任务,如学业水平考试或是选拔考试。不同的考试目的需要不同的考试试卷,好的考试试卷需要满足一定的要求,这就如同我们要测量物体的重量时需要一把符合标准要求的秤,测量物体的高度时需要的是一把符合标准要求的尺子。所以,这里有两个问题是必须要把握好的,一个就是重量不能用尺子去测量,而高度也不能用秤去测量。另外一个,不管是测量重量还是高度,凡是不符合标准的测量工具测量出来的数据都没有意义。理解了这一点,我想,考试质量分析首先要分析的是什么就很清楚了:整体看,试卷是否与考试性质相符?局部看,试题是否符合测试要求?

我们说得稍微具体一点,就是先对考试结果进行信度、效度分析,确定考试是可靠而有效的,然后再分析全卷的实际难度、“区分度”分布与命题预计是否相符。图1、图2分别显示了2013年柳州市中考物理学科试卷的最初预设与实际难度的分布情况:

整卷的预计难度为0.633,实际难度为0.627。可以看出,实际难度整体上与预设吻合得比较好,难度区间的变动主要在0.6-0.7之间,这区间的部分试题较均匀地往两侧分布,在保证整卷难度的前提下,适当增加了对高水平学生的区分度,符合并体现了中考“两试合一”的考试性质。

接下来,我们来看看在上述考试中,各题已合并计分点的预计难度与实际难度的折线图,如图3。

显而易见,试题的命题与预设符合得相当好(别忘了预设都是以考试要求为基准的)。我们可以再检验一下试题的区分度,在这里,为满足部分教育行政管理人员的阅读习惯,我们用图4对高、低分组(各占总人数的27%)在同一计分点的通过率进行比较。需要说明的是,此图中所示的计分点是未经合并的,这与图3的计分点有所不同。

图4描述了各计分点对高、低分组的区分情况,高、低分组两点之间的间隔越大,说明此题的区分度越高。同样,试题的区分度是否符合中考要求也就一目了然了。

在确定了试卷本身的质量能够满足测试需求之后,我们后续的分析才是合理的、令人信服的。而通常老师们在做质量分析时都会关注如下一些内容:试卷的难度、试卷的区分度、平均分及排名、优秀率及排名、及格率及排名、低分率及排名、学生典型错解分析、今后的教学建议等内容。不管是什么性质的考试,特别是对学生进行的考试,考试结束后我们都会进行这样的“质量分析”,并希望通过这样的“质量分析”,来告诉参加考试的学生“你有箩聪明”,同时告诉老师“你所教的班级学生成绩是多少,在今后的教学中你应该注意些什么问题”等等。可是,我们告诉他们的是实情吗?我们对这些分数的解释是准确、完整、合理的吗?我们还是说说老师们不太熟悉或者容易出现理解偏差的内容吧。

其一,关于考生的成绩分析。一般来说,教育管理人员和老师们都非常关心“一分三率”,即考生群体的平均分、高分率、合格率、低分率,而且习惯把80分、60分、40分作为划分高分、及格、低分的分界线,而不去考虑试卷的难度,更少有人去想为什么要把60分以上算为合格。我们还是应该回到考试的性质上来:如果考试性质需要将考生区分为几个水平,那么暂时抛开考生的原始分数,根据考试的要求划出优秀、良好、合格等水平应该对应的分数线,然后再分析学生群体不同水平的比例。这些一来,这个分数线便无关乎学生的实际表现了,因为不同的考试会有不同的分数界线,60分不一定就是合格线。至于如何确定合格标准,测量学家们也想出了一些很好的方法,因篇幅有限我们不在这里介绍。与此相同,优秀、良好等分数线的划定是同一个概念。由此看来,如果根据学生成绩或者分数分布情况去确定优秀、良好、合格分数线,那就是本末倒置了。

其二,考试质量分析应该对各群体之间的成绩差异进行分析、比较,群体的类别依据需要来确定,如城乡之间、区域之间、校际之间、班级之间、男女生之间等,为的是对教育行政决策和教师改进教学提供依据和参考。关于成绩差异比较的呈现方式有很多种,有纯数值的,有表格式的,有图线式的。不论哪一种,我们认为,都是以能直观展示差异比例的方式为好。图5是柳州市柳南区某次初三年级考试语文成绩的校间差异与校内差异图(部分)。出于慎重,我们隐去了纵轴中对应的学校名称。横轴中的坐标值是对原始成绩的差异进行转换以后的数值,横条长度表示各学校对应的成绩整体差异,如最上方代表的学校整体差异不大,但校间差异很大。差异分析值需要一定的测量理论知识,这里我们不深入讨论,这个差异图在Excel电子表格里就可以作,你用另一种形式的差异值也能够把它画出来。

其三,考生典型错解分析。考试质量分析报告往往对考生的答题情况有详细的分类,各种错解一应俱全,却对考生的错解原因分析很是空泛,如“学生对基础知识掌握不牢,基本技能欠缺,综合理解、运用能力较差”等等。很明显,这样的分析是缺少必要的深度与启发性的,一个典型的解答背后必定是学生知识、方法、能力等方面的综合体现,同时对应着老师对知识、方法、能力等方面教学的理解和对学生的指导,也是我们对教学改进建议的依据,这一项分析应该避免头重脚轻或隔靴搔痒,应是直击要害的。

考试质量分析是一个比较大的话题,限于篇幅我们暂时打住,但你一定明白了测试工具的可靠、有效是后续所有分析的前提。需要说明的是,这次讨论中我们对测试工具本身的质量分析线条稍稍粗了点,如果能将每一个计分点设计的能力期望值与学生实际表现能力值进行比较,会更为精细,很希望有机会在项目反应理论的框架下与你继续讨论这一内容。

关于“考试”的理论和应用的讲解,我们将告一段落。因此,对于影响考试结果的主要因素有哪些,如何改进我们的“考试”使它更为公平、科学,如何更科学地解释考试的结果,等等,我们将不再在此讨论。非常感谢读者一直的关注和支持!感谢编辑给予我们讨论与交流的平台和机会!

(责编 白聪敏)