文档介绍:第 23 卷心理学探新
总第 87 期 P S Y C H O L O G IC A E X P L O R A T IO N
标准参照测验及其等级线信度的概化理论分析
杨志明
(香港中文大学教育心理学系,香港〕
摘要:在刚童工作中,误用经典测验理论方法估计标准参照性刚验的整体信度和等级线决
策信度的情况非常突出。如,无论测黄设计是交叉的还是嵌套的,也无论测验结果是做常模参照
性解释,还是做标准参照性解释,测脸工作者往往只报告克龙巴赫。系数或经典测脸理论中的其
它少数几个信度指标,而误把整体信度作为等级线信度的现象则更加普连,这是十分不妥的。本
文借用概化理论中的可靠性指数。和(D (劝公式,分别针时交叉设计和嵌套设计,扰标准参照性侧
脸的整体信度和等级分数线决策信度的佑计问题进行了探讨。用数据演示的方法比校了交叉设
计与嵌套设计在估计标准参照性浏脸整体信度方面的差异,展示了等级决策分数线决策信度的估
计方法。
关键词:概化理论;标准参照性测脸;等级线决策信度
中图分类号: 文献标识码:A 文童编号 oo5ft 4(N )n41(1fN15n5
1 引言 2 研究设计
随着考试事业的发展,以“达标定等级”为主要 标准参照性侧脸的选择
特色的各类国家级标准参照性测试(Criterion一ref- 为便于解释,本研究选择普通话水平测试为研
erenceTest)越来越多,但在实际工作中误用经典究对象。这种测试的一个特点是:记分方式为扣分
测验理论(ClassicaTesTheoryCTT)方法估计其的方式。即只计算读错或用错字、词、句的情况。因
整体信度和等级线决策信度的情况却非常突出。此该测验一般只能得到每个考生在测验三个部分上
如,无论测量设计是交叉的还是嵌套的,也无论测验的分数和一个总分数,并要将这个总分归人三级六
结果是做常模参照性解释,还是做标准参照性解释, 等,中的某个类别。这种特点使得 CTT 中那些基
测验工作者往往只报告克龙巴赫a 系数或CTT 中于每道试题都有一个分数的信度估计方法不太适
的其它少数几个信度指标,而误把整体信度作为等用。
级线信度的现象则更加普遍。事实上,CTT 所估计普通话水平测试的另一个特点是:测验分数完
的信度系数以及测量标准误,“主要适用于纸笔方式全依赖于评分者的素质。通常,测验题目对考生的
的常模参照性测验(Norm 一referenceTest),针对影响最大,但普通话测验的内容基本上是固定的三
的是被试测验总分。因为一个测验只有一个总分, 个方面(字、词、句),并有国家级的标准化试卷,因
于是所有接受了同一个测验的被试的总分,不论是此,测验题目所带来的误差会相对较小。我们要关
极端的高分还是极端的低分,或者是中部的分数,全注的主要因素是评分者的素质。
都有一个相同的测量标准误。⋯⋯这也是经典信度
理论的一大局限,·一”「’〕即,CTT 方法仅仅适用于目前,普通话水平测试主要有两种模式其一是
常模参照性测验的信度估计,而且是用样本均值估交叉设计模式(如表 1所示),其二是嵌套设计模式
计总体均值时的整体信度的估计