编辑: NaluLee 2019-07-30
收稿日期: 2017- 08-

16 基金项目: 国家自然科学基金(31500909, 31360237, 31300876), 教育部人文社会科学研究青年基金(BYJC880060)和江西 省教育厅科学技术

2017 年一般项目(GJJ170212)资助项目.

作者简介: 李佳(1979- ), 女, 江西南昌人, 副教授, 主要从事计算机辅助教学和心理测量方面的研究. E- mail:1276676143@ qq. com 文章编号: 1000- 5862( 2018) 04- 0374-

05 基于 GRM 模型的 CAT 分层方法 在校准误差中的应用研究 李佳, 丁树良 (江西师范大学计算机信息工程学院, 江西 南昌 330022) 摘要: 在计算机化自适应测验(CAT)中, 0-

1 评分模型下 b 组块 a 分层的方法(BASTR)可以提高测量准确 性的同时平衡项目的曝光率, 但在多级评分模型中项目难度 /步骤参数有多个, 无法直接使用该方法;

又 因为信息函数可以较好地综合被试能力和项目参数, 但最大信息量选题策略的测验安全性太低. 因此, 将 多级评分模型中的多个参数综合成一个指标作为 b 分块的依据, 模仿 BASTR 方法, 提出

5 种新的 B 分块 a 分层方法, 并且采用 影子题库 下最大信息量的选题方法. 在等级反应模型(GRM)下蒙特卡洛实验结 果表明, 新方法在测验精度、 题库利用率和机会红利等评价指标中总体表现良好, B_max - min 分块方法 表现最优. 关键词: 计算机化自适应测验;

GRM 模型;

B 分块 a 分层方法;

机会红利;

影子题库 中图分类号: B 841.

7 文献标志码: A DOI:10.

16357 /j. cnki. issn1000- 5862. 2018. 04.

09 0 问题的提出 被人们誉为 测验领域的新天地 [1 ] 的计算机 化自适应测验( computerized adaptive testing, CAT) 具有测验精度高、 长度短、 成本低、 实时反馈考试成 绩等优点, 被广泛应用于美国医生护士资格考试、 美 国研究生入学考试和中国汉语水平考试当中 [1 ] . 根据CAT 采用的测量模型, 可分为基于项目反应理论 (item response theory, IRT) 的单维 CAT( unidimen- sional CAT, UCAT), 基于多维项目反应理论(multi- dimensional item response theory, MIRT) 的多维 CAT (multidimensional CAT, MCAT) 以及基于认知诊断 理论的认知诊断 CAT(cognitive diagnostic CAT, CD- CAT). 在UCAT 中根据评分模型的不同又可分为 0- 1的2级评分 CAT 和多级评分 CAT. 虽然 0-

1 评分 在国外大受推崇, 但是它处理不了诸如计算题、 论述 题、 作文题等多值评分的项目. 为了实际测量的需 要, 为了符合我国考试现状, 提高考试质量, 研究多 级评分模型下的 CAT 是很有必要的. 选题策略决定了被试作答的测验项目, 关系到 测验结果的准确性、 测验的安全性和测验的可信度, 是CAT 的重要环节之一. 常见的多级评分选题策略 主要有

2 种:(i) 能力与项目难度/步骤参数的某个 综合指标相适应的选题策略 [2-

4 ] , 这类方法为了与 单维的被试能力值相匹配, 将参数向量进行降维, 但 这样做可能会浪费一些有效信息;

(ii) 将选题过程 的多个重要部分如信息函数、 项目参数以及被试当 前能力 值综合在一起, 得到一个综合指标进行选题 [5-

7 ] . 由于项目难度和区分度通常存在正相关 [8 ] , Chang Huahua 等[9 ] 在1999 年提出的 a 分层法的基 础上于

2001 年提出基于 0-

1 评分的 b 组块 a 分层 的选题策略(BASTR)[10 ] , 它可以较好地控制项目曝 光率, 提高题库的安全性, 以及抵消测验初期能力估 计值的不确定性. 在等级反应模型(graded response model, GRM) 下, 大量蒙特卡洛实验表明项目难度 向量降维后与区分度也存在较高的相关性(具体请 参见下文模拟实验部分), 模仿 BASTR 方法将难度 参数进行降维后作为 B 分块的依据, 本文共提出了

5 种B分块方法:(i) 按照难度参数取平均值分块, (ii)按照难度参数取中位数分块, (iii) 按照难度参 第42 卷第4期江西师范大学学报(自然科学版) Vol.

42 No.

4 2018 年7月Journal of Jiangxi Normal University(Natural Science) Jul.

2018 数去掉最大值和最小值后取平均值分块, (iv) 随机 取一个难度参数分块, (v) 按照难度参数的最大值 和最小值取平均值后分块. 又因为在多级评分中, 信 息函数可以较好地综合项目参数和能力参数, 是平 衡能力测量准确性和题库使用安全性的重要途径, 并且 影子题库 可以明显提高项目调用的均匀 性[2 ] , 因此采用 影子题库 下的最大信息量选题方 法, 这样既保证了测验的准确性又兼顾了项目曝光 的均匀性. 在CAT 施测过程中, 项目选择、 被试得分的计 算、 能力的估计以及测验的终止, 归根到底都依赖项 目参数. 然而, 在现实中, 只有估计的项目参数可以 提供, 机会红利就会发生 [11 ] . 这种现象在 0-

1 评分 定长 CAT 中已有证明 [12-

13 ] ;

又因为自适应项目挑选 标准倾向于选择虚假的估计的大区分值的项目, 这 会带来假的大信息量和假的低能力估计标准误, 机 会红利对不定长 CAT 测验长度的影响更大 [14 ] . 然而, 在国内外还未见文献报道机会红利对多级评分 CAT 的影响. 本文将研究 CAT 在GRM 模型下, 机会 红利对定长 CAT 和不定长 CAT 的影响. 0.

1 GRM 模型简介

1969 年, Samejima 给出了有序多值评分项目的 等级反应模型(GRM), 它把每个项目分成若干个等 级, 每个等级难度要求严格递增, 记P* αj, t 为被试 α 在第j个项目得 t 分或 t 分以上的概率, 则P* αj, t =

1 / (1 +exp( - Daj (θα - bjt ))), 记Pαj, t 为被试 α 在第 j 个项目恰得 t 分的概率, 则Pαj, t = P* αj, t - P* αj, t+1 , 而Fisher 信息量公式为 Ij (θα) = ∑ fj t =0 D2 a2 j Pαj, t(1 - P* αj, t - P* αj, t+1 )2 , 其中 aj 为题库中第 j 个项目的区分度, bjt 为第j个项目等级 t 的难度, 第j个项目共有 fj +

1 个等 级, D 取值 1. 7. 0.

2 项目参数 在GRM 中, 项目参数的真实值用 γ = (a, b → ) 表示, 用来生成被试对项目的作答反应;

用MMLE /EM 算法 [15 ] 估计得到项目参数的估计值用 γ ∧ = (a ∧ , b → ∧ ) 表示, 参与题库的组块和分层, 项目的选择以及被试 能力的估计. 0.

3 影子题库下最大信息量选题方法 在剩余题库即未作答题库中计算各个项目在被 试当前能力估计值上的信息量, 从中选出

5 个信息 量最大的项目, 然后在这

5 个项目中随机选用一题 作为被试的下一题. 0.

4 B 分块的新方法 1) 难度参数取平均值作为分块依据:Bj (ave) = (bj1 + bj2 + … + bjfj ) /fj ;

2) 难度参数取中位数作为分块依据: Bj(mid) = 取{bj1, bj2, …, bjfj } 的中间值, 当fj 为奇数, 取{bj1, bj2, …, bjfj } 中间2 个值的算术平 均值, 当fj 为偶数 { ;

3) 难度参数去掉最大值和最小值后取平均值 作为分块依据:Bj (ave_max - min) = (bj2 + … + bjfj-1 ) /(fj - 2);

4) 随机取一个难度参数作为分块依据: Bj (rand) = random{bj1 , bj2 , …, bjfj };

5) 难度参数的最大值和最小值取平均值后作 为分块依据:Bj (ave_max + min) = (bj1 + bjfj ) /2. 具体的 B 分块 a 分层方法如下:先让题库按降 维后的难度参数 B 排序, 相类似的 B 参数形成为一 个B块, 在每个块中按区分度 a 排序后, 再按 a 参数 进行分层. 这种方法使题库分为........

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题