第一计算机化自适应测验理论基础项目反应理论第3页_计算机化自适应测验:理论与方法涂冬波等著

除了分部评分模型和拓广分部评分模型外，评定量表模型以及称名反应模型等也均属除总模式的多级评分IRT模型，限于篇幅，对这些模型的介绍不再一一展开，感兴趣的读者可参考相关文献。

三、项目反应理论假设

项目反应理论采用数学函数（项目反应模型）来解释被试在项目上的作答反应，而这些函数的建立是基于一定的假设之下。

（一）能力单维性假设

不论是Logistic模型，还是GRM或PCM等，这些项目反应模型中涉及的被试能力（θ）维度只有一个，即测验测量的维度为单维。如果测验测量为多维时，以上模型的项目反应模型都无法准确解释、预测被试不同维度的能力是如何影响被试在项目上的作答的，因此以上模型仅适用于测量单维情境。

但在实际中，被试要正常完成一个项目任务往往会涉及多个能力（测验维度为多维），那如何进行IRT分析呢？随着测量技术的不断发展，学者们已提出了多维项目反应理论，从而使IRT模型从只能处理单维数据拓展到了多维数据，关于多维项目反应理论的介绍可参考本书第五章。

能力单维性假设只是针对单维IRT模型，而对于多维IRT模型则无须这条假设，因此读者需要辩证地看待IRT的这条假设。

（二）局部独立性假设

局部独立性假设在估计项目参数和被试参数时会涉及。我们知道，IRT模型中，能力参数（θ）和项目参数（a，b）都是未知参数，是需要进行估计的；而实际中能获取的是一群被试在测验每个项目上的得分情况或得分矩阵（该得分矩阵中行为被试，列为项目，中间的元素代表某被试在某题上的实际观察得分），因此IRT需要根据该已知的得分矩阵去估计未知的项目参数和被试参数。IRT在估计这些未知参数时，构建了似然函数（LikelihoodFun），即被试具有这种观察到得分矩阵的联合概率。接下去以一个实例来说明似然函数的构造：

若3个被试在4个项目上的得分矩阵U为

记P为答对的概率，Q为答错的概率，则可以给出每个被试在每个项目上的反应概率，即

第1位被试在4个项目的得分矩阵U1·=（1100），该被试在每题上作答反应概率为P1·=（P11，P12，Q13，Q14），那么被试具有U1·=（1100）这样一种观察得分联合概率（似然L）为多少呢？如果假设被试在不同题目上的反应概率间相互独立（P11，P12，Q13，Q14彼此独立），则联合概率为

L1·=P11×P12×Q13×Q14。

延伸可得被试i在m个项目上的得分似然为

同理，如果假设不同被试间的得分相互独立，即与不同被试在测验上的得分模式无关，则可得N个被试在第j个项目上得分的似然函数为

根据公式（2。1。16）及公式（2。1。17）可得，所有被试在所有项目上的得分的似然函数为

公式（2。1。18）即为IRT模型的似然函数，IRT模型的参数估计基本上都是建立在似然函数的基础之上，如最大似然估计方法（MaximumLikelihoodEstimation，MLE）是在令似然函数L最大的情况下来估计未知的被试能力参数与项目参数的。

综上，IRT模型对似然函数构建是建立在局部独立（Lodependence）的假设基础上，即在给定特定能力θ条件下：

·在给定被试i的能力条件下，被试i答对第j题与第j′（j≠j′）题的概率相互独立，即p（Xij=1|θi）与p（Xij′=1|θi）相互独立。

·被试i与被试i′（i≠i′）答对项目j的概率相互独立，即p（Xij=1|θi）与p（Xi′j=1|θi′）相互独立。

当然，在实际测量领域中，以上局部独立的假设有时难于满足，比如一道大题由几道小题构成，而若下一道小题的正确完成的前提是上一道小题也正确完成，那么这时被试答对这两道小题的概率就不再满足独立性假设；又比如英文阅读理解题，由于这些题共用一篇短文，而被试对短文材料越熟悉，那该被试在该短文中不同题目间的答对概率也难于满足独立性假设。

为了处理局部独立性假设违背的测量情境，学者们将有相依（Lo-dence，LD）的题目作为一个独立的题组，从而开发出可以处理项目相依的题组反应模型（TestletRespoRM），关于题组反应理论的介绍读者可参考相关文献。

独立性假设只是针对传统IRT模型，而对于题组反应模型则无须这条假设，因此读者同样需要辩证地看待IRT的这条假设。

（三）单调递增性假设

单调递增性假设是指随着被试能力的增加，被试答对项目的概率越大。这一点可以从Logistic模型的项目特征曲线中反映出来（详见图2-1-1），这种假设在能力测验中比较普遍，如智力测验、学业成就测验中一般都满足这种假设。这时，我们可以采用Logistic数学函数来解释或预测不同能力被试在项目上的答对概率。但在非能力测验（如态度测验、人格测验等）中，单调递增性假设难于满足。现以一个项目例子加以说明，有这样一道试题：

如果用θ代表被试的长相水平，θ越高代表被试长相越好，反之越差。那么长相水平为θi的被试在这个项目上选择“是的”选项的概率有大呢？如果采用类似图2-1-1中的Logistic模型来处理的话，则认为θi越高（长相水平越高）的人，选择“是的”选项的概率越高，这种解释显然与实际不符。我们知道，长相水平越高（θi越高）或长相越低（θi越低）的被试，选择“是的”选项的概率都偏低，而只有长相水平一般（θi为中间值）的被试选择“是的”选项的概率会比较高，参见图2-1-5。显然，这时被试在项目上的反应概率违背了单调递增性假设。针对这种情况，学者们开发了展开模型（UnfoldModel，UM），展开模型中其项目特征曲线（ICC）可以不是单调递增曲线，感兴趣的读者可参考相关文献。

图2-1-5ICC非单调性的例子

单调递增性假设只是针对传统IRT模型，而对于展开模型则无须这条假设，因此读者也需要辩证地看待IRT的这条假设。

第一 计算机化自适应测验理论基础 项目反应理论（第3页）

第一计算机化自适应测验理论基础项目反应理论（第3页）