第三计算机化自适应测验开发流程第2页_计算机化自适应测验:理论与方法涂冬波等著

·其他考察因素。

（五）测验等值

采用IRT的等值方法（如项目特征曲线等值法）实现不同测验间的项目参数等值，从而保证项目参数定义在同一量尺上。

（六）形成正式题库

经以上五步，把最终符合测量学要求且项目参数等值在同一量尺上的试题组成题库。如果这时题库中的试题数量未达到要求，则应考虑再开发新试题，并经以上五步，直至题库题量符合要求；或者采用项目在线标定（OemCalibration）技术，在实际使用过程中实现题库的自动扩充，关于在线标定技术，读者可参考本书第九章内容。

三、CAT算法确定

实现“因人施测”的自适应（Adaptive）需要相关的CAT算法为支撑，CAT算法主要包括以下内容。

（一）选题策略

CAT需根据被试特点选择适合被试的项目，在能力测量的CAT中，则需要根据被试能力的高低选择相应难度的题目测量被试，如能力高的被试可以选择难的项目，能力低的被试选择容易的项目，从而达到被试能力水平与难度相匹配的自适应。目前在CAT领域中，测量学者们开发了大量的选题策略供实际使用者使用。

（二）能力参数估计

由于事先不知道被试的能力水平，所以CAT一般先选择几道中等难度的题目给被试做，并根据被试对这几题的作答情况来估计被试当前的能力值，然后再根据当前估计能力值从题库中选择难度与该能力相匹配的题目给被试，每新做完一题都需要与原来做完的所有题放在一起重新估计被试的能力值，依此循环，直至达到CAT终止的规则。在这个循环过程中，需要不断估计被试的能力参数，目前使用较多的能力参数估计方法有极大似然估计（MLE）、极大后验估计（MAP）、贝叶斯期望后验估计（EAP）等。

（三）曝光率控制

由于CAT的库题数量有限，当被试越多时，项目被使用的次数就会越多（尤其是高区分度、质量较好的项目），即项目的曝光率也越高。曝光率越高，则测验的安全性越差，而且过度曝光的题目的测量性能（如难度参数）会发生改变，进而影响到CAT的测量精度。因此对于一些CAT来说（尤其是高利害的CAT），需要采取一些技术来降低曝光率，从而提高题库使用的均匀性，提升CAT测试的安全性及测量精度。

（四）终止策略

终止CAT测试的方法一般有两种，一种是定长（FixedLength），即当被试完成了m题（如m＝25）则结束测试；另一种是不定长（VariableLength），指固定测量误差（或测量信度），即如果某被试在CAT测试过程中达到某一设定的测量精度，则停止测试。这种策略的特点是被试的测量误差（或测量信度）相近，但每个被试使用的题量不等。

以上CAT算法的确定需综合考虑多种因素：已有实证数据的分析结果，MontCarlo模拟实验结果，测试对象特征、测验目标要求甚至是相关法律、文件要求等，关于以上CAT各种算法的详细介绍，读者可参见本书第三章。

四、信度与效度验证

（一）CAT信度验证

CAT的信度验证，一方面可借鉴经典测量理论（CTT）的信度验证方法，如重测信度，考察同一批被试两次不同时间CAT测量结果的一致性程度；复本信度，将CAT题库随机分成两半（复本题库），考察同一批被试在两个CAT复本题库下测量结果的一致性程度。这种基于CTT方法下的信度，一般只能分析所有被试一个笼统的信度值，但无法具体分析CAT对不同被试的测量误差（测量信度）的不同。

CAT信度验证的另一种思路，是以IRT为基础的测验信息量（Information，I），通过信息的大小来考察测量误差及测量的信度。IRT中，信息量与测量误差的数学关系式为

而测量误差与测量信度成如下反比例函数关系（假定被试能力均值为0，标准差为1）

则由公式（2。3。1）和公式（2。3。2）可得CAT对能力为θi的被试的测量信度为

也即，可通过被试在CAT测试的信息量来计算该被试的测量误差和测量信度。例如，对能力为θi的被试的信息量为25，则CAT对其的测量误差为0。2，对其测量的信度为0。96，参见表2-3-1和图2-3-3。

表2-3-1信息量与信度及测量误差的关系

图2-3-3测验对不同能力被试的信息量及测量误差

与经典测量理论下的信度相比，基于IRT的信度可以具体分析CAT系统对不同能力被试（θi）的测量信度及测量误差，从而可以细致考察CAT对每个被试测量的准确性，这也为CAT的自适应选题提供了重要的技术支持（如挑选对被试具有最大信息量即最小测量误差、最大测量信度的试题给被试做）。

（二）CAT效度验证

CAT的效度验证多半采用经典测量理论的方法验证，如效标关联效度，即CAT测量结果与某一效标之间的关联程度。这方面内容读者可参考相关经典测量理论的文献。

五、正式使用与题库维护更新

在CAT系统建成之后，经大量试测、破坏性实验及用户体验和意见征求且效果良好之后，可以考虑正式使用CAT系统，并在使用过程中根据出现的问题及时修正与完善。

随着时间的推移，CAT题库中，有的试题可能内容陈旧或过时，有的试题被使用的次数过少或没有，而有的试题则被过度使用（曝光率高）等，这些都对题库的维护与更新提出了新要求：一方面需要对已有题库中的题目进行适度的调整、修改甚至删除；另一方面还需根据形式要求，不断向题库中增加新的、质量优秀的试题，从而使题库能不断适应新的环境及满足新的实际需求。

但我们知道，CAT题库中所有试题都必须具有IRT参数，更为重要的是这些参数还需等值到同一量尺上。然而，题库中修改前与修改后的试题的测量学特征（如难度）会发生改变；新增加的试题的参数未知等。因此这类试题不能简单地直接入库，需要经过测试及等值等过程，从而保证修改了的试题以及新增加的试题具有IRT参数并且与题库参数定义在同一量尺上。

随着测量技术的发展，目前学者们已提出了多种CAT中新题参数的在线标定技术，即在实际CAT使用过程中，自动实现对新增加的试题或题库中修改了的试题进行项目参数标定，从而省去了组卷测试以及等值等烦琐工作，大大节省了对题库维护更新的成本，本书第九章将对CAT项目参数在线标定作详细介绍。

第三 计算机化自适应测验开发流程（第2页）

第三计算机化自适应测验开发流程（第2页）