第一计算机化多阶段自适应测验简介第1页_计算机化自适应测验:理论与方法涂冬波等著

第一节计算机化多阶段自适应测验简介

计算机化多阶段自适应测验（MST）并不是一个全新的概念。早在CAT出现之前，就已经有了非计算机形式的MST（Mead，2006）。但是这种MST却因CAT的出现而暗淡失色。如今在使用CAT的过程中，暴露出越来越多的问题。比如，在CAT中测验组卷有时无法达到最佳状态，因此必须放弃一些复杂的内容要求。软件设计的漏洞和缺陷也会导致不理想的组卷结果。此外，还有一些考试内容要求难以量化。而MST组卷的特殊性，能够有效解决这些问题，因此又出现在人们的视野里。

一、什么是MST

什么是MST？MST是预先构建好题目集合，以集合作为单元进行管理和评分，这些集合被称为模块（Module）或题组（Testlet）（Luegester，1998；Wainer＆Kiely，1987）。这些模块是较短的线性测验，并提供一定比例的测验信息量，以此减小测量误差。模块中的题目可围绕一个或几个共同题干（如文章和图表），也可彼此互不关联。

MST的自适应点出现在题目集合水平上，是基于被试的累积表现选择下一个模块的。这使它的自适应点少于CAT，但又多于传统纸笔测验。MST结合了纸笔测验的元素和CAT的自适应特性，综合了两者的优点，克服了许多缺点，是两者的妥协者。MST测验形式已经被运用到大型评价考试中，如美国的注册会计师统一考试和研究生入学考试。

下面用一个简单的三阶段MST来示例多阶段测验过程（图4-1-1）。MST通常从一个较短的阶段一测验或路由测验（Routi）开始，该测验用来估计被试的能力初值，为之后的能力估计和题目选择做准备。此阶段的题目难度应该足够广，才能适合各种能力的被试。当被试做完阶段一的题目后，初步估计出被试的当前能力，然后为其选择随后阶段中与之能力匹配的模块。当被试的能力被估计为较低时，给其分配模块1（容易）的题目；当被试能力被估计为中等时，给其分配模块2（中等）的题目；以此类推给其分配模块3（困难）的题目（Hendri，2007）。阶段二测验中每个模块的难度划分更为精细，可对被试进行更精确的区分。阶段二测验结束后，估计出较精确的能力值，再根据这个能力值为被试选择阶段三的模块。

当三个阶段的测验都完成时，整个测验就完成了，此时可根据最终的能力值来判断被试的能力。整个测验仅有两个自适应点，分别是阶段一进入阶段二和阶段二进入阶段三时的自适应点。第二个自适应点要注意一个问题，若被试接受阶段二的模块1（容易），进入阶段三时不能直接跳转到模块6（困难），或被试接受阶段二的模块3（困难），进入阶段三时不能直接跳转到模块4（容易）。因为这样的极端跳转会引起较大的测量误差，并且这种情况在正常测验中也不会出现。图4-1-1中的一个完整流程被称为一个面板（Panel）。在一次测验中应有多个平行面板可供选择，以此来减小题目的曝光率。

图4-1-1三阶段MST测验

计算机化多阶段自适应测验有许多不同形式，并且这些形式的名称也有所区别。这些不同形式主要有：掌握水平测验（puterizedMasteryTesting，CMT），计算机自适应序列测验（puter-AdaptiveSequeing，CAST），多种形式结构（MultipleFormStructures，MFS），捆绑式多阶段自适应测验（BuageAdaptiveTesting，BMAT）（Armstrong，Jones，Koppel＆Pashiey，2004；Lewis＆Sheeha，2003；Luegester，1998）。

二、MST与题目级别CAT的比较

在CAT的应用过程中，人们已经体会到它的很多优点，如“因人而异”、测验时间较短等。但其依然有很多问题，如违反单维性及局部独立性假设的情况、题目曝光率等。MST中，由于每个模块中的题目在测试开始前都设计和组装好，并作为一个整体进行管理，因此测验开发者便可更好控制整个测验的结构和内容。通过这样的控制管理，即可消除CAT中存在的许多问题。

（一）题目顺序和情境效应

在CAT中，有时会由于题目顺序或情境效应，对作答结果产生影响。运用MST虽不能完全消除影响，却能大大减小其发生的可能性。在MST中，题目均以集合的形式存在。当有许多内容单元或跨分类内容的题目时，集合便凸显出其优势。因为这些集合是预先构建好的，测验开发者能检查题目的具体内容，防止题目间有提示，以确保题目适用性。例如，几何考试中，用统计算法无法精确检测出题目的内容，这时就需要人工检查，是否有过多考查三角形的题目，而缺少考查圆的题目。

（二）单维性和局部独立性

CAT要求所有题目必须满足单维性和局部独立性假设，否则会对参数估计带来较大影响。MST每一阶段的模块都包含很多题目，这些题目间或许没有关联，或许建立在一个共同刺激以及同一内容情境下（如图表、阅读理解），需要把这些题目作为一个整体，作为一个多级项目来进行处理。这时每个模块中题目间的独立性就不再需要强调了。尽管模块中题目的局部依赖性不是必须消除的，但是若使用多级计分模型将会使测量结果更加精确（Yen，1993）。由此可见，解决了单维性和局部独立性的问题，MST的估计结果将更加准确，并且信度也更高。

（三）非统计特性

在MST中，测验开发者可以提前检查题目内容及其统计特性，同时也能检查非统计特性的分布，如认知水平、题目形式、字数及答案位置等。这些问题在CAT最初的观念中均被忽略。通过对这些非统计特性的限制，可进一步减小被试猜测率，提高能力结果估计精度。

（四）题目曝光率

传统CAT对于同等能力的被试，根据项目信息函数和测验信息函数选择题目。由于高区分度的题目具有较大信息量，为达到指定测验信息量，选中这些题目的概率就很大，因此增大了部分题目曝光率，造成试题泄露（Kim，g，Dodd＆Park，2012）。然而MST却能很好控制题目的曝光率。因为测试前，测验开发者可以设计限制模块中题目的使用率。例如，对于同样路径的被试，在同一阶段内同样难度的模块，可选择平行模块，防止过度使用高区分度题目，进而有效控制题目曝光率（Edwards＆Thissen，2007）。

MST中有一种一致题目曝光率的MST（UniformItemExposureMulti-formStructure，uMFS）（Armstrong，Jones，Koppel＆Pashley，2004）。控制题目曝光率后，原始MST会发生两个变化：第一，阶段一中的模块数和接下来阶段中的水平数一样多，并且被试被随机分配到阶段一的模块里，因此每个阶段甚至每个题目都将被暴露于1L的被试（L表示每个阶段中的模块数，每个阶段中模块数都相同）。第二，正确归置每个模块中的题目，选择划界分数，决定模块分支，进而正确区分被试，从而达到一致性目标（Michael，David＆David，2012）。一个三阶段三水平的uMFS如图4-1-2所示。

图4-1-2三阶段三水平uMFS

（五）被试可检查题目

CAT不允许被试浏览或者检查题目，因为这会给能力估计带来问题。被试完成的题目都是根据其能力即时生成的，若被试未完成前一道题目，则无法生成下一道题目。若被试想修改之前题目的答案，一旦修改就会改变能力值的估计，进而接下来的题目都会随之改变，这样不但对题目生成和能力估计带来问题，也会增长测验时间。所以CAT中，不允许被试浏览和检查题目。

然而MST却很好地解决了这个问题。由于MST的自适应点只出现在不同阶段之间，因此阶段内允许被试浏览或检查题目，并修改错误答案。这样可使被试在每一阶段尽可能得到高分，减轻焦虑，保持最佳作答状态。

（六）数据处理

在MST中，更少的自适应点可以更快得到结果，并且减少了路径选择的需求。与CAT相比，这种方法更加高效（Wainer＆Mislevy，1990）。在CAT中，被试作答结果矩阵通常为稀疏矩阵，这会给结果估计带来很大困难，许多传统技术都无法解决这个问题。然而MST中将这些稀疏矩阵看作块矩阵，统计分析时将更易于处理。

（七）等值

使用CAT时，首先需要建立一个大型题库，并且必须保证所有题目都在同一量尺上，这样题目参数才具有可比性，因此需要对题目进行等值。在CAT中，不同被试很少会作答完全相同的一套试题，因此形成了稀疏作答矩阵，对新题参数（题库扩充）的估计和等值不太精确和便利。在MST中，大量被试会完成相同模块的题目，此时可根据被试作答直接对题目进行等值，提升了等值精确性和便利性（Armstrong，Kung＆Roussos，2010）。

第一 计算机化多阶段自适应测验简介（第1页）

第一计算机化多阶段自适应测验简介（第1页）