第二可修改答案的计算机化自适应测验设计与方法第1页_计算机化自适应测验进行测试的各个环节包括涂冬波等著

第二节可修改答案的计算机化自适应测验设计与方法

一、基于测试设计视角的RCAT

针对RCAT的两个缺陷：一是被试使用“作弊”策略，二是测验效率的下降，有研究者从测验设计的角度入手针对性地提出了一些解决方案。为了防止被试使用“作弊”策略，研究者提出通过控制被试修改作答的方式来控制。另外，Waddell和Blankenship（1994）研究发现在一次测验中被试修改的题目数只占总题量的很少部分（平均只有5。1%）。因此，如果只允许被试修改一定数量的题目，一定程度上可以提高RCAT测验的效率。目前有关RCAT的测验设计主要包括：Stog的限制被试修改机会的设计；优化的Stog设计；题目口袋设计；区块题目袋方法；重新安排题目顺序的设计。接下来分别从测验设计的基本思想、优缺点以及它们之间的关系进行阐述。

（一）Stog的限制被试修改机会的设计

1。限制被试修改机会的三种设计方案

Stog（1997）提出了三种RCAT设计。

设计一：允许被试修改固定数量的题目。在作答前主试会告知被试作答完所有题目后，可以返回检查并修改固定数量的题目。

设计二：允许被试修改单独限时题目单元内的答案。在测验过程中将题目按照先后顺序划分为固定长度的题目单元。题目单元长度根据实际需要而规定。并以题目单元的形式呈现给被试作答，被试可以在单元内对题目进行检查并修改，计算机根据被试当前单元的作答来选择下一个单元，提交答案后的单元不允许再次返回修改。

设计三：只允许被试修改单独限时属于共同刺激物（表格、图画、阅读材料等）组成的题目单元，题目单元的长度随着测验内容的变化而变化，因此每个被试作答的题目单元的内容和长度是因人而异的。

2。三种设计方案的比较与评价

为了验证这三种设计在对抗Wainer策略中是否有效，Stog（1997）通过模拟和真实的数据研究，发现在设计一中当只允许修改2个题目时（定长28题），能力估计精度和传统CAT很接近。但是随着可修改题目数的增加，由Wainer策略导致的误差也会随之增加，换句话说设计一并不能有效对抗Wainer策略。

当把设计二中的测验题目分隔为4个或4个以上的单元时，能力估计精度接近于传统CAT。因此，在对抗Wainer策略方面设计二比设计一更有效。同时结果也表明设计三与设计二在抵抗Wainer策略方面具有类似的效果。

与设计一相比，被试在设计二中对测验有更多的掌控，不管测验被分割为多少个小单元，设计二中被试还可以修改所有的题目，但设计一中只能修改固定数量的题目。另外，设计二中被试修改单元内答案会影响下一个单元的选择，即计算机会根据被试修改后的能力估计值选择下一个单元。而设计一中修改题目之后的能力估计值并没有体现在自适应选题上。从这点来看设计二比设计一更符合CAT的规则。

与设计二相比设计三既保留了设计二的优点，但也具有自身独有的优点。设计三的单元由具有共同刺激物的题目组成。而设计二中的单元只是按照题目顺序随意组合而成，单元内容可能毫不相关。对于一些习惯将所有相关联的题目综合考虑之后，再进行作答的被试，设计三更符合他们的认知过程。

另外，在设计一中，在测验开始前需告知被试只能修改很少量的题目，这可能给被试造成额外的考试压力。设计二和设计三都没有考虑到增加修改选项后会引起测验效率的下降。而且两种设计中被试还不能返回修改前一个单元，被试并不能按照自己的考试习惯来修改答案，这也给被试带来了极大的不便。设计三在应用中还存在一些局限性。例如，在只考查阅读水平的测验中，所有的题目都拥有共同的刺激背景，如何来划分题目单元将会很困难；相反如果一个测验的绝大部分题目都没有共同刺激背景，那么设计三与传统CAT几乎没有差异。

（二）优化的Stog设计

针对Stog设计造成的RCAT效率的下降，Vispoel等人（2000）将Stog设计加以改进提出了优化的Stog法。该方法的思路是允许被试在作答题目单元时，暂时将不确定答案的题目标记起来，待当前单元内的其余题目全部作答完以后，计算机会再次呈现该单元内的所有题目供被试修改，通过标记待修改题目节约了测验的时间。另外，计算机屏幕下方会显示测验所剩余的时间，以此提醒被试合理安排时间，如果被试不想受到时钟的干扰也可以选择将其隐藏。

Vispoel等人（2000）将优化的Stog法应用到真实的CAT中，测验包括40道考查词汇记忆的题目。实验结果表明这种方法是非常有效的，因为在修改阶段被试花费55%的时间用于修改标记过的题目（标记的题目只占总题目数的6。93%）。优化后的Stog法的平均测验时间只比传统CAT多了12%，而且差异不显著。在将测验分为8个题目单元时，其测验时间只比传统CAT多了6%。这都说明优化的Stog法对提高RCAT的效率是有效的。

从实验结果来看，Stog设计（尤其是设计二）和优化Stog设计都将RCAT的效率和精度保持在一定的范围内。但是这些设计都将被试的修改行为限制在一个题目单元内，被试必须修改完当前题目单元并提交答案之后再作答下一个单元（除非被试放弃修改当前题目单元），在这种测验环境中，被试的作答习惯会受到极大的限制。并且要成功应用以上设计还需要对每个题目单元单独限时，在应用于RCAT中如何规定每个单元的测验时间也是个很复杂的问题。如果每个单元的作答时间是没有限时的，那么被试在作答完一个单元之后就会纠结要不要花时间来修改，修改过程中又要担心花费时间过长影响后面的答题。这种情形导致被试在整个测验过程中经常处于一种焦虑的状态，而由此带来的考试焦虑有可能更高。另外，按照以往的纸笔考试习惯，遇到一些难题或是暂时想不起答案的题目，考生经常会跳过这些题目继续作答。然而在Stog设计和优化Stog设计中并不允许被试跳过题目来作答，甚至在一个单元内也不能跳过。也许有考生认为在遇到较难的题目时先随意选择一个答案，等到一个单元作答完毕之后再修改答案，但这样做又会违背CAT的选题策略，反而会引起更大的误差。

（三）题目口袋（ItemPocket）设计

Stog（1997）的设计将题目划分为单独的小单元，被试只允许修改单元内的题目。所以被试每作答一个单元就要做出一个决定：是否要花费时间去修改当前单元，还是抓紧时间作答剩余单元。另外，修改答案后会造成“人题”不匹配，Stog和优化Stog法的设计中都没有消除“人题”不匹配造成的测量误差。针对以上两种设计的缺陷，Han（2013）提出了一种题目口袋（ItemPocket，IP）法。

1。题目口袋法的设计方案

IP的设计思路是指在测验的过程中，计算机为被试提供了一种题目口袋选择，即允许被试在作答过程中，随时可以把待修改的题目或者暂时想跳过的题目放入IP中，然后接着作答下一个题目，放入IP内的题目不参与当前能力估计。当IP容量已满后，被试需要替换一题才能再次放入。在规定的测验时间内被试随时可以修改IP内的题目，修改后的题目自动从IP内释放。测验时间结束后IP内还未被释放的题目视作错误作答。从IP内释放的题目与IP外的题目一样也参与被试的能力估计，IP容量可以根据测验的长度、时间等设定。

2。题目口袋设计的评价

IP方法允许被试随时将不确定答案的题目放入其中，一来可以帮助被试有效安排时间，防止被试在一个不确定答案的题目上花费过长时间，影响剩余题目的作答。二来IP方法允许被试跳过题目来作答，并且在IP内作答不影响IP外的选题，从而有效地降低了由于“人题”不匹配引起的误差。另外，与Stog和优化Stog法相比，在IP设计中被试对测验的控制感更足，更符合被试考试习惯，能有效降低被试的紧张及焦虑度。

但Han并没有指出IP容量大小该如何选择，IP容量过大或过小都会产生不利的影响。IP容量过小，被试对测验控制感不足；IP容量过大，由于在IP内的作答不影响IP外的选题，同样地也会降低CAT因人施测的有效性。另外，IP方法的有效性也取决于测验时间，在时间有限的CAT中被试可能不会使用IP方法，因为被试知道没有足够的时间来修改答案。

（四）区块题目袋方法

在Stog设计中，被试在题目区块内（区块也就是文章中的题目单元）作答时不允许跳过题目，而且为了保证估计的精度，需要划分较多的区块使得被试受到更大的限制。然而，IP法的缺陷是它的容量不易设置，但是IP法在一定程度上可以弥补Stog设计的不足。基于此，林喆、陈平、辛涛（2015）提出了区块题目袋方法，该方法将Stog设计和IP法有效结合在一起，实现了方法之间的“双赢”。区块题目袋的主要思路是将测验分成几个大区块，为每个区块分配一个一定容量的IP，通过区块的设置来合理安排题目袋的容量。在进入下一个区块前，被试需要作答完该区块IP内的题目，而进入下个区块后不允许修改前面的区块。

通过模拟研究表明：与IP法相比，区块题目袋方法可以提高能力估计的精度，尤其对低水平的被试，区块题目袋能够更精确地估计其能力值，并且随着区块数的增加估计精度有略微提升。在对抗类似Wainer策略时（测验开始前将题目尽可能放入IP内来推迟作答，再返回全力作答），区块题目袋方法也要优于IP法。

区块题目袋将Stog设计和IP法结合起来，一来允许被试跳过题目作答，而且只需要设置较少的区块，二来巧妙地解决了IP容量不易设置的问题。

然而，区块题目袋将被试的修改行为限制在区块内，被试在作答下个区块前需要完成当前IP内的题目，这很可能不符合一部分被试的修改习惯。在纸笔测验中，被试经常使用的一种修改习惯就是：先跳过较难的题目，等完成全部有把握的题目之后，再返回检查并修改答案，这种修改习惯类似于IP法的思路。因此，虽然区块题目袋合理解决了IP容量不易设置的问题，却可能给被试的测验习惯带来一定的限制。此外，相对IP法，区块题目袋在应用中更复杂，需要更多的技术支持。

第二 可修改答案的计算机化自适应测验设计与方法（第1页）

第二可修改答案的计算机化自适应测验设计与方法（第1页）