日排行周排行月排行日推荐周推荐月推荐

笔下小说>计算机化自适应测验:理论与方法>第一 计算机化多阶段自适应测验简介

第一 计算机化多阶段自适应测验简介(第1页)

第一节计算机化多阶段自适应测验简介

计算机化多阶段自适应测验(MST)并不是一个全新的概念。早在CAT出现之前,就已经有了非计算机形式的MST(Mead,2006)。但是这种MST却因CAT的出现而暗淡失色。如今在使用CAT的过程中,暴露出越来越多的问题。比如,在CAT中测验组卷有时无法达到最佳状态,因此必须放弃一些复杂的内容要求。软件设计的漏洞和缺陷也会导致不理想的组卷结果。此外,还有一些考试内容要求难以量化。而MST组卷的特殊性,能够有效解决这些问题,因此又出现在人们的视野里。

一、什么是MST

什么是MST?MST是预先构建好题目集合,以集合作为单元进行管理和评分,这些集合被称为模块(Module)或题组(Testlet)(Luegester,1998;Wainer&Kiely,1987)。这些模块是较短的线性测验,并提供一定比例的测验信息量,以此减小测量误差。模块中的题目可围绕一个或几个共同题干(如文章和图表),也可彼此互不关联。

MST的自适应点出现在题目集合水平上,是基于被试的累积表现选择下一个模块的。这使它的自适应点少于CAT,但又多于传统纸笔测验。MST结合了纸笔测验的元素和CAT的自适应特性,综合了两者的优点,克服了许多缺点,是两者的妥协者。MST测验形式已经被运用到大型评价考试中,如美国的注册会计师统一考试和研究生入学考试。

下面用一个简单的三阶段MST来示例多阶段测验过程(图4-1-1)。MST通常从一个较短的阶段一测验或路由测验(Routi)开始,该测验用来估计被试的能力初值,为之后的能力估计和题目选择做准备。此阶段的题目难度应该足够广,才能适合各种能力的被试。当被试做完阶段一的题目后,初步估计出被试的当前能力,然后为其选择随后阶段中与之能力匹配的模块。当被试的能力被估计为较低时,给其分配模块1(容易)的题目;当被试能力被估计为中等时,给其分配模块2(中等)的题目;以此类推给其分配模块3(困难)的题目(Hendri,2007)。阶段二测验中每个模块的难度划分更为精细,可对被试进行更精确的区分。阶段二测验结束后,估计出较精确的能力值,再根据这个能力值为被试选择阶段三的模块。

当三个阶段的测验都完成时,整个测验就完成了,此时可根据最终的能力值来判断被试的能力。整个测验仅有两个自适应点,分别是阶段一进入阶段二和阶段二进入阶段三时的自适应点。第二个自适应点要注意一个问题,若被试接受阶段二的模块1(容易),进入阶段三时不能直接跳转到模块6(困难),或被试接受阶段二的模块3(困难),进入阶段三时不能直接跳转到模块4(容易)。因为这样的极端跳转会引起较大的测量误差,并且这种情况在正常测验中也不会出现。图4-1-1中的一个完整流程被称为一个面板(Panel)。在一次测验中应有多个平行面板可供选择,以此来减小题目的曝光率。

图4-1-1三阶段MST测验

计算机化多阶段自适应测验有许多不同形式,并且这些形式的名称也有所区别。这些不同形式主要有:掌握水平测验(puterizedMasteryTesting,CMT),计算机自适应序列测验(puter-AdaptiveSequeing,CAST),多种形式结构(MultipleFormStructures,MFS),捆绑式多阶段自适应测验(BuageAdaptiveTesting,BMAT)(Armstrong,Jones,Koppel&Pashiey,2004;Lewis&Sheeha,2003;Luegester,1998)。

二、MST与题目级别CAT的比较

在CAT的应用过程中,人们已经体会到它的很多优点,如“因人而异”、测验时间较短等。但其依然有很多问题,如违反单维性及局部独立性假设的情况、题目曝光率等。MST中,由于每个模块中的题目在测试开始前都设计和组装好,并作为一个整体进行管理,因此测验开发者便可更好控制整个测验的结构和内容。通过这样的控制管理,即可消除CAT中存在的许多问题。

(一)题目顺序和情境效应

在CAT中,有时会由于题目顺序或情境效应,对作答结果产生影响。运用MST虽不能完全消除影响,却能大大减小其发生的可能性。在MST中,题目均以集合的形式存在。当有许多内容单元或跨分类内容的题目时,集合便凸显出其优势。因为这些集合是预先构建好的,测验开发者能检查题目的具体内容,防止题目间有提示,以确保题目适用性。例如,几何考试中,用统计算法无法精确检测出题目的内容,这时就需要人工检查,是否有过多考查三角形的题目,而缺少考查圆的题目。

(二)单维性和局部独立性

CAT要求所有题目必须满足单维性和局部独立性假设,否则会对参数估计带来较大影响。MST每一阶段的模块都包含很多题目,这些题目间或许没有关联,或许建立在一个共同刺激以及同一内容情境下(如图表、阅读理解),需要把这些题目作为一个整体,作为一个多级项目来进行处理。这时每个模块中题目间的独立性就不再需要强调了。尽管模块中题目的局部依赖性不是必须消除的,但是若使用多级计分模型将会使测量结果更加精确(Yen,1993)。由此可见,解决了单维性和局部独立性的问题,MST的估计结果将更加准确,并且信度也更高。

(三)非统计特性

在MST中,测验开发者可以提前检查题目内容及其统计特性,同时也能检查非统计特性的分布,如认知水平、题目形式、字数及答案位置等。这些问题在CAT最初的观念中均被忽略。通过对这些非统计特性的限制,可进一步减小被试猜测率,提高能力结果估计精度。

(四)题目曝光率

传统CAT对于同等能力的被试,根据项目信息函数和测验信息函数选择题目。由于高区分度的题目具有较大信息量,为达到指定测验信息量,选中这些题目的概率就很大,因此增大了部分题目曝光率,造成试题泄露(Kim,g,Dodd&Park,2012)。然而MST却能很好控制题目的曝光率。因为测试前,测验开发者可以设计限制模块中题目的使用率。例如,对于同样路径的被试,在同一阶段内同样难度的模块,可选择平行模块,防止过度使用高区分度题目,进而有效控制题目曝光率(Edwards&Thissen,2007)。

MST中有一种一致题目曝光率的MST(UniformItemExposureMulti-formStructure,uMFS)(Armstrong,Jones,Koppel&Pashley,2004)。控制题目曝光率后,原始MST会发生两个变化:第一,阶段一中的模块数和接下来阶段中的水平数一样多,并且被试被随机分配到阶段一的模块里,因此每个阶段甚至每个题目都将被暴露于1L的被试(L表示每个阶段中的模块数,每个阶段中模块数都相同)。第二,正确归置每个模块中的题目,选择划界分数,决定模块分支,进而正确区分被试,从而达到一致性目标(Michael,David&David,2012)。一个三阶段三水平的uMFS如图4-1-2所示。

图4-1-2三阶段三水平uMFS

(五)被试可检查题目

CAT不允许被试浏览或者检查题目,因为这会给能力估计带来问题。被试完成的题目都是根据其能力即时生成的,若被试未完成前一道题目,则无法生成下一道题目。若被试想修改之前题目的答案,一旦修改就会改变能力值的估计,进而接下来的题目都会随之改变,这样不但对题目生成和能力估计带来问题,也会增长测验时间。所以CAT中,不允许被试浏览和检查题目。

然而MST却很好地解决了这个问题。由于MST的自适应点只出现在不同阶段之间,因此阶段内允许被试浏览或检查题目,并修改错误答案。这样可使被试在每一阶段尽可能得到高分,减轻焦虑,保持最佳作答状态。

(六)数据处理

在MST中,更少的自适应点可以更快得到结果,并且减少了路径选择的需求。与CAT相比,这种方法更加高效(Wainer&Mislevy,1990)。在CAT中,被试作答结果矩阵通常为稀疏矩阵,这会给结果估计带来很大困难,许多传统技术都无法解决这个问题。然而MST中将这些稀疏矩阵看作块矩阵,统计分析时将更易于处理。

(七)等值

使用CAT时,首先需要建立一个大型题库,并且必须保证所有题目都在同一量尺上,这样题目参数才具有可比性,因此需要对题目进行等值。在CAT中,不同被试很少会作答完全相同的一套试题,因此形成了稀疏作答矩阵,对新题参数(题库扩充)的估计和等值不太精确和便利。在MST中,大量被试会完成相同模块的题目,此时可根据被试作答直接对题目进行等值,提升了等值精确性和便利性(Armstrong,Kung&Roussos,2010)。

书友推荐:全家桶伏特加与曼特宁红颜政道人生如局娱乐圈的曹贼四方极爱只想当侯爷,奈何妻妾想打天下继女调教手册(H)端庄美艳教师妈妈的沉沦无绿修改版人间政道长安春在言情文里撩直男男主【快穿/np】一屋暗灯租赁系统:我被女神们哄抢!被健身房教练秘密调教后债务偿还系统影视大世界之美女如云婚后心动:凌总追妻有点甜配种(1V1,SC)美母的诱惑
书友收藏:重生少年猎美赛博经纪人神豪的后宫日常我在三国当混蛋我丰乳肥臀的瑜伽教练母亲和保守的翘臀长腿女友被得到催眠APP的猥琐大叔调教成了专属肉便器我的人渣指导系统(加料版)母上攻略豪乳老师刘艳父债子偿斗破之淫荡任务掌中的美母穿越影视万界之征服我的冷艳教师美母和明星校花女友变成同学们的性奴竟是一个熊孩子的策划原来,她们才是主角(加料版)无限之生化崛起堕落的冷艳剑仙娘亲(大夏芳华)逆子难防(母上攻略同人)高冷的丝袜女总裁妈妈被混混同学屈辱玩弄恶魔大导演人妻调教系统