日排行周排行月排行日推荐周推荐月推荐

笔下小说>计算机化自适应测验:理论与方法>第三 计算机化自适应测验开发流程

第三 计算机化自适应测验开发流程(第2页)

·其他考察因素。

(五)测验等值

采用IRT的等值方法(如项目特征曲线等值法)实现不同测验间的项目参数等值,从而保证项目参数定义在同一量尺上。

(六)形成正式题库

经以上五步,把最终符合测量学要求且项目参数等值在同一量尺上的试题组成题库。如果这时题库中的试题数量未达到要求,则应考虑再开发新试题,并经以上五步,直至题库题量符合要求;或者采用项目在线标定(OemCalibration)技术,在实际使用过程中实现题库的自动扩充,关于在线标定技术,读者可参考本书第九章内容。

三、CAT算法确定

实现“因人施测”的自适应(Adaptive)需要相关的CAT算法为支撑,CAT算法主要包括以下内容。

(一)选题策略

CAT需根据被试特点选择适合被试的项目,在能力测量的CAT中,则需要根据被试能力的高低选择相应难度的题目测量被试,如能力高的被试可以选择难的项目,能力低的被试选择容易的项目,从而达到被试能力水平与难度相匹配的自适应。目前在CAT领域中,测量学者们开发了大量的选题策略供实际使用者使用。

(二)能力参数估计

由于事先不知道被试的能力水平,所以CAT一般先选择几道中等难度的题目给被试做,并根据被试对这几题的作答情况来估计被试当前的能力值,然后再根据当前估计能力值从题库中选择难度与该能力相匹配的题目给被试,每新做完一题都需要与原来做完的所有题放在一起重新估计被试的能力值,依此循环,直至达到CAT终止的规则。在这个循环过程中,需要不断估计被试的能力参数,目前使用较多的能力参数估计方法有极大似然估计(MLE)、极大后验估计(MAP)、贝叶斯期望后验估计(EAP)等。

(三)曝光率控制

由于CAT的库题数量有限,当被试越多时,项目被使用的次数就会越多(尤其是高区分度、质量较好的项目),即项目的曝光率也越高。曝光率越高,则测验的安全性越差,而且过度曝光的题目的测量性能(如难度参数)会发生改变,进而影响到CAT的测量精度。因此对于一些CAT来说(尤其是高利害的CAT),需要采取一些技术来降低曝光率,从而提高题库使用的均匀性,提升CAT测试的安全性及测量精度。

(四)终止策略

终止CAT测试的方法一般有两种,一种是定长(FixedLength),即当被试完成了m题(如m=25)则结束测试;另一种是不定长(VariableLength),指固定测量误差(或测量信度),即如果某被试在CAT测试过程中达到某一设定的测量精度,则停止测试。这种策略的特点是被试的测量误差(或测量信度)相近,但每个被试使用的题量不等。

以上CAT算法的确定需综合考虑多种因素:已有实证数据的分析结果,MontCarlo模拟实验结果,测试对象特征、测验目标要求甚至是相关法律、文件要求等,关于以上CAT各种算法的详细介绍,读者可参见本书第三章。

四、信度与效度验证

(一)CAT信度验证

CAT的信度验证,一方面可借鉴经典测量理论(CTT)的信度验证方法,如重测信度,考察同一批被试两次不同时间CAT测量结果的一致性程度;复本信度,将CAT题库随机分成两半(复本题库),考察同一批被试在两个CAT复本题库下测量结果的一致性程度。这种基于CTT方法下的信度,一般只能分析所有被试一个笼统的信度值,但无法具体分析CAT对不同被试的测量误差(测量信度)的不同。

CAT信度验证的另一种思路,是以IRT为基础的测验信息量(Information,I),通过信息的大小来考察测量误差及测量的信度。IRT中,信息量与测量误差的数学关系式为

而测量误差与测量信度成如下反比例函数关系(假定被试能力均值为0,标准差为1)

则由公式(2。3。1)和公式(2。3。2)可得CAT对能力为θi的被试的测量信度为

也即,可通过被试在CAT测试的信息量来计算该被试的测量误差和测量信度。例如,对能力为θi的被试的信息量为25,则CAT对其的测量误差为0。2,对其测量的信度为0。96,参见表2-3-1和图2-3-3。

表2-3-1信息量与信度及测量误差的关系

图2-3-3测验对不同能力被试的信息量及测量误差

与经典测量理论下的信度相比,基于IRT的信度可以具体分析CAT系统对不同能力被试(θi)的测量信度及测量误差,从而可以细致考察CAT对每个被试测量的准确性,这也为CAT的自适应选题提供了重要的技术支持(如挑选对被试具有最大信息量即最小测量误差、最大测量信度的试题给被试做)。

(二)CAT效度验证

CAT的效度验证多半采用经典测量理论的方法验证,如效标关联效度,即CAT测量结果与某一效标之间的关联程度。这方面内容读者可参考相关经典测量理论的文献。

五、正式使用与题库维护更新

在CAT系统建成之后,经大量试测、破坏性实验及用户体验和意见征求且效果良好之后,可以考虑正式使用CAT系统,并在使用过程中根据出现的问题及时修正与完善。

随着时间的推移,CAT题库中,有的试题可能内容陈旧或过时,有的试题被使用的次数过少或没有,而有的试题则被过度使用(曝光率高)等,这些都对题库的维护与更新提出了新要求:一方面需要对已有题库中的题目进行适度的调整、修改甚至删除;另一方面还需根据形式要求,不断向题库中增加新的、质量优秀的试题,从而使题库能不断适应新的环境及满足新的实际需求。

但我们知道,CAT题库中所有试题都必须具有IRT参数,更为重要的是这些参数还需等值到同一量尺上。然而,题库中修改前与修改后的试题的测量学特征(如难度)会发生改变;新增加的试题的参数未知等。因此这类试题不能简单地直接入库,需要经过测试及等值等过程,从而保证修改了的试题以及新增加的试题具有IRT参数并且与题库参数定义在同一量尺上。

随着测量技术的发展,目前学者们已提出了多种CAT中新题参数的在线标定技术,即在实际CAT使用过程中,自动实现对新增加的试题或题库中修改了的试题进行项目参数标定,从而省去了组卷测试以及等值等烦琐工作,大大节省了对题库维护更新的成本,本书第九章将对CAT项目参数在线标定作详细介绍。

书友推荐:可怜的社畜掌握催眠之力后的淫乱生活人生如局回归之美母俏姐美母如烟,全球首富签到十年,我成圣了被健身房教练秘密调教后妈妈的欲臀(重生之我的美艳教师妈妈)婚后心动:凌总追妻有点甜女神攻略调教手册吾弟大秦第一纨绔两小无猜端庄美艳教师妈妈的沉沦无绿修改版配种(1V1,SC)娱乐圈之风流帝王亮剑:开局拿下鬼子据点房客(糙汉H)租赁系统:我被女神们哄抢!仙子的修行·美人篇红颜政道
书友收藏:斗破苍穹之后宫黑人恶堕推母之道宗主母亲与巨根儿子的淫乱性事重生之娱乐圈大导演娱乐圈的无耻统治者豪乳老师刘艳熟女记父债子偿重生少年猎美肥宅肏穿斗罗大陆女神攻略调教手册无限之生化崛起众香国,家族后宫被我催眠的一家人(无绿修改版)蛊真人之邪淫魔尊美母如烟,全球首富巨根正太和家族美熟女我丰乳肥臀的瑜伽教练母亲和保守的翘臀长腿女友被得到催眠APP的猥琐大叔调教成了专属肉便器影综:人生重开模拟器智娶美母