第三计算机化自适应测验第1页_计算机适应性测试涂冬波等著

第三节计算机化自适应测验

计算机化自适应测验是利用现代化的信息技术手段实现自适应技术的测验形式。第二节已经指出，它是第二代计算机化测验，也是发展最为成熟的自适应测验形式，第三代与第四代可以视为第二代计算机化考试在心理测量理论与考试结果应用方面的拓展。本节将详细介绍计算机化自适应测验的概念、优势、研究现状与未来研究方向等方面。

一、概念

计算机化自适应测验根据考生前面的作答选择能够最大化地提高测量精度的项目。从考生的角度来看，考试的难度与其能力是匹配的。如果考生能答对中等难度的项目，后面的项目可能就会更难一些。如果他们的作答不好，就有可能做更简单一些的项目。因此计算机化自适应测验的突出优点就是提高了考试的效率，只需要更少的题就能达到传统纸笔测试的测量精度。一个计算机化自适应测验本质上就是下面这样一个迭代算法。

第一步，根据对考生能力的现有估计，在所有可能的项目中寻找最佳项目；

第二步，把选定的项目呈现给考生，考生给出作答；

第三步，根据考生的作答，更新考生的能力估计值；

第四步，检查是否符合终止规则。如果符合，考试结束；反之，重复以上三个步骤。

为了实现这个迭代算法，一个计算机化自适应测验系统应当包括以下五个缺一不可的基本元素：事先标定的题库、初始题选择、选题法、能力估计方法与终止规则。

（一）事先标定的题库

CAT需要从一个题库中选择项目呈现给考生。这个题库中的项目都需要用心理测量学模型标定，把它们放在一个共同的标尺上。最常用的心理测量学模型是项目反应理论（ItemRespo）。在20世纪70年代，大部分CAT研究都是采用了经典测量理论（ClassicTestTheory，CTT）。此后由于IRT研究的大发展，IRT取代了CTT。目前，两种新的测量理论也渐渐流行起来：多维项目反应理论（Multi-dimensionalIRT，MIRT）与认知诊断理论（itiveDiagnosis，CD），因此也产生了基于这两种新理论的CAT，称为多维IRT的计算机化自适应测验（MIRT-CAT）与认知诊断的计算机化自适应测验（CD-CAT）。

（二）初始题选择

CAT选题的基本依据是考试不同进程中当前的能力估计值。但是在施测之前，一般很难得到考生能力的估计，因此需要一些特殊的方法来处理此时的能力粗略估计问题。一般来说有两大类方法：第一类是通过其他渠道获得的考生已有信息，如性别、年级等背景变量（九年级的考生一般来说比七年级的考生能力更高，九年级考生应该选择较难的项目而七年级考生选择相对容易的项目）。第二类就是假定考生具有中等能力水平，选择中等难度的项目。

（三）选题法

选题法的主要任务是要构造一个指标，选出一个对能力估计值最有测量效率的项目。目前最常用的选题指标叫作信息函数。顾名思义，这个函数值最大（或者最小）的项目能够提供最多的信息。选题法中涉及很多信息函数，但是可以大致分为两大类：一类是来自于统计学的Fisher信息函数；另一类是来自于计算机科学的信息函数，包括Shannon信息函数、Kubek-Leibler信息函数以及互信息函数（MutualInformation）等。同时，选题法也不仅仅涉及测量效率的问题，也涉及心理与教育测量中各种实际的限制，如与考试安全相关的项目曝光率问题、内容平衡问题、正确作答的排序问题等。选题法是最能展现自适应测验智能化特点的元素，因此它一直是CAT研究的核心问题与热点。

（四）能力估计方法

考生做完一道题之后，CAT需要对考生的能力进行更新。这需要一种统计方法来完成这个目标。能力估计的主要方法包括极大似然估计与贝叶斯估计，而贝叶斯估计又包含两种具体的估计方法：EAP（ExpeAPosteriori）与MAP（MaximumAPosteriori）。极大似然估计与贝叶斯估计之间存在一定的联系。如果采用均匀分布的先验，那么MAP与极大似然估计是等价的。两者的重要区别在于，极大似然估计是一种无偏估计，但是在作答都是正确或者错误时，这种估计方法就会失效，需要依赖贝叶斯估计。讨论CAT能力估计方法的最重要的文献是TestSg（Thissen＆Wainer，2001）。

（五）终止规则

CAT里的选题法会一直选出项目给考生，更新考生的能力，直到题库里的项目枯竭，因此需要制定一定的终止规则。终止规则一般都建立在考生能力的测量精度是否达到了某种水平。在CAT中一般用测量的标准误（StandardErrorofMeasurement）来衡量能力测量的精度。在测量精度达到某个预设值时，CAT就会停止测试，因此，CAT的一个优势是可以使每个考生的测量精度相同。

二、CAT的优势

计算机信息技术的发展给教育测量带来了巨大的变化。计算机化测评具有一些传统纸笔测评无法比拟的优势。

（一）项目的呈现更加标准化

计算机可以精确地控制考生可以看到听到的具体内容，也可以非常精准地控制项目呈现的时间。计算机可以控制施测条件、指导语、程序的完全标准化，但是人工施测很难达到这样的标准化。再以指导语为例，计算机的指导语可以做到跨越时间、地点的完全一致。计算机施测可以避免人工施测中的某些问题，如某些考生不听指令提前看题等问题。

（二）提高考试安全

计算机化测验没有纸笔的考题或者答案，因此可以避免纸版考试中考题或者答案被泄露的问题。在计算机系统中，可以通过多重加密防止考试材料泄露。这些考试材料也可以通过加密的形式存储，使没有密码指令的人无法看到或者打印考试材料。考题的答案也可以通过随机排列等方式防止现场作弊的发生。

（三）丰富的呈现功能

纸笔测验的呈现方式的优缺点都非常明显。它们可以很好地呈现文字与简单的图片。纸笔测验也能呈现照片等复杂的图片，但是成本非常高昂。纸笔测验不能记录考生的作答时间，不能以动态的形式呈现图像、动画与一系列动作。纸笔测验中声音材料的呈现也非常困难，施测人员必须接受专门的训练；现场的操作与实施非常复杂。在计算机化测验中，计算机显示器是统一的项目呈现设备。虽然它受到显示设备像素、显卡、内存大小等因素的影响，但是它能够呈现文字、图像、声音、视频等多种形式的刺激材料，实施成本低廉，呈现的效果也远远好于纸版的呈现方式。

（四）新形式项目的出现

显示功能的强大不仅仅是改变了呈现质量，也对测量项目本身产生了深远的影响。纸笔测验中的项目形式相对单一，但是计算机显示功能大大拓展了测验的内容与形式。例如，在格式塔能力测验中，计算机可以逐步增加测验刺激材料的细节，直到考生识别图案。在视觉概念与记忆测验中，可以通过计算机同漫画的形式展示图片序列。在知觉速度测验中，控制图片显示的时间与速度。在听觉能力中，计算机可以向考生呈现通过数字合成技术生成各种声音刺激材料。这些测试内容与形式在纸笔测验中很难实施，甚至无法实施。

（五）减少考试时间

有大量的研究已经表明，即使只是简单地把纸笔测验转化为计算化测验（第一代计算机化测评）也能大幅地降低测验施测的时间。Olsen曾研究发现在进行加州考试项目（iaAssessmentProgram）时，计算机化组与纸笔组的各种统计学指标（平均数、标准差、信度与测量误差等）基本相当，但是计算机化组的考试时间大大低于纸笔组。在答题纸上作答需要找到并且涂画相应的选项，比直接用键盘输入答案要花费更多的时间。

（六）作答收集与编码更加便捷

计算机化测验在作答的收集与编码方面存在很明显的优势。对于选择题，一般的答题纸都需要考生在相应的项目中找到相应的选项，然后填图对应的字母或者圆圈。考生在这个过程不仅仅耗时费力，而且增加了犯错的概率。但是在计算机化测验中考题是一个一个呈现的，考生不必查找对应的题号与选项。对于问答题或者写作，计算机化测验可以避免不同书写风格带来的偏差。作答也可以直接用于后续的避免处理，例如，可以直接使用自然语言处理技术提取关键信息。但是纸笔作答需要统一收集运输扫描等流程。

在有些开放式问题中，计算机可以提供更加符合考生作答习惯的作答方式。例如，有些问题会要求考生指出或者画出文本中的某些文字、图片中的某个部分。特别是在触屏技术飞速发展之后，计算机提供了互动性更强、更加友好的方式进行。在纸版测评中实施这些任务会给作答的编码带来很大的困难。另外，由于语音识别技术的发展，考生可以用语音输入的方式进行作答，这就大大拓展了需要口头表达的考试内容。例如，语言考试中的口语水平测试、音乐中的声乐水平测试。口头作答的方式也为测试某些特殊人群打开了方便之门，如视觉困难人群、不具备书写能力的文盲群体等。

（七）减小测量误差

第三 计算机化自适应测验（第1页）

第三计算机化自适应测验（第1页）