第三计算机化自适应测验第2页_计算机适应性测试涂冬波等著

计算机化测验大大减小了各种测量误差。仅仅就取消答题纸而言，考生不仅仅可以提高作答速度，也可以减少填错答案、漏答、更改答案时没有完全消除错误答案的标记等问题。计算机化测验是一个一个呈现项目的，因此，考生集中注意力解决眼前的问题，而不被其他的项目分散注意力或者因部分难题造成畏难心理，因此计算机化考试可以提高低能力、注意力持续时间短的考生的表现。

计算机化考试也可以减少与考试过程有关的误差。计算机化测验作答是通过键盘、鼠标或者触屏的方式输入的，已经是电子化的数据。而纸笔测验的作答需要扫描的程序，这个过程会引入一些转化的误差，因为扫描本身就是一项专业性非常强的技术。另外，在计算机化测验中，答案更改、常模更新、评分规则的变化都非常简单，但是纸笔测验中必须要更改相应的纸版内容。再者，计算机化测验可以避免试卷、作答丢失，学生作答的答案画得模糊，扫描设备各种机械故障（扫描像素的设定等问题），答案错误带来重复劳动等。在纸笔测验中，这些实施的问题都是经常遇到的，需要大量的人力物力来处理。

（八）记录作答反应时，提供更加丰富的作答信息

计算机可以非常准确记录考生作答的每一个项目、分测验与测验的时间。但是这个任务在纸笔测验中几乎无法实现。充分挖掘反应时提供的信息可以大大丰富我们对考生的评价。目前反应时已经成测评中的一个研究热点之一，重要的问题包括如何对反应时进行建模，如何利用反应时来提高能力估计的精度，如何提高计算机化自适应测验的选题效率，如何探测考生的各种不良作答策略（作弊、泄题、动机弱等）。

（九）实时的准确评分、结果报告与解读

正如上文论述的计算机减少考试误差的好处。计算机可以快速地评分，计算分测验分数与总分。因此，考生可以在测验结束几分钟之后拿到一份成绩报告单与结果解读。但是纸笔测验一般至少需要一周到一个月不等的时间来完成评分撰写报告结果的任务。很多标准化考试被认为没有任何教学指导意义，因为考试与成绩反馈之间的时间过长。

（十）电子化存储

由于作答信息收集方式的改变，计算机能够直接产生数字化的存储，避免了大量题本的物理运输、处理与存储。电子化的存储方式大大降低了传输过程中发生错误的概率。为了满足考试分析、二次教育研究以及存档的需求，这些数据可以快速便捷地传送。

三、CAT研究现状与未来研究方向

自CAT研究诞生40年以来，心理教育测量研究者的研究已经成绩斐然，CAT也成为心理教育测量领域一个成熟的分支，成为专业学术杂志与会议的重要议题，甚至有了专门的国际性研究协会。这个部分我们将对CAT研究的过去与现状从测量模型、考试实施、考试分析三个方面来进行梳理总结，并对未来的重要研究问题进行一些预测。

（一）测量模型

CAT研究初期（20世纪70年代），CAT是一种与传统纸笔测验完全不同的形式，具有开创性。因此有关的研究处在萌芽阶段，在主题内容技术等方面非常有限。第一，最重要的研究重点是能力估计的统计信度；第二，只研究CAT形式，而忽略了其他的形式；第三，只研究二分的项目，而忽略了多级计分模型；第四，只研究单维模型。CAT研究还没有开始研发新的项目类型与评分规则（如纸笔测验无法呈现与评分的项目类型）。这些新题型与评分规则都可以增加考试的效度与可考查的内容。

20世纪90年代廉价而强大的电脑开始出现，极大地促进了第一批大型CBT项目的产生，如ASVAB、GRE中的部分考试，以及TOEFL。这些大型项目在实践中遇到大量的技术难题，其中大部分都是非常有趣兼具挑战性的研究性课题。同时，计算机与多媒体技术的结合大大开阔了测试研究者与开发者的思路，激励他们尝试新的测验形式与作答形式。例如，使用视频来呈现项目，收集考生的语音作答等。

CBT的兴趣已经不再仅仅局限于统计层面，不仅关注信度，也开始关注效度，如考题内容的平衡等。计算机不仅仅可以实现自适应，还可以呈现更复杂的项目，如复杂的视听材料（过程模拟、场景的演变等）。计算机也可以实现考生与测验之间更高级的互动。例如，考题可以是一个模拟的病人，考生需要对其进行诊断、询问、开药等活动。开放题的计算机化评分也变得更加可能，如ETS研发的自动评分系统。但是同时，题库的开发与维护变得更加复杂，也比最初设想的昂贵。考试安全已经日益成为一个重要的问题。测试工业界一方面希望通过立法来设立更严格的项目管理制度，另一方面也希望开发出小样本与缺失数据下的各种考试质量控制技术（参数估计方法、项目功能差异、被试拟合等）。

1。研究主题

（1）CAT题库。最优题库的内容与项目参数是什么分布？能否帮助测试编制者开发出具有理想统计学性质的项目？

（2）在线标定。在线标定收集到的数据一般来说是确实数据。什么是最优的取样设计？项目内容与形式能否提供一些项目参数（特别是难度参数）的先验信息，这样可以减少样本容量的要求？

（3）曝光控制。怎样的曝光控制方式才是有效的？怎样减少由曝光控制带来的测量精度的损失？

（4）作答速度。CAT中考生作答的考题不一样，那么如何避免由此带来的作答速度效应？

（5）质量控制。CAT中获取的作答信息较少，给项目功能差异、参数漂移、作答异常的探查带来了困难。现有的技术在CAT中还可以使用吗？还有什么新的质量控制技术？

2。突破性研究

以下研究主题是更加长久的研究主题，能够促进下一代CAT的形式。

（1）CBT与认知诊断模型的结合。

（2）复杂项目或者作答的测量模型建模（如基于电脑模拟的测试）。

（3）提高考试公平的各种方法（按照文化背景来选题）。

（4）多维测量模型。

（5）信息选题法与能力估计误差之间的交互作用。

（6）项目自动生成。

（二）考试实施

20世纪七八十年代的研究集中在IRT模型、选题法、终止规则，项目与能力参数的估计方法。现在CAT要面对更新的技术难题，包括：项目的研发、更新，用一个更宽泛的名词，叫作“题库维护”；项目前测（获得各种项目参数）；项目与考试安全。这些新问题都是在一些考试机构实施CAT后发现项目提前曝光影响了分数的效度（Validity）。

这三个技术难题高度相关：大题库可以提高考试安全，但是大题库的开发十分昂贵，因此对项目开发与质量控制的成本与收益需要进行监控。同时，为项目参数估计与质量控制收集数据的过程也是项目曝光的过程，可能会引发安全问题。因此，需要大量的研究来降低项目开发成本，降低项目曝光率。

1。研究主题

如果以下八个问题能够回答，那么CAT与CAT的实施效率将大幅提高：项目研发、项目统计指标、有效题库的维护、项目曝光、成本收益分析、公平、在不同施测条件下的考生行为与考试平台选择。

（1）项目研发。能够提升项目编制者的培训？项目可以克隆吗？这些克隆项目有类似的项目统计指标吗？可以开发出项目生成的程序吗？自动评分可以促进开放题在CBT中的推广吗？在CBT中选择题仍然占据主流地位，从选择题转向使用开放题的实际困难是什么？克隆题会不会加剧考试培训对考试的信效度带来的威胁？

（2）项目统计指标。获得足够小估计误差的项目各项统计指标需要多大的样本？这些估计误差对能力估计的影响有多大？项目编写者能否参与获得这些统计指标？如果可以，最有效的获取方式是什么？通过纸笔测验获得的项目统计指标是否适用于CBT？在纸笔测验中获得的统计指标中，哪一个对CBT最没有参考价值？有没有方法使考生在实际考试中发挥出自己的最好水平？

（3）有效题库的维护。什么结构与组织形式才是最优题库？题库使用的时间是多长？一个题库的分数需要与一个参照题库进行等值吗？一个安全题库的最大项目曝光度是多少？题库中的项目应该如何进行轮休才能既保证题库安全又能获得最大的使用周期？如何探查被泄露的题？在考试过程中探查到了被泄露的题，有什么方法进行补救？另一个与题库项目使用率最大化有关的问题是如何可以开发出高效的算法，它可以使用题库中所有项目但是对能力估计不会产生重大的负面影响。

第三 计算机化自适应测验（第2页）

第三计算机化自适应测验（第2页）