α64={1,1,1,1,1,1}→潜在类别64。
独立结构是可能的KS向量数量最多的情况,因此它是最复杂、最难估计的。而当属性之间不是独立结构时,可能的KS向量数量(也就是潜在类别的种类数量)就少于2K个。最简单的是线型结构,它的可能的KS向量数量只有k+1个。仍然以k=6为例说明:
α1={0,0,0,0,0,0}→潜在类别1;
α2={1,0,0,0,0,0}→潜在类别2;
α3={1,1,0,0,0,0}→潜在类别3;
α4={1,1,1,0,0,0}→潜在类别4;
α5={1,1,1,1,0,0}→潜在类别5;
α6={1,1,1,1,1,0}→潜在类别6;
α7={1,1,1,1,1,1}→潜在类别7。
认知诊断的目的,是根据被试的作答结果,对被试的KS向量进行推断。从以上例子可以看出,在不同的属性层级结构之下,可能的KS向量数量相差很大,由此把被试分成的潜在类别数量也相差很大。如果能事先确定测验的属性层级结构,那么在对被试KS进行估计的时候就会准确得多,也会方便得多。
认知模型确定之后,要根据属性及其层级关系找出所有可能的属性组合,然后为每一种可能的属性组合编写至少一道测验试题并标定所有试题所测认知属性。由此而形成一个元素全是1或0的i×k的矩阵,这个矩阵被称作为Q矩阵(Tatsuoka,1995),其中i是题目数量,k是认知属性(简称属性)数量。Q矩阵的第i行第k列的元素用qik表示。从题目与属性的关系看,qik=1意味着测验的第i题考查了属性k,而qik=0意味着第i题没有考查属性k。从题目与被试的关系看,qik=1意味着在没有猜测的情况下,被试要答对第i题就必须掌握属性k。Q矩阵的每一行实际上都是对应试题的认知属性变量,有学者把这个称为q向量。认知诊断所用认知模型以及Q矩阵通常需要由认知心理学专家、学科专家和心理测量专家共同精心构建和标定。
与做IRT研究一样,做认知诊断研究也要求输入一个j×i的作答矩阵(Resporix,又译为反应矩阵),其中j是被试数量。当所有题目均为0-1计分时,作答矩阵的所有元素均为0或1。
认知诊断所用测量模型是一个将试题认知属性变量、被试认知状态变量和被试的作答矩阵融入一体的统计模型。测量模型的作用就是在试题认知属性变量确定、被试作答反应变量确定的前提下,应用某些统计方法,估计和确认被试的认知状态KS。
认知诊断里还有一个概念叫理想反应模式(IdealRespoern),它指的是在不存在任何失误和猜测等误差条件下被试对题目的作答反应情况。即若被试掌握了题目考核的所有属性则被试答对该题,若被试至少有一个题目考核属性未掌握,则被试答错该题目。根据测验的全部i道题所分别考查的属性和全体j个被试的KS,就可以计算出所有被试在所有题上的理想反应模式,构成一个J×I的理想反应模式矩阵。有些认知诊断模型在做参数估计的时候需要用到理想反应模式矩阵。
认知诊断的精度,常以模式判准率(PatterClassifiRate,PCCR,又名PatternMatchRate,PMR)为指标来评判。PCCR的计算公式为
其中,如果一个被试的所有属性掌握情况都被判对,则称该被试的KS判对。PCCR越大,则被判对KS的被试在所有被试中所占的比例越高。
二、CD-CAT
现代教学实践既需要被试宏观能力层面的测量结果,又需要被试微观认知层面的测量结果。将CAT与认知诊断测验这两种现代测量形式结合起来,是最理想的设计。于是,兼具二者优势的CD-CAT就诞生了,它是CAT的“自适应”思想与在认知诊断测验实施过程中对“高效快速”的追求相结合的产物,是认知诊断与CAT两种测验在原理与目标上的嫁接,它将传统CAT自适应化的原理嫁接到了被试认知状态估计目标上。比起传统的认知诊断测验形式,CD-CAT可以更精确、更迅速、更灵活地测量出被试的潜在知识结构,从而获得被试在知识点上的掌握情况,为教育教学工作提供有针对性的指导,促进学生的个性化发展(郭磊,2014)。
从CTT纸笔测验到CD-CAT,心理测验的理论与实践经过了长期的发展,CD-CAT的发展历程可以用图6-1-2来概括。
图6-1-2CD-CAT的理论与实践发展历程(转自戴步云,2015)
最近几年来,在社会科学引文索引(SoceIndex,SSCI)中,关于CD-CAT的论文越来越多,可见它越来越受学者的关注。Jang(2008)设想了这样一幅课堂教学的场景:当教学完成一个小单元之后,教师用CD-CAT来诊断学生们对已经教过的技能的掌握情况;学生们在教室的计算机上完成测验,而详细指出每个学生的优势和劣势的诊断结果将会立刻生成。Huebner(2010)认为Jang(2008)的这个设想阐述了CD-CAT成为一种强大且实用的测量工具的潜力。而在中国进行的一项大型研究表明,CD-CAT能有效地帮助教师进行课堂教学,并能促进学生的批判性思维,提高学生独立进行问题解决的能力,还能让学习更有乐趣(Liu,You,Wang,Ding&g,2013)。可以肯定,根据教育测评的发展趋势,CD-CAT有很好的发展前景,并将在未来的教育实践中发挥重要的作用(辛涛,乐美玲,张佳慧,2012)。
CD-CAT发展到今天,已经呈现出多样化。用不同的分类方法,可以将CD-CAT分为各种不同的类型。例如,根据不同的测验目的,可以将CD-CAT分为两大类:一类是只测量被试的认知状态,这是单目标的CD-CAT(如Xu&Douglas,2003;g,2009);另一类是同时测量被试的认知状态和能力,这是双目标的CD-g,2007;M&g,2008;Wang,g&Douglas,2012)。后一类测验在选题时要同时兼顾诊断被试认知状态和估计被试宏观能力,创新层次更高,引发的研究难度和复杂程度也更高。