日排行周排行月排行日推荐周推荐月推荐

笔下小说>计算机化自适应测验理论与方法>第三 CAT在心理健康评估中的应用

第三 CAT在心理健康评估中的应用(第2页)

接下来,程序根据当前的能力值基于最大信息量的原则挑选下一题。如果两道题的信息量相同(出现这种情况的概率很小),程序将在其中随机选择一题。θ在每次对新的题目作答反应后,都被估计一次,直到其精度达到标准。在CTT中,信度值R≥0。9被认为是极好的,根据公式ρ=1-SE2,这里我们采用这个标准,当标准差SE≤0。32时测验停止。

(2)测验特性。

为了评估D-CAT的特性,研究者做了两个模拟研究。

模拟研究A:模拟100种不同特质水平被试的θ值。在-3。5~3。5,以0。25为间隔,每个点上模拟100个被试,共模拟了2900个被试,被试的反应作答模式的生成采用Wang(1999)的方法。这可以使我们评估题库对于不同水平被试的区分能力。当标准误达到小于0。32的标准时,自适应测验的程序停止。

模拟研究B:使用在构建题库时已经收集到的真实患者的作答数据,在这个“真实数据的模拟研究”中,只有自适应测验的过程是模拟的。对于每个被试,模拟开始于同一个问题:“DuriweekIfeltdepressed”,使用被试对于这道题目的真实的作答反应,程序使用自适应算法为被试挑选下一个题目,接下来的每一步都用这种同样的方式。同样,终止规则都为标准误小于或等于0。32。

三、研究结果

(一)单维性

根据删题标准:CFA中因子载荷低于0。4,样本1删除了5道题目,样本2删除了24个题目;残差相关大于或等于0。25,样本1删除了25个题目,样本2删除了25个题目。这样,样本1包含58个题目,样本2包含37个题目。其中有15道题目是重复的。误差相关在两个样本中的变化范围为0。00~0。24。对余下的题目再做一次CFA,样本1的RMSEA为0。07,样本2的RMSEA为0。08。RMSEA值在0。05及以下通常被认为指示模型是非常拟合的,其值在0。05~0。08被认为是可以接受的(MacCallum,Browne&Sugawara,1996;Browne,Cudeck,1993;Hu,Bentler,1999)。

(二)项目特征曲线和测验精度

大多数题目的项目特征曲线表现不错,不同类别得分轨迹曲线间的差异明显(参见图10-3-1(a)-(d))。

稍微差一点的题目,如图10-3-1(e)所示。选项2和选项3的作答曲线并没有很好地区分出来,为了获得一个比较明显的最大值,将这两个选项合并为一个,在这个例子中,结果非常成功,得到了图10-3-1(f)中的结果。因此研究者将这种策略用在了29道题目上。除此之外,有8道题目因为其他的原因删去了,其中的7道题目是因为不能使每个作答选项获得一个清晰的最大值曲线。

图10-3-1θ值标准分数的项目特征曲线

(三)DIF

有4道题目在年龄上有DIF,则“blamingoneself”,年轻人的得分会高一些(Δχ2=1。041,R2=0。048);“losinglibido”,年长的得分会高些(Δχ2=0。654,R2=0。061);“jaded”:年长的得分高一些(Δχ2=13。859,R2=0。036),“extrememoodges”,年轻人的得分高一些(Δχ2=7。778,R2=0。035)),因此这4道题目被删去了。

(四)测验等值

在测验等值之前,项目分析都是在两个题目样本下独立进行的。题目样本1目前包含51道题目,题目样本2包含25道题目,其中两个样本中有12道题目是重叠的。将两个样本中的参数标准化后放在一个刻度上。在12道重叠的题目中,选出来自同一个量表中的9道作为锚题,这可以为后续使用相同锚题的等值研究提供便利。固定住样本1中θ的平均值和标准差为0±1,样本2中的平均数和标准差变为了-0。16±1。09。两样本中锚题的区分度的差值在0。01(“insecure”)至0。19(“depressed”)之间;难度参数的差值在0。ic”)至0。10(“ed”)之间。

(五)项目参数

在项目参数估计出来后,删去了区分度低于0。7的题目后,对剩下的题目重新进行了估计。题库中题目的选项数目在2~6不等:1道二分式选项的题目和63道多分类的选项的题目(34道题目有4个作答选项,24道题是5个,5道题目有6个)。最后CAT中剩下64道题目的截距参数(猜测参数)在-3。15~3。17变化,可以认为是题库中的题目均匀地覆盖了范围很广的抑郁症状,项目的区分度在0。71~2。25变化。

(六)入选题库题目概述

表10-3-1、表10-3-2呈现出了最终的CAT题库中的题目,涵盖了我们预先确定的抑郁症的九类症状:25个题目测量了抑郁情绪症状,从极端的水平“ocheerup”或“unbearablysadunhappy”到相反的一极表述“feelinghappy”或“enjoyinglife”。与抑郁情绪相关联的焦虑和不安全感觉有8道,丧失个性的题目有2个。这些抑郁的症状被列在诊断标准D**-Ⅳ之下。其他的题目测量了机能障碍(8道题目),疲劳或者精力下降(7道题目),自我谴责或者内疚(4个题目),愉快感和兴趣的缺失(3道题目),注意力不集中或者犹豫不定(3道题目),死亡或自杀的病态想法(2道题目),睡眠障碍(1道题目)和体重下降或胃口不好(1道题目)。

总之,因为数据的原因,144道题目中的80道被排除在外。表10-3-1、表10-3-2列出了排除在外的题目和相应的排除理由。其中的28道题目问题集中在社会联系(13道题目),性(10道题目),或者工作和义务(5道题目)。这些被删去的题目最不可能来自准确通用的抑郁量表(CES-D,BDI)。比较被删去的题目和保留下来的题目在措辞上的差异,微弱地揭示了两者在语言上的复杂性。进一步检查题目内容中词数(词数在3~29,平均数为9。5,标准差为4。9)和从句个数(个数在0~5,平均个数为0。59,标准差为0。75)。被排除的题目包含更多的词(10。4VS8。3,T=2。55,df=141,p=0。01)和更多的从句(Mann-WhitneyU=1919,p=0。007;53VS47%)。

表10-3-1两次CFA分析结果以及删题理由(1)

续表

表10-3-2最终D-CAT所挑选出来的64道题目(包括锚题)的项目参数(2)

续表1

续表2

(七)测验特性

1。模拟研究A

将模拟的被试数据应用到CAT算法当中。当潜在特质值在-2~2时,程序平均需要用到7。15道题目(标准差为1。39)来估计被试的潜在特质值,就可以达到之前设定的标准SE≤0。32。当潜在特质值在两个标准差之外时,需要的题目数明显更高(M=27。77,SD=10。75)。图10-3-2显示出了测量不同水平的潜在特质要达到预定的准备度所需要的平均题目数。

图10-3-2D-CAT(终止规则SE≤0。32)中不同潜在特质所需的题目数(和标准差)

2。模拟研究B

当用真实的患者作答数据来运行算法的时候,θ在样本平均数±2个标准差附近的被试需要平均6。12个题目(SD=2。11)来估计就能达到测验精度标准。只有61个患者在这个范围之外,这些患者需要18。3±11。7个题目(表10-3-3)。

书友推荐:可怜的社畜掌握催眠之力后的淫乱生活人生如局回归之美母俏姐美母如烟,全球首富签到十年,我成圣了被健身房教练秘密调教后妈妈的欲臀(重生之我的美艳教师妈妈)婚后心动:凌总追妻有点甜女神攻略调教手册吾弟大秦第一纨绔两小无猜端庄美艳教师妈妈的沉沦无绿修改版配种(1V1,SC)娱乐圈之风流帝王亮剑:开局拿下鬼子据点房客(糙汉H)租赁系统:我被女神们哄抢!仙子的修行·美人篇红颜政道
书友收藏:斗破苍穹之后宫黑人恶堕推母之道宗主母亲与巨根儿子的淫乱性事重生之娱乐圈大导演娱乐圈的无耻统治者豪乳老师刘艳熟女记父债子偿重生少年猎美肥宅肏穿斗罗大陆女神攻略调教手册无限之生化崛起众香国,家族后宫被我催眠的一家人(无绿修改版)蛊真人之邪淫魔尊美母如烟,全球首富巨根正太和家族美熟女我丰乳肥臀的瑜伽教练母亲和保守的翘臀长腿女友被得到催眠APP的猥琐大叔调教成了专属肉便器影综:人生重开模拟器智娶美母