实践项目 返回列表

核心素养的认知诊断测评体系建构

2020/4/26 10:31:25

核心素养是全球教育界关注的焦点问题,也是当下教育改革的风向标。然而,如何合理测评学科核心素养成为教育改革和发展的重要议题,学科核心素养的测评需加关注各种新型评价形式[1]。认知诊断测评作为一种新的教育测评范式,旨在将严格的心理测量标准与形成性评估的目标相结合[2]。通过知识链间的关系获取更恰当的学习路径和学习进阶,更好地指导教学实践。本研究采用认知诊断测评理论,试图为核心素养的测评提供新的视角和方法。


认知诊断用于核心素养测评的可行性分析

1 核心素养的本质特征决定了它的可测性

可测性是素养测评的前提,素养的本质决定了素养的可测性,如素养是知识、技能、态度的超越和统整,是一整套可以被观察、教授、习得和测量的行为[3]。素养是完成某一情境工作任务所必需的一系列行为模式,这些行为与绩效表现密切相关[4]。核心素养具有可测量性,可加以评价,核心素养的表现水平可经过推测得知,呈现出一个连续体的状态,代表构成要素的高低水平[5]。可见,核心素养是在继承“三维目标”的基础上发展出来的、更具有统整性的概念,它不能脱离知识而存在,是通过知识积累、技能发展、态度养成而形成的综合行为能力。如欧盟核心素养框架就是将行为导向的核心素养分解成知识、技能和态度三个方面来进行评价的[6]。这种可分解性,对核心素养的认知诊断测评起着至关重要的作用。


2 核心素养与认知诊断技术都具有内隐性

核心素养具有综合性、内隐性、情境性和适应性等特点,难以直接观察,必须将核心素养依附于具体行为,通过观察外显的行为表现来间接了解内隐的核心素养状况。如欧盟国家核心素养评价的一种思路是将核心素养转换为可观察的外显行为,对核心素养开展评价[7]。认知诊断测评作为新型的测评手段,是高级潜变量模型,主要解决通过传统测评无法测量的内部能力问题。利用认知诊断测评技术来测量学生的核心素养,可以较好地将核心素养内隐的特征外显化,让核心素养的测评从模糊状态转为清晰,为了解核心素养的内部特征及其结构化特点提供新视角。


3 认知诊断测评使素养测评更加可操作

认知诊断需要将核心素养所代表的行为能力分析成认知属性,进而通过现代心理学和测量学的手段对核心素养的内部结构、认知规律及其在细粒度上的表现做出全面的诊断和评价。认知诊断测评不仅注重学生个性化的评价,而且关注群体的学习路径和学习进阶等整体状态。因此,核心素养的认知诊断测评成为了评价学生学业成就、考量课标教材合理性、指导教学有效有序开展的依据。此外,认知诊断测评让核心素养的计算机自适应测评也成为可能,如美国计算机自适应测验已经以不同形式存在于州立K-12教育测评中[8]。核心素养的认知诊断测评更加具体,师生对核心素养的理解更加深刻,使得有针对性地培养学生核心素养有了可操作的依据。


核心素养测评的认知诊断体系建构

1 理论假设与基础论证

核心素养的属性层次界定是核心素养认知诊断测评的基石,它直接影响认知诊断测评的质量。属性层次既要符合学科逻辑思维,又要遵循学生认知规律——这就要求属性层次建构者在学科理解的基础上,充分了解学生的认知规律,既要有丰富的学科经验,又要有大量的学生知识。Leighton等[9]认为,目前认知诊断属性在达到评估和诊断目的方面存在困难。为解决这一困难,国际上较为成熟的办法是联合学科专家、心理测评专家和一线教师,来开发认知诊断属性层次。此外,还可以采用心理研究的方法来构建适合认知诊断的属性层次,如口语报告法、眼动研究技术等。属性的细粒度直接影响结果的解析深度,由于测评目的不同,其属性的划分也存在差异。但从数据的复杂性角度来考虑,一般属性个数以6~9个为宜。若某一核心素养的属性有6个,那么可能的属性类型有以下5种[10],如图1所示。

未标题-1.jpg

图1  属性层次关系的基本类型


2 认知诊断测评编制

在认知诊断测评编制中,Q矩阵起到了结构化统领的作用。Q矩阵理论将被试不可观察的认知状态转化为在项目上可观察的作答模式,以此来分析和推测被试的认知状态[11]。以图1中的C类分支型为例,用1表示考查该属性,0表示不考察。这样,一道试题总计可能的考查模式应有26个。本研究在图1中C类属性层次关系的限制下,计算出理想测量模式,如表1所示。


表1  C类分支型的理想测量模式属性考查分布

未标题-2.jpg


在表1的理想测量模式中,排除学生做题过程中的猜测与忽视情况,可以推导出属性掌握模式及其对应的理想反应模式,如表2所示。


表2  C类分支型属性的掌握模式及其对应的理想反应模式

未标题-3.jpg


在表2中,属性掌握模式(100100)表明学生只掌握了第一个和第四个属性——在这种掌握模式下,排除猜测和忽视情况,学生只能够做对T1、T4、T12、T15测试题。


3 认知诊断模型选择与应用

认知诊断测评依据不同的测评条件开发出了多种模型。以RSM为例,该模型为了将测量得到的多维度数据降到二维空间进行分类,构建了一组序偶(θ,ζ),规则空间是以(θ,ζ)为参数的分类笛卡尔乘积二维空间。其中,θ表示项目反应理论中计算出的被试的能力值,ζ表示警戒指标,即能力为θ的被试实际反应模式偏离理想反应模式的程度[12]因此,可以依据理想反应模式计算出标准的规则点(纯规则点)(θRi,ζRi)和实际反应模式(θXi,ζXi)。定义ζ的值如公式(1)所示。其中,P(θ)=[P1(θ), P2(θ),…,Pi(θ)](i=1 ,2, 3, …, n),Pi(θ)指能力为θ的被试在第i个项目上作答正确的概率。

未标题-4.jpg

公式(1)


双参数评估中P(θ)的计算如公式(2)所示,其中ai, bi指第i个项目的区分度和难度,D一般取常值1.7。T(θ)指正确回答项目概率的均值向量,其计算如公式(3)所示,其中t1(θ)的计算如公式(4)所示。

6.png

依据以上规则空间模型,计算出纯规则点(θRi,ζRi)和实际反应模式(θXi,ζXi),一般采用马氏距离判别法或贝叶斯方法,按照纯规则点将被试分到不同的理想反应模式中,即可达到对被试进行分类诊断的目的[14]


4 结果分析与诊断报告

认知诊断测评了解学生在多维、细粒度的潜在认知属性上的差异,充分体现了学生诊断性、个性化的形成性评估特点;同时,也可以通过知识链间的关系获取更恰当的学习路径和学习进阶,关注统整性的终结性评估。认知诊断测评模型的本质,就是通过心理测量学手段,按照实际反应模式和理想反应模式匹配的最大概率,将被试划归到不同的理想掌握模式中,进而依据被试在理想掌握模式所处的状态对被试进行有针对性的属性掌握策略与方法的补救。除此之外,认知诊断测评还可以获得学生核心素养的学习进阶。学习进阶作为学生学习某一领域知识的认知过程和发展顺序,涉及对发展学生相关认知活动的描述,对整个教育教学有奠基作用,也可为国家课程标准的修订、教材的编写、教学顺序的安排以及学生学习效果的测评提供基础性的理论支持。


核心素养的认知诊断测评的案例分析

认知诊断中属性建构是整个测评的基础。本研究以数感为例进行案例分析,将数感分为9个认知属性[15]——A1:理解整数的基本含义;A2:理解分数和小数的基本含义;A3:数字的多元化表示;A4:理解整数的相对和绝对大小;A5:理解分数的相对和绝对大小;A6:整数运算;A7:分数、小数的简单运算;A8:分数、小数的复杂运算;A9:整数的应用。数感的认知诊断属性模型如图2所示。按照理想测量模式对属性考查的要求形成了测评工具,其部分测试样题如表3所示。

未标题-7.jpg

图2  数感的认知诊断属性模型


表3  数感认知诊断测试样题(部分)

未标题-8.jpg


本研究依据规则空间模型建立的序偶[(θ,ζ)]规则,计算出纯规则点(θXi,ζXi);依据被试测量的实际数据,计算出实际反应模式对应的序偶(θXi,ζXi);使用马氏距离衡量学生实际反应模式的点与理想反应模式的纯规则点之间的距离,其主要的能力值θ和对应的掌握模式如表4所示[16]


表4  数感的认知诊断分类结果

未标题-9.jpg


表4显示,三年级学生主要掌握了A1、A2、A3、A4和A6属性,并且这些掌握模式对应的能力值相对较低。四年级学生进一步掌握了A5和A9属性,并且对应的能力值也有所增加。五年级学生几乎掌握了所有的属性,并且在θ=5.48、θ=3.62等高能力的掌握模式上占据较大的比例。针对不同水平的学生,可以制定个性化的补救方案,如对于只掌握A1和A2的学生,补救途径可以是A3→A4→A5→A6→A9→A7→A8或A4→A6→A9→A3→A5→A7→A8。在第一种补救方法中,学生首先了解数字的大小,然后掌握整数的运算和应用,最后掌握分数和小数的运算;而在第二种补救方法中,学生首先提高对整数的数感,然后提高对分数和小数的数感。


启示与讨论

1 启示

(1)认知诊断测评使核心素养的测评从理念性的描述转化为实践性的操作

到目前为止,学习测评的观念发生了两次重要改变:第一次是由“对学习的评价”到“为了学习的评价”;第二次是从“为了学习的评价”到“评价是学习的一种方式”[17]。评价理念的变化,要求核心素养的评价要突出学生本身在学习中的主体地位和作用,能够制定个性化的评价方案和策略。然而,现有核心素养的评价标准仅停留在对认知水平的描述阶段,是一种表现性的标准,这种标准是学生被划入相应类别所需的特定表现(包括知识、技能和能力等)的最低水平描述[18],其评价的结果主观性太强,故难以提出可操作的培养措施和补救措施。核心素养的认知诊断测评将评价的目标整合到测评体系中,依据学生行为能力表现推测学生素养水平,可实现通过外在表现推测内隐特征的目的。这种评价将学生的素养水平按照不同的理想掌握模式进行细分,并给每种掌握模式制定了个性化的补救方案。可见,认知诊断测评技术可将笼统的核心素养评价更加清晰化,为核心素养评价并通过评价促进核心素养的培育起到了重要作用。


(2)核心素养的认知诊断测评兼具形成性评估和终结性评估的特点

核心素养是一个人在某个方面的关键能力和重要品质,具有高度的抽象性和综合性,因此其评价需要关注整合性,不宜碎片化。但是,由于核心素养的内隐性和综合性特征,在如何评价、培养学生的核心素养方面存在很大困难,因此核心素养的评价还需要进行形成性评估。如PIAS中核心素养的评价既能够通过作答反映学生在思维品质上的差异,也可关注学生的个性化发展和创造性表现,有利于对学生进行个性化诊断[19]。核心素养的认知诊断测评可以得到每一个学生的诊断报告,发现学生在学习中存在的问题,以及在全体学生中所处的水平,从而有针对性地提出补救的方案和路径。在终结性评估方面,通过测评可以得到核心素养的学习进阶,进一步为培养核心素养提供合理的路径和策略。学习进阶是修订课程标准、编写教材、进行教学与学习评价的重要基础,为整个教育教学的发展提供了有效支持。认知诊断精细的过程性、个性化测评特点,为核心素养的测评提供了抓手;认知诊断对整个认知规律和学习进阶的把握,则为核心素养的测评指明了发展方向。


(3)认知诊断测评为核心素养的计算机自适应测评奠定了基础

学习测评发展的趋势是走向计算机自动化。“互联网+”时代的到来,给信息、通讯和技术(ICT)在学习测评中的应用提供了巨大的发展空间。美国的ICT测评技术已经开启了从“明确考试的范式”到“嵌入式评价范式”的转变。在“明确考试的范式”中,测评强调精准测查学生的学业表现;在“嵌入式评价范式”中,测评强调有针对性的及时反馈[20]。可见,学习测评技术的自适应性具有传统测评所缺乏的众多优点,核心素养测评走向计算机自适应化是测评发展的必然趋势。目前,PISA和NAP-SL测试都已全部使用计算机自适应测评进行学业测评。而认知诊断理论作为计算机自适应测评的重要理论,为计算机自适应测评起到了基础性的支撑作用。核心素养的认知诊断测评,也为核心素养的计算机自适应测评提供了前提条件。现有的学习测评分析工具可通过学生的在线学习和测评,将结果以可视化的形式呈现给学生,帮助学生分析学习过程中存在的问题,促进反思,调整学习策略[21]。未来核心素养测评可以通过数字化工具和大数据、云计算等技术,将心理测量模型和具体的学科核心素养无缝嵌入到学生的学习和测评过程中,对学生的学习过程进行动态监测,以促进学生更好地学习[22]


2 讨论

无论是个性化的学生特征分析、综合性的学习进阶制定,还是计算机自适应测评的理论准备,核心素养的认知诊断测评都具有明显的优势。与此同时,核心素养的认知诊断测评也存在有待改进的空间:①认知诊断测评理论强调的是对核心素养的具体化。由于核心素养的抽象性和内隐性,“个体所具备的核心素养及其水平,必须借助于他们在具体任务中的实际表现加以推测”[23]。但核心素养的具体化并不意味着测评只关注局部而不考虑整体,更不可将评价碎片化,应该在具体与抽象之间保持“精妙的平衡”[24]。②认知诊断的测评基本上都是以0或1的二元状态评分,这使得测评试题的编制有较大的局限。核心素养的测评关注课程学习的“真实性学业成就”,而真实性学业成就不只是习得事实性的学科知识和概念,而是能够运用这些知识或概念解决复杂的现实性问题[25],因此核心素养需要有一定情境化、整合性和开放性的评价任务——当然,随着认知诊断测评的多级评分模式的成熟,这一问题可能会得到较好的解决。此外,认知诊断测评对技术的要求较高,故在测评的广泛普及方面会受较多的限制,这就需要专业人员开发具有普适性的核心素养的认知诊断测试平台,为更多人员参与测评提供技术服务。