您现在的位置:  中国教育科学研究院 >> 教育研究 >> 学术动态  

我国基础教育质量监测与评价的现状与趋势


作者:赵 茜 辛 涛 刘雨甲   2017年11月03日


                     我国基础教育质量监测与评价的现状与趋势

               ——第二届“中国基础教育质量监测与评价”学术年会综述    (2017年第9期)

                              赵 茜 辛 涛 刘雨甲

  北京师范大学中国基础教育质量监测协同创新中心举办的“中国基础教育质量监测与评价”学术年会是该领域成果集中展示的平台。2016年12月17—18日,第二届学术年会在北京师范大学举办,受到学术界和实践界的广泛关注。上千人通过多种方式参会,同时,国际顶尖学者也积极参与,凸显这一领域的国内外影响力。本文依托该年会报告,讨论我国基础教育质量监测和评价领域的理论发展和实践水平。

  一、基础教育质量监测工作蓬勃开展

  近年来,国家层面出台了系列政策规定,推动并保障了基础教育质量监测工作的开展。《深化教育督导改革转变教育管理方式的意见》(国教督办〔2014〕3号)明确了评估监测作为教育督导的重要职能之一,各级教育质量监测工作蓬勃开展。基于此,与会学者就我国基础教育质量监测工作的开展状况进行了全面总结和讨论。

  (一)国家义务教育质量监测工作持续开展

  作为国家义务教育质量监测的实施单位,教育部基础教育质量监测中心研制了义务教育质量监测指标体系,开发了义务教育学生学业质量监测工具,建设了规范的监测流程和标准。2007—2014年,该中心开展了八轮义务教育质量试点监测。2015年《国家义务教育质量监测方案》(国教督办〔2015〕4号)(以下简称《方案》)从监测目的、学科领域、内容、对象、周期、组织实施等方面对我国义务教育质量监测进行了布局。截至2016年年底,全国实施了两次正式监测。(见下表)

1 国家义务教育质量监测基本情况表

监测年份

试点监测

正式监测

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

监测内容

数学、心理健康、相关因素

数学、科学、相关因素

英语、体育、相关因素

数学、科学、心理健康、相关因素

数学、体育、心理健康、相关因素

数学、体育、相关因素

数学、体育、相关因素

语文、艺术、相关因素

监测样本省

浙江、

湖北、

陕西

上海、山东、广东、河南、湖北、海南、甘肃、贵州

辽宁、

重庆、

陕西

天津、辽宁、浙江、安徽、湖南、海南、四川、云南

北京、河北、吉林、福建、广西、江西、重庆、西藏、青海、宁夏、新疆兵团

全国31省(市、自治区)、新疆兵团

全国31省(市、自治区)、新疆兵团

全国31省(市、自治区)、新疆兵团

全国31省(市、自治区)、新疆兵团

全国31省(市、自治区)、新疆兵团

监测样本量

县区

(个)

15

50

30

79

97+7

254+17

104+13

106+17

323

325

学校

(所)

295

900

450

1 398

1 675

4 913

1 939

1 950

6 476

6 527

校长

(名)

295

900

450

1 398

1 675

4 868

1 926

1 911

6 476

6 527

教师

(名)

0.03

0.6

0.4

0.9

0.6

4.9

2.0

1.9

6.5

7.0

学生

(名)

1.4

3.5

1.9

5.7

6.4

1.9

8.2

6.3

19.1

19.2

覆盖样本年级学生人数

391

1310

272

920

795

全国四、八年级学生

全国四、八年级学生

全国四、八年级学生

全国四、八年级学生

全国四、八年级学生

  

 全国监测规模巨大,经过严格、科学的命题、标准划定、问卷编制、PPS抽样、监测实施、数据统计、报告撰写等环节,积累了大量的数据,反映了全国义务教育质量及其影响因素状况。根据《方案》要求,国家义务教育质量监测报告即将公开发布。国家监测工作与国际接轨,在一些关键技术上已经处于国际前沿和先进水平。与会者指出,我国国家监测中的多题本设计,充分总结和借鉴了如国际学生评估项目(PISA)、国际数学和科学成就趋势研究(TIMSS)、美国国家教育进展评估(NAEP)等相对成熟的监测评价项目中的题本设计、题组结构及数据处理方法。此外,国家监测的抽样方法、数据分析等关键技术均与PISA、TIMSS、NAEP等项目相一致。

  有学者指出,对照已开展多年国家监测工作的美国、英国等的情况,我国在监测报告种类的多样化、监测机构分工的细化、监测报告的公布及应用和监测数据的公开使用等方面仍有很长的路要走。除义务教育质量监测之外,学前和高中教育质量监测正在研究和酝酿。

  (二)全国基础教育质量监测网络基本形成

  截至2016年底,全国有25个省级单位成立基础教育质量监测机构。同时,地级市监测机构不断建立,如台州市、苏州市等;区县级监测机构也逐步建立,如上海市普陀区、杭州市上城区等。加上教育部基础教育质量监测中心作为国家级监测机构,全国已经初步成立四级监测机构,基本形成监测网络。从各级监测机构的关系来看,上级机构对下级机构并无实际行政隶属关系,只存在业务指导关系。机构之间的专业联系方式,避免了官僚化,有利于监测机构的专业化和技术更新,有助于监测工作的公平公正。

  针对目前我国区域监测机构设置和队伍建设的状况,有学者指出,各地总结探索成果的同时,也应看到其中存在的专业性不强、监测的科学性有待提高等问题。首先,在机构设置上,多数监测机构并非专门设立,职能定位模糊,边界不清。以省级监测机构设置为例,其多是利用原有的机构和人员,新增职能,在省教研室、教科院/所、评估院、考试院、课程教材发展研究中心等加挂牌子成立,或是在现有教研机构下设一个科室,新建的机构(或依托高校挂牌成立的机构)数量较少。因此,多数机构工作任务庞杂,机构运行机制不明确,近半数省级机构难以有效开展省域基础教育质量监测。其次,专职人员力量不足。监测机构的工作人员同时承担多项工作,无法有力推进监测工作;即使采用借用、聘请人员和外包任务等方式,因经费有限,效果不佳。再次,专业基础薄弱,专业人员缺乏。依靠目前个别高校培养出的硕士以上的专业人员,数量和规模远不能满足现实需求。多数监测机构工作人员缺乏教育测量与评价的专业知识和技能,缺乏持续、系统的专业技术指导,命题、标准划定、数据分析等关键技术在省级监测中提升困难。

  (三)地方基础教育质量监测模式构建

  各地积极探索适合当地的教育质量监测开展方式,初步形成了三种模式。

  一是地方购买国家监测服务的模式。与会学者主要介绍了广东省、安徽省合肥市包河区的案例。在2016年国家监测中,除325个样本县区之外,128个县区自愿购买服务有偿参加了国家监测。其中,广东省全部地市及县区全部参与了国家监测,基于我国最先进的监测体系获得数据并深度挖掘,省内每个区县都将获得有针对性的监测报告。安徽省合肥市包河区自2011年以来连续五年参加国家义务教育质量监测。依据监测结果,建立多种改善机制,促进区县在校园文化建设、教师结构性调整、校际均衡、学生身心健康等方面的全方位发展。该模式有力地避免了地方监测机构专业化不足的弊端,购买国家监测中专业监测部分的服务,地方机构可以集中力量将工作重点放在监测报告使用、促进教育质量提升上。

  二是地方自主实施监测的模式。与会学者介绍了重庆市、浙江省台州市的案例,指出该模式是由地方监测机构开发自己的监测工具,实施有针对性的地方监测。浙江省台州市针对当地教育中的实际问题及需求,将区域基础教育质量监测工作的重点落脚于影响教育发展的因素上。通过数据诊断问题,分析成因,探索区域教育改革的策略,为地区、学校、教师等多方位的教育改进提供支持和服务。重庆市在监测技术改进方面取得进展,建立了包括数据采集系统、实时管理系统、结果反馈系统的基础教育质量监测信息化平台,开发了具有自主知识产权的监测相关软件,简化了工作任务。该模式基于这些地区拥有考试评价方面深厚的研究基础,其基础教育质量监测机构专业力量较为突出,有能力单独开展技术开发和实施。该模式的最大特点是能够针对地方实际开展监测,有针对性地展现和解决当地问题。

  三是委托第三方实施监测的模式。与会者以河南省为例,介绍了河南省建立民办非企业机构,将监测工作委托给省级第三方教育评估专业机构——河南省教育评估中心。该模式有利于推动监测实践的专业化和研究的深入开展,是“管、办、评”分离的教育管理方式的重要探索。

  二、基础教育质量监测与评价研究较为深入

  教育质量监测与评价是一个综合性、交叉性和实践性突出的研究领域。从研究角度看,我国基础教育质量监测与评价领域已经聚集了一批教育政策、教育评价、教育与心理测量研究的学者,学科群逐渐成形。从年会报告总体来看,该领域在研究内容和方向上处于国际前沿,立足我国监测实践和本土化需求,研究较为深入。

  (一)对教育质量的认识不断深化

  教育质量内涵不断丰富,其操作化的定义也越来越全面和人本化。教育质量主要指教育的结果即学生的学业表现,并将教育的投入和过程作为影响因素进行考量。对教育质量的衡量,从主要依靠宏观性表现的几个“率”,包括各校的“及格率”、“达标率”和“优秀率”,区域的“入学率”、“巩固率”、“辍学率”、“义务教育完成率”,逐渐演变为按照学科、对照课程标准,考核学生在学业标准上的达成情况,并以语文、数学等传统“主科”为主开展监测。随后,科学等“副科”纳入教育质量的衡量范畴,学生综合性表现,如艺术素养,成为教育质量监测的重要内容。近年来,以学生的全面发展为核心的,从多个维度描述的学生核心素养,成为教育质量的重要定义。与会学者指出,总体来看,对教育质量的认识由关注整体性数字转向关注每个学生的发展;随着素质教育的不断深化,由学科中心转向学生中心。在此教育质量观的指导下,教育质量监测打破了统考统测中主要关注学生的知识掌握程度的评价模式,而更加强调学生素养的衡量,在监测内容上实现突破。会上,有学者提出要关注教育的“育人”本质,建立育人导向的评价体系和评价工具。也有学者运用“随机干预实验”等方法,研究儿童早期的健康和营养问题对农村人力资本的影响、远程教学方法对学生学业产生的影响等话题,探讨我国农村教育质量及改进的多重方式。

  (二)教育监测与评价理论不断发展

  增值评价理论、项目反应理论和认知诊断理论是教育质量监测与评价领域重要的理论支柱,这些理论的不断发展推动了评价技术方法的突破。增值评价依托多水平模型,通过利用每个个体的数据,进行组织单位的分析,分析背景因素对学生学业成绩、学校发展产生的影响,实现了在更宏大单位分析时关注每个个体的差异,同时,有力地使用监测所收集的追踪数据,反映教育的发展趋势。在年会上,有学者使用增长模型、两水平模型等分析学生成绩的长期影响因素、校长领导力对学校产生的影响等。基于我国教育地区之间以及学科之间的不均衡,有学者从主体单位、指标特性、学科异同三个角度建构了“背景因素监测框架的三维模型”。

  项目反应理论在目前的监测与评价实践中已经得到广泛应用。在监测中,使用基于IRT模型的量尺分数来报告测验结果是PISA、TIMSS、NEAP等大型监测项目及我国基础教育质量监测使用的方法。项目反应理论作为经典测量理论的改进,其模型仍处于发展阶段,由考生一项潜在特质决定考题的反应的单维项目反应理论,转向考察考生的多项潜在特质的多维项目反应理论。与会学者从离散多元分析的角度分析可用于项目反应理论的拟合指标和相关统计量,初步提出几个检验项目反应模型的方法和步骤。也有学者探讨了项目功能差异各类方法在检验多级计分项目中的优缺。还有学者介绍了在多题本设计中,使用等值技术和似真值能力估计方法处理学生作答缺失,根据学生的作答反应估计题目的参数和学生能力的前沿研究。面对考试改革中一年多考分数的可比性问题,有学者使用等值技术解析高考英语阅读测验的难度来源,构建难度预测模型,以帮助专家仅基于题目特征,而不是考生的作答分数来正确预估测验难度,控制测验难度。

  随着监测与评价观念的变化,评估不再仅仅是测量学生成绩的工具,其本身作为一种学习的过程逐渐受到强调。因而,以促进学生学习为目的的认知诊断评估技术近年来发展迅速。认知诊断理论是认知心理学和心理测量学的结合,其对测验反馈结果更加精细化,能够诊断被试的认知结构和认知过程。诊断模型不断发展,包括多项选择诊断模型、多策略诊断模型、连续型数据的诊断模型及对数线性诊断模型等。

  (三)以信息技术为基础的监测与评价技术不断突破

  建立在项目反应理论基础上的计算机自适应考试(Computerized?Adaptive?Testing,CAT),通过计算机技术的应用,能够实现根据被试的能力选择题目。因而,相比传统测试,CAT测试效率和准确性更高,在监测中逐渐被使用。近年来,CAT的扩展有多个方向,认知诊断计算机自适应测验(Cognitive?Diagnostic?Computerized?Adaptive?Test-ing,CD-CAT)将认知诊断理论与CAT结合。针对测试中题库建设这一关键环节,与会学者讨论了题目的过度曝光、新题目的在线标定等问题。也有学者从知识空间理论角度研究CAT,开发了ALEKS线上学习软件,并将其广泛应用于自然科学和社会科学等多个学科。在信息技术促进个性化学习的议题下,与会学者指出,以云计算、大数据技术和移动互联网等互联网的创新成果为代表的“互联网+”为教育带来了新的挑战,开源教育和混合教育大多并没有实现个性化的学习,但计算机自适应学习促进了个性化学习的实现。学生学习新知识后,可以通过认知诊断自适应测试,确定课程知识点的掌握情况,并通过隐形马尔科夫等模型,适时跟踪学生的能力变化轨迹。

  信息技术改变了教育质量监测工作的方式。与会学者以2016年我国首轮艺术学科的基础教育质量监测为例,讨论了此次监测所运用的基于语音识别技术的音乐表现型(演唱)测试数据采集与评分系统。这是我国首次大规模使用表现性评价方法进行大数据网络采集和自动化评分的监测。还有学者指出,通过学生画像、语文水平画像、学生社交圈画像、社交圈和学习状态耦合分析、语言学习过程画像等方式,极大地增加了数据采集的丰富性以及数据分析的深入性。此外,在2017年科学和德育监测工具编制中,学者们积极探索教师、校长问卷网络化测试的可能,研究纸笔测试和网络测试的差别,并在偏远区县完成多次预试。还有学者面对学龄前儿童学习能力评价纸笔施测不合用等情况,在物联网技术支持下,利用真实的游戏情境,整合了近场通讯、低功耗无线传输等物联网技术数据采集技术,结合认知诊断评估筛选游戏任务,实现群组评价和发展性评价。

  (四)学科群的研究方向逐渐明晰

  在包括北京师范大学教育学部、北京师范大学中国基础教育质量监测协同创新中心、江西师范大学教育学院等单位的多年努力下,围绕基础教育质量监测工作,该领域初步聚焦了教育政策评估、学科测评、测量学三个研究方向。这三个方向的发展,为教育质量监测与评价学科群的建立奠定了基础。教育政策评估,就基础教育质量及相关政策进行评估并提出改进建议。学科测评,从语文、数学、艺术等不同学科角度,对学生发展进行评价,反映教育质量。测量学,从方法技术角度探讨教育质量监测问题测量理论,大数据背景下信息技术的应用是近期关注的焦点。

  三个研究领域的聚焦与国际研究趋势是一致的。美国大学中排名前四的教育学院都独立设有教育质量监测领域所必需的学科。如斯坦福大学教育学院,在教育心理系设置了教育测量和统计方法两个学科,哥伦比亚大学师范学院设置应用统计、测量与评价两个学科。但在我国,设立相关学科或者方向的高校极少,专门从事教育测量、评价与统计学研究的学者较为欠缺。有学者指出,以认知诊断理论为例,目前国内能够教授该课程的学者不足百人。吸引更多研究者进入该领域是学科未来发展的使命。从研究力量来看,具有国际水平的学者数量不断壮大。华人测量学专家作为国际测量领域的中坚力量,与国内相关高校保持了紧密的联系,通过来华讲授短期课程、担任高校重要职务、接受访问学者、培养博士生等方式,以及依托“长江学者”、“千人计划”等项目,不断地培养我国测量学领域的学者,提高研究水平。

  三、基础教育质量监测与评价发展趋势与反思

  经过十年的探索,我国基础教育质量监测领域的发展已经引起了国际上的广泛关注,研究上与国际接轨,多个方面实现了理论的突破和实践的进步,在今后的发展中,以下三个方面仍需要进一步思考。

  (一)各级教育质量监测机构职能统筹

  基础教育质量监测对教育质量的诊断和追踪是一项长期的综合性任务。要探索建立适合我国国情的、为决策提供参考、为教育发展服务的良性监测运转机制,首先要避免“重复建设”。基础教育质量监测工作涵盖命题、标准划定、报告撰写等具有高度专业性的环节,若各级监测机构都同样开展这些工作,既重复浪费又不切实际,因而要加强各级机构之间的整合。与会学者针对有效促进各级教育质量监测机构的发展提出如下建设性意见。首先,要厘清国家、省、地市、县区监测网络的不同职能与定位,确定“为”与“不为”的界限。国家层面加强专业性环节的建设,地方层面不再开发新的标准、题库等,提高工作效率。其次,要提高各级监测机构的专业性。国家层面监测中心要为区域监测机构建设提供持续的技术支持与咨询服务,加大专业人才培养力度,为各地监测机构的能力建设和监测实践提供持续的技术咨询服务,并定期组织国际、国内的经验交流活动。同时,地方监测机构要积极吸纳和提升专业力量,特别是加强监测结果的解读和应用能力,提升工作的专业性。再次,要充分发挥四级监测网络的作用,重点突出加强监测结果的应用。今后的教育质量监测工作,要继续将监测结果与学校的改进联系起来,与各级教育的发展观、方式改进结合起来,将质量监测的结果应用于各级教育决策中,推动教育发展的科学化之路。在年会上,教育部基础教育二司副司长申继亮和国务院教育督导局副主任林仕梁从教育行政部门的角度强调了监测工作的重要性,反映出国家教育行政部门对教育质量监测工作的重视,凸显出国家教育决策理性化水平的不断提升。对于地方监测机构而言,要与质量保障和提升机构建立联系,加强职能整合,尤其是区县级教育质量监测部门,要将工作重点放在利用监测结果提升教育质量上。

  (二)加强利用监测数据的政策研究

  在发挥教育质量监测的质量提升作用上,政策研究起到举足轻重的作用。但目前的相关教育政策研究仍然比较薄弱,一方面,监测数据开放和使用的力度不足,以监测数据为基础的深度挖掘和研究不足;另一方面,我国传统的政策研究仍存在研究范式单一、量化研究薄弱、实践导向不强等弊端,不愿或不能使用大规模数据进行研究。随着决策理性化和民主化的不断深入,教育政策研究要进一步加强监测数据分析,为政策制定服务。对于教育监测部门和教育研究者而言,要同时加强力量。在监测数据的开放上,要增强数据的可得性和开放性。教育质量监测部门协调教育行政部门,加大数据库建设和数据释放的力度,吸引和促进更多的专业研究者进入监测数据挖掘和使用领域。在教育政策研究这一方,政策研究要着眼于利用现有的监测数据描述和解释现实问题,并运用大样本追踪、干预实验等研究方法进行更为严密深入的研究。此外,有学者还指出,需围绕监测进行扩展性研究设计,包括组合开展多种围绕单一主体的监测,将学生发展结果作为一个桥梁,对数据进行关联分析等。

  (三)以技术改进撬动考试和评价改革

  教育质量监测运用最新的理论成果,以全面的质量观考查学生发展,强调能力和素养,以最新的技术和方法准确测试学生表现。这对于目前偏重知识掌握的各类考试而言,有重要的借鉴意义。在考试和评价改革中,使用包括认知诊断理论在内的先进测量理论,由对学生的筛选和排队,转变为识别学生学习中的认知难度和错误原因,改进学习方式,推动教育公平。如何在日常教学和评价中更好地运用先进测量理论和技术是理论研究和现实推进的重难点,是推进评价改革和教育教学改革的切入点。同时,使用“互联网+”相关技术,通过在线学习、计算机自适应测试等技术方法,从机械的纸笔测试,转变为既可以进行更加个性化的学习和测试,又可以收集学生学习和评价中更多的过程性大数据的多样化测试方式,为学生学习的改进提供依据。运用大数据促进评价方式的变革是目前亟待探讨的问题。此外,在国家监测中已取得突破进展的表现性评价、真实性评价等非单一量化的评价方法,如何进一步应用于中高考改革中,也需要进一步研究。

  (作者简介:赵茜,北京师范大学中国基础教育质量监测协同创新中心、教育学部讲师,管理学博士;辛涛,北京师范大学中国基础教育质量监测协同创新中心常务副主任、教授、博士生导师;刘雨甲,北京师范大学中国基础教育质量监测中心科研助理。)