科学化的题库怎样建设？这是一个可以参考效仿的样例

按：今天，许多人在致力于建设科学化的题库。什么样的题库才能算科学化的题库？建设题库的难点不是堆积试题和将试题数字化，而是在题库生成的试卷分数之间建立可比性。如果题库中生成的试卷分数之间不具有可比性，就不能算是一个科学题库。这里，是一个可以参考效仿的样例。这是发表在《中国考试》2023年第12期的文章。

这项考试是一个正式的国家级高利害性大规模考试。这个题库对所有的题目都进行了描述性参数和统计参数的标定；对所有题目的分数都以IRT双参数模型进行了等值处理；所有题目的IRT难度和区分度被标定在一个统一量规之上，具有可比性；描述了所有题目的基于IRT的信息量；对试卷中的题组（testlet）题目的题组效应进行了统计检验。这个题库反映了我国在追求考试科学化方面已经达到的水平。

作者

任杰，北京语言大学语言科学院副教授；

黄金娜，北京语言大学语言科学院在读研究生；

杨翊，北京语言大学语言科学院助理研究员；

彭恒利，北京语言大学语言科学院教授，博士生导师。

摘要：民族地区国家通用语言测验题库的创建是一个系统工程。首先，制定了题库的描述性参数体系，并系统性地标注所有试题。该体系主要包括试题测查能力和试题文本两个主要维度。在能力维度上，参数从低到高被细分为理解、应用和分析三个层次。在文本维度上，主要从试题的主题、语体和功能3个角度进行标注；其次，对比研究了项目反应理论各种模型和等值参数转换方法，确定本研究最优的IRT统计参数估计模型和等值方法为Logistic双参数模型和同时校准法，等值方法使得试题的IRT统计参数能够统一量表。最终构建的题库由50 多套试卷的试题及其描述性参数和统计参数构成，涵盖了测验所需测查的各种能力和文本，可以保证测试的有效性。同时，题库中IRT试题的区分度平均数较高，能够有效地鉴别被试的能力水平。试题的平均信息量较大，测量误差较小，能够保证被试测量的高精度和测试的高信度。

关键词：测验题库；描述性参数体系；等值

1 题库建设背景

国家通用语言在民族地区的推广普及，是铸牢中华民族共同体意识的基础性工程，是促进少数民族地区经济社会发展的重要途径。国家通用语言测验是衡量民族地区国家通用语言文字教育质量的重要环节，而其题库建设对于保证测验的信度和效度至关重要。以往，测验组卷大多采用人工选择的方式，这种方式依赖于组卷人的经验，试题的内容、难度和所测语言能力等方面的平衡性主要靠人为控制，缺乏定量的数据支撑，不同试卷之间的等值性较差。随着计算机技术的飞速发展，基于参数的计算机自动组卷可以做到更加科学、定量且全面，但其前提条件是能够将试题以各种维度的参数准确客观地加以描述、以构成可供计算机自动选题的科学化题库。

科学化题库中的试题参数通常可以分成两类：一是统计参数，即试题的难度、区分度、字数、等级词数等量化指标，这些参数可以在测验实施后通过对所得数据的统计分析而得到。等值是构建科学化题库统计参数的关键技术，可以将来自不同试卷、不同群体的被试数据估计出来的基于项目反应理论（Item Response Theory，IRT）的试题难度、区分度参数置于同一个量表，使统计参数具有了可比性。二是描述性参数，主要包括试题的主题、所测语言能力、功能和语体等描述性信息，它们反映了试题内容、所测能力等方面的信息，很大程度上决定了测验的有效性，在整个题库的参数体系中处于核心地位[1]。尽管描述性参数的意义重大，但这些参数的系统化构建殊为不易，需要先根据测验的特点制定合理的描述性参数体系、再进行大规模计算机辅助的试题标注。这个过程虽然需要耗费大量的时间和精力，却是建设科学化题库必不可少的关键环节。

中国少数民族汉语水平等级考试（MHK）是专门测试民族地区母语为非汉语的少数民族汉语学习者汉语水平的国家级标准化考试。本研究利用MHK（三级）中的95道客观题以及50 多套试卷的实测数据作为构建国家通用语言测试题库的素材，深入探讨了构建科学化题库的核心技术和方法。MHK（三级）的客观题由听力理解（40道题）、阅读理解（40道题）和书面表达（15道题）3个分测验构成，9种题型包括听力理解的单轮对话、多轮对话和语段，阅读理解的拼音题、选词填空和篇章理解，书面表达的关联词语、句子成分排序和句子结构判断[2]。题库构建分两步进行，首先，依据Bloom的教育目标分类理论，参考考试大纲、试题细目表和试题特征，确定描述性参数体系，并对近4 000道试题进行系统性标注。其次，通过研究对比，确定了IRT统计参数估计的模型和等值方法，将50多套试卷试题统计参数进行估计并导入题库。

题库的成功构建具有以下3个方面作用：一是测验组卷将更加科学高效。通过计算机自动生成高质量的测验试卷，可以避免人工组卷的主观性和局限性，提高试卷的客观性和质量。二是有助于计算机自适应测试系统的研发。基于描述性参数体系和统计参数，可以开发计算机自适应测试系统，能够根据被试的能力水平自动选择试题，提高测试的针对性和效率。三是有利于研制带有认知诊断功能的分数报告。通过描述性参数标注生成更加准确和详细的分数报告，包括被试的知识点掌握情况等信息，有助于提升考生学习的针对性。

2 题库的描述性参数体系的构建与标注

构建题库试题的描述性参数是为了能够按照题型、考查的语言能力和测量的文本内容来抽取试题、组成试卷，以便准确测量被试能力，保证测验的有效性。这部分研究的难点和重点在于制定描述性参数体系，以及之后进行大规模计算机辅助的试题标注。

研究的流程分为以下4个步骤：一是系统梳理国内外的相关文献，文献包括宏观的汉语（国家通用语言）学科体系理论、国际中文教育的学科体系理论、语言参考标准，也包括具体的考试大纲、命题细目表、语言等级量表、HSK（高等）和HSK（初、中等）等现有题库的标注原则等；二是确立描述性参数体系的建构原则；三是制定描述性参数体系和标注内容，尝试标注，邀请专家进行讨论、分析，逐步完善描述性参数体系；四是编写计算机辅助标注程序，培训标注人员，完成试题描述性参数标注，实现试题入题库。

2.1描述性参数体系的构建原则

根据测验的特点，本研究确立的描述性参数的构建遵照3个原则：一是信息涵盖性。确保描述性参数能够全面、准确地描述试题信息，同时又具有标注的可操作性，方便进一步的计算机自动组卷和具有认知诊断的分数报告，提高测试的准确性和效率。二是题型针对性。针对不同题型，可以量身制定不同的描述性参数，标注不同信息，全面描述试题的特征。三是测验导向性。描述性参数的标注以服务组卷和测验为目的，因此在确定参数的过程中没有直接考虑教学方面的因素。换言之，本研究建构描述性参数体系是为了建设题库，实现试题有序入库和计算机自动组卷，并为认知诊断提供依据。

2.2 描述性参数体系构建

本研究将描述性参数划分为测查能力维度和试题文本维度两部分，这样可以更加清晰地呈现试题的特征和考查目标，有助于提高测验的效度。

2.2.1 能力维度参数

作为一项语言测验，其核心目标是对各项语言能力的测查，因此，从能力维度对试题进行全方位描述是本参数体系的重点。只有对被试实施了旨在考查各种能力的测试试题，测验分数才能真正反映这些能力，从而确保测验的有效性。这部分主要是参照Bloom教育目标分类理论来进行的。该理论把认知目标由低到高分为6个类型，分别是识记、理解、应用、分析、综合和评价。每个层次又包括若干子类别。6个认知目标可以被视为能力从低到高的6个层次 [3-4]。以Bloom分类学为代表的教育目标分类理论虽然有其局限性，但该分类方法易于理解且具有可操作性，因此不少学者以此为依据划分测验所考查的语言能力层次。杨翼认为HSK(高等)的试题所考查的能力层次相对较高，参照Bloom的分类方法将其划分为理解、分析、应用和综合4个层次，每个层次下又包括若干子类别。例如，“分析”这一层次中包括把握作者的态度、感情倾向、人物之间的关系和语体风格等[1]。张凯则认为汉语水平考试HSK（初中等）主要测试的是理解和应用两大类技能，其中理解性技能下含有6小类二级技能，应用性技能下含有推理和猜测两小类技能[5]。张所帅认为PISA阅读所测的能力分为理解、运用及反思3类[6]。在建构语言能力参数框架时，中国英语等级能力量表将语言理解能力划分为识别与提取能力、概括与分析能力、批判与评价能力[7]。总的来说，由于不同的测验有不同的考查对象和目标，各个测验划分出了不同的能力层次结构。

针对本研究测试对象主要是具备1 200~1 600学时现代汉语正规教育背景的学习者[2]，根据测试目标和对象的需求，参照试题难度参数，研究将测验试题所测查的能力划分为由低到高的理解、应用和分析3个层次，基本符合测试目标和对象的要求。每个层次又进一步划分若干子类别，具体的分类、定义和示例见表1。

理解能力指的是考生将新知识与已有知识进行关联的能力[3]。根据试题的具体内容，本研究将理解能力细分为解释、推断和总结3种能力。在应用能力的范畴，本研究只标注了实施能力。分析能力可以进一步细分为区别、组织和归因3种能力。

2.2.2 文本维度参数

本研究构建的描述性参数体系的第二个维度是文本维度。MHK（三级）试题均以长度不等的文本形式呈现，文本是试题的一个重要属性。对文本进行参数标注，可以保证测试中需要测量的所有文本内容都被均匀地涵盖，而不是集中于少数几种，这样一来，测验分数就能基于所需测量的文本内容得出，从而保证了测验的有效性。在归纳总结文献基础上，根据具体的试题特点，同时为了便于日后计算机组卷和自适应测试的使用需求，研究认为文本维度参数的标注可以从主题、语体和功能3个方面入手。根据题型的文本特点，研究对每个题型的标注进行如下调整：一是听力的单轮对话、多轮对话的文本参数标注主题（交际）、语体和功能；二是听力的语段、阅读分测验的文本参数标注主题（语段）与语体；三是书面表达分测验的文本参数只标注语体。

1）主题

在语言运用中，人类的对话、思考或写作都以特定的主题为核心。在本研究中，根据题型特点，主题被分为交际主题和语段主题两类，主要针对听力、阅读题型进行标注。一是交际主题。交际主题是谈话的主题，根据试题的实际情况，将交际主题分为生活、学习、工作和其他四类。听力题型的单轮对话和多轮对话都属于这类主题。二是语段主题。语段主题是指在一段文字中始终围绕的中心话题或主题，针对听力语篇和阅读分测验中的文章。根据语料内容，本研究归纳出人物、文化、科学、社会生活、个人生活以及其他六大类语段主题。

2）语体

语体指的是人们在各种社会活动领域，针对不同对象和环境，使用语言进行交际时所形成的表达体式。在所有题型中，本研究都需要标注语体。这些语体可以分为口语语体和书面语体两大类。一是口语语体。口语是指用于非正式场合或日常对话的言语，其语法结构相对简单，句子较短。在本测验中，只有听力部分的单轮对话和多轮对话的文本采用了口语语体。二是书面语体。书面语的语法结构较为严格，句子较长，结构严谨。在书面语语体参数下，还包括记叙文、说明文、议论文、应用文、文学等几种二级参数。

3）语言功能

语言功能是指语言在使用中所发挥的作用和功能，是语言的基本属性之一。在标注语言功能时，研究主要针对的是听力的单轮对话和多轮对话。根据欧洲语言共同参考框架（CEFR）的微观交际功能分类[8-9]，研究将语言功能划分为提供和索取信息、表达态度以及让别人做（建议做）3大类。一是提供和索取信息功能。指说话者通过传达信息或请求信息来满足听话者的信息需求，包括提供事实信息、解释概念、描述事件、分享观点以及索取信息（询问问题、请求建议、寻求帮助）等。二是表达态度。是指说话者表达自己的情感、观点、态度或立场，包括表示喜欢或不喜欢、肯定或否定、赞成或反对、感谢或道歉等。三是让别人做。指说话者试图通过话语使听话者执行某种行为或建议其做某事，包括给予命令、提出建议、请求行动、表达愿望等。

2.3 描述性参数的标注

在确定描述性参数体系后，下一步工作是根据参数体系对所有试题进行参数标注。为了确保标注的准确性和一致性，研究编写了计算机程序以自动或辅助人工标注。同时对标注人员进行培训，使其了解标注内容和原则，并熟悉该程序的使用方法。此外，研究还整理出所有电子版的试卷和锚题（共同题）对照表等资料，便于使用和核对。

正式标注工作共分为4个阶段：一是将50多套试卷的试题导入题库，以试题为单位进行存储；二是利用计算机程序自动标注锚题、题组题（Testlet）、题型、试卷号和题号等信息；三是利用计算机程序自动标注一些规则明确的能力和文本参数；四是利用计算机辅助人工标注其余一些参数。标注界面见图1，示例为样题。

3 题库的统计参数体系研究

构建题库试题的统计参数，是为了能够按照所需的试题难度和区分度来抽取试题，组成某种难度的试卷，以准确测量学生能力，保证测验的信度。等值是构建题库统计参数的关键技术，它可以将来自不同试卷、不同群体的被试数据估计出来的基于IRT的试题难度、区分度参数置于同一个量表上，使统计参数具有了可比性。而基于经典测量理论的等值无法做到试题层面的等值，它只能实现试卷间的难度大致平衡。

3.1 IRT参数估计模型与等值方法

等值需要在编制试卷时预先规划好等值方案，或在试卷中埋入共同题，或采用共同组等值设计。MHK（三级）每份试卷均采用共同题非等组锚题等值设计方案，共同题数量约占全卷试题总量的1/5。在等值研究中，首先需要判定是否满足等值前提条件，只有满足等值条件，结果才更加可靠。研究从标准卷和新卷的构念、难度和信度等方面进行检验。从试卷内容上看，构念相同；从因素分析上看，也满足考查的潜在能力主要负荷在一个因素上，数据满足单维性的要求，可以使用IRT模型进行参数估计，也符合等值“构念相同”的前提。从难度、信度来看，在各分测验及整卷间的难度、信度均较为接近，满足测验等值的难度、信度研究要求，具体可参见周成林和黄金娜的研究[10-11]。其次，研究采用Logistic单参数和双参数2种模型，独立校准、固定共同题参数校准和同时校准法3种参数校准方法，共6种组合模式，进行深入研究。最后，研究采用了等值系数标准误、共同题参数稳定性、等值分数标准误、数据模型拟合和原始平均分的等值分数差异5种结果评价方法，对以上6种组合结果进行了评价。综合考虑各种因素，再结合信息量，研究最终选取了Logistic双参数模型下的同时校准法（concurrent calibration）作为MHK（三级）IRT题库建设的等值方法，具体参见周成林的研究[10]。

3.2 题组效应

运用项目反应理论估计参数、等值时，需要满足局部独立性假设。虽然上述数据分析表明本研究的数据满足单维性的要求，但单维性和局部独立性并不总是一致的 [12]。鉴于MHK（三级）很多试题属于题组题（Testlet），即多个试题拥有同一个题项，试题间往往存在一定的局部依赖，所以研究必须考查这是否会影响IRT参数估计等值的可靠性。目前业界比较认可的方法就是将题组效应，即题组内试题之间的依赖程度参数化，进而建立一种新的测量模型——题组反应理论模型（Testlet Response Theory, TRT） [13-14]。为此，研究又进行了题组反应理论的等值研究。

题组反应理论模型是通过将题组效应引入IRT的Logistic单、双和三参数模型而建立的。当题组效应为零时，题组反应模型会变为相应的项目反应模型。一般认为，题组效应小于0.25时可忽略不计，在0.25-0.5之间题组内各项目间相互依赖性较小，在0.5-1.0之间题组内各项目间相互依赖性较大，题组效应大于1时题组内各项目间相互依赖性非常大。研究使用SCORIGHT 3.0软件，对标准试卷和多套新试卷进行参数估计与等值，采用IRT的Logistic双、三参数模型和TRT的Logistic双、三参数模型，共4种模型与独立校准、固定共同题参数法和同时校准法3种参数校准方法进行参数估计与转换；然后，根据收敛度指标、各参数的分布范围及其标准误、项目交叉检验标准和共同题参数稳定性4种标准对各种等值结果进行评价，并选出IRT和TRT中较优的组合。研究在TRT参数估计中，使用了马尔可夫链蒙特卡罗（MCMC）算法，设定5条马尔可夫链估计参数，每条链进行5 000次迭代，抽取间隔为10，保留后1 000次迭代作为参数估计的后验分布[11]。

MHK（三级）每套试卷95个试题，一般有20个题组，约占全卷试题的60%，题组题分布在听力和阅读分测验[2]。研究结果表明，以分测验为单位，双参的题组反应模型和同时校准法的组合结果最好；等值后的题组效应值几乎均在0.5以下，大部分题组效应低于0.25，可以忽略不计。这表明考生在作答题组题时，所受到的题组间项目依赖程度较低。因此研究可以放心地使用IRT模型。这一结论也与周成林和黄金娜的研究一致[10-11]。

3.3 统计参数估计和等值

基于以上的研究，在参数估计和等值参数转换时，研究采用了IRT的Logistic双参模型和同时校准法。至此，题库中试题的统计参数可以确定为基于IRT统一量尺的试题难度和区分度、IRT信息量、基于CTT的难度、区分度以及字数、等级词数等指标。

为了将50多套试卷的锚题分布和被试作答数据进行整理、参数估计和等值，并最终将试题参数导入题库，本研究编写了一些程序。估计统计参数流程大致为：1）数据准备。将新试卷和标准试卷的被试作答文件和锚题对照表调入程序，生成参数估计和等值所需要的数据；2）参数估计和等值。采用IRT的Logistic双参模型和同时校准法进行参数估计和等值。在此过程中，使用了Parscale软件与R语言两种系统估计参数，结果表明，二者难度差不多，R的区分度略高，因此最后采用R语言；3）结果提取和参数导入题库。在此过程中，需要对IRT难度参数的奇异值进行处理。最后将这些试题参数整理并导入题库。

4 题库构建

适用于计算机自动组卷和计算机自适应测试系统的科学化题库，在历经两年的设计和构建之后，已经成功地投入使用。该题库由50多套试卷的试题构成，除去锚题，题库试题数量最终为3 780道题，3个分测验试题数分别为1 622道题、1 619道题和539道题。尽管从规模上讲并不是特别庞大，但对于单一维度的语言类测试而言，已经比较丰富。更重要的是，因为每份试卷均埋设了锚题，本研究通过等值技术，成功地将基于IRT的试题难度和区分度参数统一在同一个量表上。这是目前国内大多数题库还无法实现的重要成果。

4.1题库结构

该题库的结构主要包括试题、试题描述性参数、试题的基于IRT与CTT的统计参数和自适应测试/组卷抽题用的信息参数4个主要部分。

1）描述性参数包括：能力1、能力2、主题1、主题2、语体1、语体2、功能1和功能2等。

2）基于IRT与CTT的统计参数包括：IRT难度、IRT题组难度、IRT区分度、IRT题组区分度、IRT最大信息量、IRT最大信息点、CTT通过率、CTT双列和CTT点双列等。

3）自适应测试/自动组卷抽题用的参数包括：标记1、标记2以及信息总量、信息量1- 12 （不同能力点）等。

4）试题及其他参数包括：试题号、题组号、试卷号、分测验、题型、题组题数、锚题否、锚题号、试题内容、答案、试题长度、等级词数和超纲词数等。

4.2 描述性参数的汇总

题库中标注的描述性参数汇总如下。从测查语言能力维度来看，MHK（三级）需要测查的各种能力都有相应的试题覆盖，其中解释能力的试题最多，应用实施能力其次，另有9个试题无法归类。从文本维度的主题视角来看，需要测查的各种主题都有相应的试题覆盖，其中交际主题与生活相关的试题最多，语段主题的分布相对较为均衡。从文本维度的功能视角来看，需要测查的各种功能都有相应的试题覆盖，其中陈述功能的试题最多。从文本维度的体裁视角来看，需要测查的各种体裁都有相应的试题覆盖，其中口语语体的试题最多。在书面语体中，说明文占据了首位，其次是叙事的记叙文，只有1个试题无法归类。总之，该题库中的试题涵盖了MHK（三级）需要测查的各种能力和文本，可以保证测试的有效性。

4.3 基于IRT的统计参数的汇总

对题库中的IRT统计参数的汇总见表2。从表中分测验和整卷的数据可以看出：1）IRT难度平均值均为负，这表明题库中的试题整体偏向容易。IRT难度值越低，对应的试题越容易。2）IRT区分度平均值均大于1，说明题库中的试题具有较高的区分度，能够有效地鉴别被试的能力高低。3）IRT最大信息量平均值均高于1，甚至书面表达的IRT最大信息量平均值高达2以上，这说明试题平均信息量比较大，测量误差就较小，能够保证被试测量的高精度和测试的高信度。

5 结语

在民族地区推广普及国家通用语言的重要性不言而喻，而构建一个科学化的国家通用语言测验题库是实现这一目标的重要举措。本研究利用中国少数民族汉语水平等级考试（MHK）（三级）中的95个客观题以及50 多套试卷的实测数据作为构建题库的素材，深入探讨了构建此类题库的核心技术和方法，成功创建了MHK科学化题库。

题库创建不仅是一项系统工程，同时也充分体现其科学性、专业性和精准性。由于科学化题库的创建技术具有普遍适用性，本研究成果也可以为其他类似测试和评估提供有益的参考。

参考文献

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。