熊瑶　孙开键：慕课学生互评误差纠正方法及其比较

作者：

熊　瑶，宾夕法尼亚州立大学教育学院，在读博士。

孙开键，宾夕法尼亚州立大学教育学院，杰出教授。

原文刊载于《中国考试》2016年第1期。

摘要：学生互评是广泛用于慕课的一种评价方法，然而学生评估者本身存在比较大的评分误差。本文着重介绍和比较可用于纠正慕课学生互评误差的方法。这些方法总体分为两大类，即对学生评估者进行前期纠正的方法和对评分结果进行后期纠正的方法。文中总结的绝大部分方法目前都还没有被实际运用在慕课学生互评中。希望通过本文对慕课学生互评以及纠正学生评分误差方法的介绍，可以让更多的教育研究者参与对慕课的评价系统进行改善的研究。

关键词：慕课；学生互评；误差纠正

引言

　　近些年，大规模开放在线课程（massive open online course，MOOC，中文称为“慕课”）已经成为高等教育中的热门话题。慕课有几个主要特点值得说明。首先，它是在线课程，课程内容是循序渐进的，有规定的开课结课时间，有老师的讲义，有需要按时完成的作业和考试，以及学生的讨论等，这些都和传统的大学课程相似。它的最主要的特点是规模很庞大，具体体现在学生数量上。一门慕课平均能够吸引两万名学生。最后，慕课通常是对所有人免费开放的。不过也有一些例外，比如Udacity会对参与的学生收取每月大约200美元的学费。通常这些收费的项目也会给完成课程要求的学生提供慕课证书。　　

　　随着网络技术的发展，慕课也使学生间互动以及学生社群的发展得到更好的支持。比如，“慕课学院”（http://mooc.guokr.com/）给中国大量的慕课学习者提供了一个课外分享和交流的平台。慕课与传统的自学考试有很大的区别，慕课主要以学习体验为导向，大部分慕课学生不以拿到证书为目的，而自学考试更注重通过考试得到学位。在全世界范围内，慕课平台已经得到很好的发展。主要以英语授课的平台，比如Coursera, edX和Udacity 吸引了大量的用户群。值得一提的是，Coursera上的大部分课程内容都已被各国学生志愿者翻译成多种不同的语言，因此非英语为母语的世界各地的学生也能够顺利地进行学习。在中国，以中文授课的平台也吸引了大量的学习者，比如“慕课网”（http://www.imooc.com/）和“中国大学MOOC”（http://www.icourse163.org/）。其中“慕课网”与别的慕课平台稍有不同，它提供的课程主要是短课程，比如几个小时，并且不设定学生的学习进度。

　　慕课给高等教育带来了革新。它为所有人提供了一个免费或低费用接受高等教育的机会。慕课学生需要的仅仅是一台电脑以及畅通的网络。有人认为它也许会对传统的高等教育带来冲击，因为慕课相对于传统的课堂教育更加高效，具体体现在开设一门慕课的成本分摊到每个学生身上相对于传统的课堂教育有所减少。慕课也许为降低高等教育成本提供了一种可能。但是，同时也有学者认为慕课部分取代传统高等教育的未来还存在很多挑战，最主要的挑战是如何提供一个信效度高的评价机制对学生的学习成果进行评估。学生也许在慕课中有好的学习体验，但是现有的慕课评价系统还无法作出准确可信赖的评估。目前常用于慕课的评估方法最主要的还是机器评分，机器评分局限于客观题的评分，比如单项选择题。论文自动评分是一种更加智能的机器评分，主要应用于慕课学生的写作评分。然而，论文自动评分的算法还有局限性，它能够准确无误地指出词汇或语法的错误，却不能有效地识别写作中的修辞手法等比较高级的写作手法，因此它只能局限用于程式化的写作中，对于比较富有创造力的创作型作业的评分技术还不够成熟。另外一种常用于慕课评分的是学生互评（peer assessment），Coursera对于开放性试题和作业都是采取学生互评的方式。学生互评是一种人工评分方式，主要用于对开放性的作业进行评分。通常在传统的课堂教育中，这种开放性作业都是教师或者助教负责评分。然而在规模浩大的慕课中，教师评分工作量太大，于是学生互评成为一种可行的并被广泛应用的方法。

　　慕课中学生互评的过程通常包括几个典型的步骤。就以Coursera 上的《地图与地理空间革命》（https://www.coursera.org/course/maps）课程中的学生互评作为例子，这门课只有一次开放性作业，因此也只有一次学生互评活动。在课程的最后一周，学生运用在本课程中学到的地理知识和地图绘制技能按照教师的要求自定义绘制并上传一张富含信息的电子地图。在学生上交电子地图之后，有一段学生互评的时间，上交了自己作业的学生有权利随机给别的学生地图评分以及提供反馈意见。课程系统上，建议每个学生评6张地图，但是学生有自主权，可以选择评更多或更少。在评分完成后，学生会收到其他学生对他本人作业地图的评分结果。与其他的慕课课程活动类似，学生互评也是基于学生自愿的原则进行的。有的学生选择上交作业但是不参加学生互评，但实际上大部分上交了作业的学生都参与了这个学生互评的环节。通常在一门慕课中，会有一次到几次的学生互评活动。

　　学生互评在传统教育中扮演着重要的角色，它能够减轻教师负担并且让学生通过评价他人的作业加深自己的认知。不过由于学生的知识水平和评价能力还不够成熟，学生互评在传统教育中一般只用于提供形成性评估，它还不太能胜任总结性评估。在慕课中，学生有很大自主权，他们进行自主学习，负责自己的学习进度以及评估自己和同学的学习成果。与传统的学生互评一样，慕课中的学生互评也面临着同样的问题，因为很多学生还处于积累知识的阶段，可能还不完全具备充足的知识和能力对同学的作业或作品进行准确有效的评价。同时，由于在慕课中开放性试题和作业很多时候只能依赖于学生互评这一项评估手段，学生作为评估者所存在的问题更加凸显出来。

２

慕课学生互评评分误差纠正方法

　　近年来，一批研究者，包括教育研究者和计算机科学家，对慕课中的学生互评进行了研究分析，并提出一些可用于纠正学生评估者评分误差的方法。另外，笔者也总结出一些还未应用但有潜力被应用于慕课学生互评中以纠正评估者误差的方法。这些方法总体来说都是以提高学生互评结果的准确度和信度为目的，大体可以分为两个大类。第一类方法主要是对学生评估者（peer rater）进行前期纠正或测试，第二类方法主要是对学生互评结果进行后期纠正。本文将分析比较这两类不同的方法。

2.1　对学生评估者进行前期纠正的方法

　　对学生评估者进行前期纠正的方法是在学生互评发生之前对学生评估者存在的误差进行纠正或估计。通常有一个外在的无误差的标准，可以通过训练让学生接近这个标准，从而减少学生可能存在的评分误差，或者根据估算学生与外在标准之间的差距而给学生评估者不同的权重，从而使误差较小的评估者在实际评分中能得到更大的权重，而降低误差较大的评估者在实际评分中的影响。

　　当涉及人工评分的时候，对于评估者的前期培训有助于他们更好地理解评分规则，从而减少由于对评分规则的误解而产生的误差。系统的有针对性的培训能够使学生评估者更有效地进行评估，并提供有建设性的反馈意见，从而帮助被评估者进行反思和学习。例如，在Min的研究中阐述了对于学生评估者进行系统培训的价值，在对18个学生评估者进行课上集体培训和课后一对一的培训后，评估者提供的反馈意见能更多的被采纳，从而提高了学生的学习效果。然而，这种系统有针对性的培训比较难于在学生评估者数量众多的慕课中实施。对于慕课学生评估者的培训，大概只能局限于对评分规则进行讲解和示范，针对每个学生评估者的个性化培训很难实现。Li et al.指出目前的关于学生评估的文献中似乎并不能确定前期培训能起到实质性的作用。这也许跟现有的培训学生评估者的形式和质量有关。目前鲜有研究者做过针对慕课学生评估者进行培训的调查研究。已有的慕课平台也尚未把前期培训作为重要的环节纳入考量。这里存在着较大的研究缺口有待今后补充。

　　虽然前期培训较难在慕课中系统实施，但是有些慕课平台提供了对学生评估者进行前期校验的方法，目的在于根据学生评估者在校验过程中的评估准确性给每个评估者计算出一个权重，这个权重决定了此评估者在之后真正的评估中的价值。比如Coursera就采取了定标学生评估（Calibrated PeerReview，CPRTM）的方法应用于学生互评中（http://cpr.molsci.ucla.edu/Home.aspx）。定标学生评估的方法是美国加州大学洛杉矶分校的研究者研发出来的基于网络的学生评估工具。它的基本思想是学生评估者的评分准确度可以通过他在同一个作业上与教师评分之间的差距得到。换言之，学生在同一个作业上的评分与教师的评分越接近，表示这个学生评估者越可信赖。定标学生评估是在真正的学生评估之前的一个短暂的培训校验过程，目的在于让学生了解评分标准以及进行实际练习，更重要的是由此得到一个评估者能力指数（Reviewer Competency Index，RCI）代表此评估者的准确度。在这个校验过程中，每个学生都会对几个样本作业进行评估，这几个样本作业是已经由教师评过分的，所以学生的评分与教师评分之间的差距可以由此得出，再进行一些算术变换，可以计算出每个学生的评估者能力指数。这个指数的具体算法目前还未能从已有文献中找到，因为定标学生评估的平台已经被商业化了。需要用这个平台的教育机构需要付费才能使用。

　　实际上，Coursera在对这个定标学生评估的应用时不同于最初设定。以斯坦福大学的《人机交互》（https://class.coursera.org/hci）这门课上应用的定标学生评估为例，它与传统的定标学生评估有所不同。首先，这个校验过程并不发生在真正的学生互评之前，而是跟学生互评一起进行，也就是说，在学生按时完成并上交他们的作业之后，进行学生互评的过程中，个别的学生作业会被选取出来当作样本分发给学生评估者。这里的样本作业是已经被教师评过分而且会被很多的学生评分，如果假设教师评分是准确无误的话，这个作业本身的准确分数是已知的。同时别的非样本作业也随机分发给学生评估者，因此每个学生评估者都会收到一两个样本作业以及三四个非样本作业进行评分。很明显，这个定标互评的着重点是在定标，而不注重估评者培训。虽然学生评估者能力指数也能从这个过程中得出，但是教师也可以选择不使用这个指数。目前暂无文献记录Coursera平台上的慕课有真正使用过定标学生评估这个工具。它只是给教师提供了一个选择，而具体用或不用以及怎么用都取决于负责这门课的教师。

　　另外，在定标学生评估方法的基础上，也有研究者提出了一个扩展的版本——可靠度指数（Credibility Index，CI）。可靠度指数类似于评估者能力指数，可用于赋予评估者不同的权重。相对评估者能力指数，可靠度指数不仅涵括了评估者的准确度，也包括评估者的信度和适应性。准确度是指与教师评分的一致性，这个与定标学生评估中的评估者能力指数一致，信度被定义为评估者对于某个固定作业评分的一致性，适应性被定义为评估者对不同的作业评分准确度的一致性。可靠度指数是这三个指数的整合，对评估者评估能力有更全面的体现。在计算可靠度指数的过程中，需要每个学生评估者对至少两个已知准确分数的样本作业进行评估，给出评分的同时也给出对每个样本作业能给到的最高得分和最低得分，因此对同一个样本作业，学生评估者需要给出三个分数：作业得分、最高得分和最低得分。准确度还是按跟教师评分的差距进行计算，与教师评分差距越大，准确度越低。信度的计算是按对同一个作业给出的最高得分和最低得分的差距计算，差距越大说明信度越低。适应性是按对不同样本作业的准确度的差异计算得到，准确度越一致，适应性越大。具体的计算公式请参考Xiong et al.（2014）。可靠性指数是对评估者能力指数的一个补充，理论上来说应该更能反映一个学生评估者的评分能力。然而，这个指数还只有一个雏形，还未被用真正用于实际的慕课学生互评中，进一步的测试和完善还有待日后研究。

2.2　对学生评分结果进行后期纠正的方法

　　除了前期纠正学生评估者的方法以外，纠正学生评分误差的方法还包括另外一类，就是对学生评分结果进行后期纠正。这类方法旨在通过分析已有的学生评分数据，对学生评估者的评分偏差和评分信度进行考量，从而估算学生上交作业的真分数。这个真分数是剔除了评分者误差之后所得到的更准确的分数，它误差更小，更能反应学生的真实水平。这些方法总体也可以分为两大类，一类是在机器学习领域提出的一些统计模型，另一类是属于项目反应理论（Item Response Theory）的范畴。

　　Piech et al.（2013）提出了一个可以实际应用于慕课学生互评中估计学生作业真分数的统计模型，并且把这个统计模型运用到两门慕课学生互评的数据中。用贝叶斯方法对参数进行估计，结果显示用模型化的方法得到的真分数比用原始数据更加准确。在Piech提出的模型中，他假设学生给出的实际分数是正态分布的，以作业真分数和学生评估者偏差的差值为平均值，以学生评估者信度的倒数为方差，如下所示：

在慕课学生互评中，每个学生作业都会有一个真分数，每个学生评估者都会有一个偏差和一个信度参数。这个方法最近又被应用在一个传统课堂的学生互评中，但是结果显示用这个方法估计出来的真分数并不优于直接用原本数据。由此可见，这个模型并不能适用于所有的学生互评的情况。具体适用于什么情况，需要注意什么，还有待研究。

　　另外一个类似但是略有不同的模型是Goldin提出的。Goldin提出这个模型时并没有实际应用到慕课学生互评中，只是用到了一个小班的传统课堂的学生互评中。一个有28个学生的小班，Goldin收集了学生互评的结果，同时收集了教师评分的结果，用这些分数去估计学生作业的真分数和学生评估者的误差。与Piech 的模型不同的是，Goldin的模型加入了题目的难度系数作为参数，因为Goldin的模型适用于多个不同开放型题目的评分，而Piech的模型只局限于单个开放型题目。或者说Goldin的模型也适用于对同一个作业的多个分解评分（analytic scoring），而Piech的模型只适用于综合评分（holistic scoring）。统计模型如下所示：

师评分被设定为线性关系。Piech的模型可以认为是Goldin的模型的一个简化版，因为Goldin的模型加入了教师的评分，并且可以适用于多题目或多标准的评分，因为它设定了每个题目不一样的难度系数。如果忽略教师的评分以及使用学生综合评分，那么Goldin的模型就基本简化成为Piech的模型。

　　Piech的模型和Goldin的模型有一个共同的潜在假设，即假设学生的评分是一个连续变量，因为在这两个模型中，是用正态分布来设定分数分布。事实上，人工评分量表往往都不是连续的，而是类别分数，比如从1到9的整数分数。实际上，在教育测量领域已有的项目反应理论中，也能找到适用于人工评分的模型，这些模型能够直接处理类别分数。在人工评分中使用得比较广泛的一个方法是由Linacre提出的多面Rasch 模型（Manyfacet Rasch Measurement ，MFRM），其中比较常用的是三面Rasch 评分模型（Three-facet Rasch Rating Scale Model）。这三个面分别是指：被评估者、评估者和试题。它的数学公式如下所示：

　　多面Rasch模型被广泛用于人工评分中估计被评估者的真实水平，同时它也有被用于慕课学生互评的潜力。不过有一个问题值得注意，就是慕课学生互评中学生评估者数量很大，而且缺失数据的量也很庞大，因此需要估计的参数很多，观测到的数据却比较有限，所以运用多面Rasch模型在慕课学生互评中的实际效果还有待考量。

　　除了多面Rasch模型以外，Patz提出了一个更新的多层评分模型（Hierarchical Rater Model，HRM），也属于项目反应理论的范畴。与多面Rasch模型的不同之处在于，它是一个双层模型，包括了第一层由评估者的评分来估计被评作业的真分数，第二层由被评作业的真分数来估计被评估者的真实水平。这里的被评作业真分数与之前的三个模型不同，它不是连续变量，而是一个类别变量。这个真分数可以定义为在理想无误差状况下，被评作业应得的最公平的分数。如果原始评分标准是从1分到9分，那么这个真分数也应该是从1分到9分的整数分数。这个模型的第一层的数学公式如下：

　　多面Rasch模型和多层评分模型目前都未实际用于分析慕课学生互评的数据，它们是可用于人工评分的一些通用模型，用于慕课学生互评的数据中的实际可行性和效果还有待实际验证。这两个模型互有优劣，比如多面Rasch模型所考虑的参数数量少一些，因为没有考虑到ξni这个理想无误差分数的参数。参数数量少也许在一般的人工评分情况下不一定很重要，但是在慕课学生互评中，参数数量少显得很重要，因为实际的观测数据有限，如果需要估计的参数数量很多的话，对参数的估计结果不一定会很准确。而多层评分模型的优点也在于引入了ξni这个参数，从而把不同的评估者对于同一个作业的评分存在的相关性进行了更好的模拟，这样的估计结果应该更准确。

2.3　学生互评评分误差纠正方法的比较

　　前面所分析的这些不同的方法虽然都有一个相同的功能，就是能计算出一个更加准确的分数，以反映学生作业的真实水平。但是，这些方法也存在很多的差别，具体的差别大体可以分为三个方面：不同的假设，不同的参数设置和参数估计方法，以及模型适用范围的差别。

2.3.1　假设不同

　　不同的模型有内在不同的假设。首先，对于真分数的定义略有差别。定标学生评估和可靠度指数这两种方法，假设真分数为无限接近教师评分的分数，因此这两种方法的目标都是对学生评分重新设定不同的权重，以让估计的结果更加接近于教师的评分。多面Rasch模型以及Piech和Goldin的模型则假设真分数是被评估者潜在的能力，是一个连续变量，而这个能力是从他对试题的答题状况反映出来。多层评分模型略有不同，它假设的真分数是理想状态下学生作业应该得到的准确分数，是一个类别变量，但是同时它也会跟多面Rasch模型一样，在另一个层面上由这个理想分数估计出被评估者潜在的能力，这是能力参数的一个连续变量。

　　另外，这些不同的方法对于观测到的学生评分数据存在哪些误差也有不同的假设。定标学生评估方法假设学生的评分只存在一个准确度上的误差，可靠度指数方法则加入了信度和适应度这两个可能存在的误差。多面Rasch模型也假设观测到的评分存在准确度上的误差，同时由于它利用统计模型来估计，因此也允许有随机误差的发生。而Piech和Goldin的模型在多面Rasch模型的基础上，加入了学生评估者的信度作为参数，因此每个评估者的信度也会被估计。多层评分模型跟Piech和Goldin的模型相似，既包含了评估者准确度上的误差也考量了评估者的信度。

　　最后，不同的方法其实都有一个共同的假设，那就是学生评估者对不同的作业进行评估时的准确度、信度这些参数是保持不变的。有一个例外是可靠度指数这个方法，它提出了一个适应性参数，是用来考量评估者准确度的稳定性，它实际上假设了准确度在不同的情况下可能会不一致。

2.3.2　参数设置和参数估计方法不同

　　前述不同方法的参数设置和参数估计方法有较大差异。定标学生评估方法只有一个参数，就是评估者的准确度，并且对这个参数的估计只有一个点估计，这个方法的一个缺点是缺乏有效方法来评估这个点估计的准确性。可靠度指数方法加入了信度和适应性，但是也用的是相同的点估计的方法，存在相同的缺点。多面Rasch模型在考量了评估者偏差的基础上，加入了对试题难度系数的考虑，并且由于把原始数据当类别变量，它也加入了增量参数。对这些参数的估计，目前比较常用的是最大似然估计（Maximum Likelihood Estimation），可以用一些拟合指数（fit index）来评估估计结果的准确性。Piech和Goldin的模型中把数据当连续变量，因此不需要增量参数，但是它们都包含评估者的信度参数。对参数的估计采用的是贝叶斯估计的方法，也就是从参数的后验分布（posterior distribution）中得出估计结果。多层评分模型最大的区别是加入了一个中间参数ξni，即理想真分数，由于模型比较复杂，采用贝叶斯估计的方法可能更方便。

　　慕课学生互评由于评估者数量很大，并且缺失数据的量也很大，因此用任何方法来估计参数都面临着同样的问题，即观测数据有限，而需要估计的参数很多。因此简单的含参数较少的模型相对于复杂的模型可能更优越，不过还有待后续研究进行验证。

2.3.3　适用范围不同

　　不同的方法各有其局限性。首先，大部分的方法都还没有实际运用在慕课学生互评数据中，它们的实际功能和缺陷还有待后续的实证研究进行考证。理论上来说，这些方法都有一定的处理缺失数据的功能，但是对待慕课学生互评这种存在大范围缺失数据的情况来说，它们的具体效果还有待考证。另外一个比较明显的区别在于，在实际实施中，定标学生评估和可靠度指数这两种方法需要一个额外的定标过程以得到对评估者评分能力的估计，其他的方法就不需要这个过程。其次，定标学生评估和可靠度指数这两种方法可以适用于不同的评分量表，评分可以是类别的也可以是连续的。Piech 和Goldin 的方法更倾向于评分应该是连续的。多面Rasch测量和多层评分模型则只适用于类别评分。最后，除了Piech的模型只能应用于只有一个试题或只有综合评分的情况，其他方法都能拓广到含多个开放性试题或者分解评分的情况。

３

结语

　　总的来说，慕课学生互评是一个比较新的科研课题，存在大量的研究缺口，很多的方法和研究都还停留在初步阶段，有待更新。本文总结的绝大部分方法都还没有被实际运用在慕课学生互评中，所以它们的实际功能和缺陷还有待后续考证，只有在它的准确性和有效性得到保证后，才能成为一个真正的能够有效辅助学生学习以及提供有用反馈的工具。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。