打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
IEE学术 ║ 丁小浩:大数据时代的教育研究


按语

        近年来,大数据概念的兴起和应用在众多领域方兴未艾,蓬勃发展,深刻地影响并改变着人们的思维方式和生活方式。借力于大数据概念和应用,人们对教育科研的未来抱有无限的憧憬和期待。那么大数据对教育研究的本质影响究竟是什么?本期带来北京大学教育经济研究所教授丁小浩的《大数据时代的教育研究》,或许我们可以从中得到一些启发。本研究原文载于2017年10月《清华大学教育研究》。


   

作者简介:丁小浩

北京大学教育经济研究所教授


大数据催生的教育数据挖掘

大数据作为特定的专有名词变得普及应该是20世纪90年代以来的事。比较流行和权威的关于大数据特征的描述包括: Meta集 团(后并入Gartner集团)2001年在谈到数据增长的挑战和机会时,将大数据的特征概括为3V,即数据量巨大(volume),数据输入输出快速(velocity),数据类型和来源种类多样(variety)。3V的定义被广泛使用,一些机构还将3V 扩展到4V、5V、6V 甚至7V,例如继 3V 之后人们又加上了真实性(veracity)、低价值密度(value)等。 

大数据最大的特点之一是把世间许多之前从来没有能够量化的方面数据化了。比如,继经纬度的发明之后,GPS卫星导航系统提供了来自于位置信息的大数据; 大数据不仅可以分析文字记录的文本信息,还可以分析包含图像、音频、视频等非文字记录的超文本信息,特别是可以分析微信、qq、bbs等社交平台记录下来的人与人沟通互动的信息。

大数据时代催生了教育数据挖掘领域的发展。教育数据挖掘为从大量教育数据中发现潜在有用的信息提供了手段,学习分析成为教育数据挖掘的核心,传统的教育技术、智能教学系统、教育游戏、学习管理系统等均产生持续增长的大量数据,成为分析研究的可用数据。对成千上万MOOCs学生的教学反馈和评价近年来也成为研究的新兴趣点。

然而必须看到,迄今为止,基于大数据的学术研究取得的突飞猛进的进展多是在计算机并行处理、数据挖掘方法、云计算、互联网和存储系统等技术领域。教育数据挖掘、教育中的人工智能、智能辅导系统和用户建模等虽然受到了不少关注和应用,但真正属于使用大数据的教育科学研究还鲜有突破性进展。然而,教育研究的发展不单纯是方法和技术的进步,因为方法和技术始终是为研究目的服务的,教育研究的进步需要教育研究人员与大数据开发技术人员的密切合作,在解决研究问题中应用新方法,在应用新方法中提出并回答新的研究问题。所以数据规模的“大”对教育研究者而言并不是最本质的,我们需要认真思考的是大数据对传统研究范式带来的机遇和挑战究竟是什么。 

大数据与教育研究带来的机遇与挑战

作者主要从研究设计的议题选择、测量工具、研究对象、分析方法相关性与因果性几个环节来看大数据对教育研究带来的影响。

1关于研究议题

教育数据挖掘研究的选题大体聚焦在以下方面: (1)完善学生模型。学生模型反映了学生的特征或状态的信息,如学生知识掌握、动机、元认知和态度等方面的情况。但大数据驱动的教育数据挖掘方法的发展使研究人员能够引入更广泛的、潜在的学生属性,并进行实时建模。一些角度是过去传统研究不可能深入到的层面,例如,研究人员使用教育数据挖掘方法来推断学生在学习过程中是否经历了过低的自我效能阶段,是否分心,是否感觉无聊或沮丧,并结合教育软件之外的数据扩展学生模型,以确定哪些因素可能预测学业失败。(2)探索和改善知识结构模型。例如通过心理计量方法与机器学习中空间搜索算法的结合,一些研究人员开发了可以直接从数据中寻找有关领域知识结构的计算机自动表述方法。(3)教学支持和管理(包括学习软件和诸如协作学习行为等领域),发现哪种类型的教学支持和管理最有效。(4)寻找经验证据来改进和扩展教育理论及众所周知的教育现象,更深入地了解影响学习的关键因素,改善学习系统和学习方法。 

2关于测量工具

传统的调查数据中的很多概念是研究者建构出来的,测量这些概念时信度和效度会不同程度地受到影响。而大数据是人们活动行为的实时和真实的记录,很少受人类记忆、偏好和情感的干扰,从这个角度看,大数据可以在一定程度上减少测量误差,提高基于数据的研究结果的信度和效度。例如传统研究中我们通过抽样调查了解学生在校发展状况,这些调查内容常常是靠学生的主观自评和不准确的记忆获得的,于是研究者始终会挣扎于论证这种调查工具的信、效度。而教育系统的大数据主要包括了学生成长过程中留下的行为和活动等各类数据,这些记录会实时地和如实地被记录汇集。人们可以把学生在校期间的所有“有痕”信息拼接起来,构成一幅较为完整的“学生画像”。不仅如此,人们还可以将学生进入劳动力市场之后留下的各种“痕迹”记录下来,并与学生 时代的行为续拼起来,构成一幅更加完整的“人生画像”,这为深入认识和探讨教育与人的发展的复杂关系提供了新的可能性。

此外,研究分析和处理非结构化和半结构化的信息数据之前通常都要依靠质性研究。大数据时代人工智能、深度学习等领域的方法进步,使得定量研究也可以涉足这些领域。

但是,没有人为干预的大数据仅仅只是教育研究可以利用的数据的很小一部分。大数据在记录人们在各种传感器上留下痕迹的客观行为时是有用武之地和得天独厚的,但是在记录人们的观念、看法、思想、感受等主观的东西时常常是有很大局限性的,所以它并不能完全解决测量方面的问题,对传统调查而言大概在一个可见的未来只能是一种补充而非替代。

3关于研究对象

传统上,由于收集信息和处理信息的成本,人们一直利用相对少量的数据进行研究。我们的研究通常是通过随机抽样的样本特性推断总体特性。但随着大数据时代的到来,样本可以做到等于或者近似等于目标总体。这带给教育研究的机遇有可能是排除了样本与总体之间的差异,排除了抽样带来的系统误差,排除了样本的选择性偏差等等。同时,过去人们收集“小”的数据时候,必须事先决定收集哪些数据和如何应用这些数据,而对于大数据,不需要在研究之前知道如何抽样和测量,因为数据都已经在那里了。

当然,因为大数据的所谓总体常常是特定的、局部的,人们最终还是要关心此总体的结论是否适用于彼总体。于是问题从样本到总体的推广性会演变为此总体到彼总体的推广性,更何况还存在不能在相关传感器上留下足够痕迹的人群产生的总体代表性的偏差。

另外,大数据并不能彻底实现数据的全纳。当人们试图用过去发生的来归纳和凝炼规律并预测未来的时候,未来的总体通常并不等于过去的总体,即大数据依然会面临“黑天鹅”困境,这是所有以过去预测未来的归纳逻辑天然的局限。 

4关于大数据的分析方法

大数据驱动的数据挖掘是一个新兴的交叉学科,涉及统计、数据库技术、模型识别、机器学习等领域,既包括了数据管理又包括了数据分析,是较新的、正在发展的学科,它本身鲜有独特专属的方法,主要是借用其他学科的方法,常用方法包括决策树、神经网络、关联规则、聚类分析等。与传统的统计学相比,数据挖掘所面对的数据量通常非常之大,它也试图模式化数据,但研究者并没有一个先验假设,不需要预先设定拟合模型的形式,而是更强调从数据中提取信息的模式,并试图将其转换成可以理解的结构。数据挖掘可以靠计算机软件自动寻找某种相对最优的数据拟合链条,所以其结果常常是复杂的、难以解释的,但却有较好的拟合结果和预测功能。

传统的统计学方法并不适合大数据挖掘。例如,经典的统计方法的前提一般需要假定目标总体的构成是稳定清晰的,是独立同分布。而大数据则常常很难遵循这样的前提假定,其目标总体甚至会发生改变,产生所谓的总体漂移(population drift),而在许多情况下,总体的改变还是不易察觉的。因此大数据很可能包含各种各样的选择性偏差,其可能就是方便选样而根本不是经典统计学里强调的随机抽样。假如考虑研究结论的可推广性,分析对象的代表性依然是必须考虑的。 

5关于相关性与因果性的问题

流行的观点认为大数据强调的是相关性,不在乎是否是因果。许多情况下大数据的使用就意味着以放弃理解“为什么”为代价换来对“是什么”的理解,研究者的注意力从传统研究关注现象发生的深层原因转移到关注事物间的相关性和利用相关性解决相关问题。当人们还不知是什么的时候,确实无法深入了解为什么。知道事情发生的原因是科学研究追求的价值取向,但要证明真正的原因其实是非常困难的,当人们认为找到了原因,其实常常只是假象。

但是人类研究的重要目的常常需要进行理论解释,即不仅需要知道其然,也想知道其所以然,所以人类追求对因果关系的认知和理解不会因大数据的出现而消亡。在小数据的研究传统中,我们一直警惕并努力排除所谓的伪相关性,看起来毫不相关的两件事同时或相继出现的现象比比皆是,所以相关性常常是有误导性的,本身并没有多大价值,关键是要找出“相关性”背后的原因,才是新知识或新发现。

大数据时代不应该也绝对不是“理论终结”的时代。相关代替因果,用相关性代替因果性并不是大数据所具有的方法论哲学的天然的基础,而仅仅反映了现实中人们对大数据挖掘特点及其局限性的一种妥协甚至是无奈。关于因果的认知没有共识,争论会继续下去,但追求因果是社会科学研究(包括教育研究) 和创新的动力所在,人类永远不会满足于用相关代替因果,而大数据应用的性质实际上可以算作一种为因果关系的研究铺路奠基的探索性数据分析,而不是小数据研究范式的替代。 

大数据挖掘与教育研究的未来  

大数据挖掘技术方法的发展推动了众多领域大数据的应用研究和快速普及。正因为此,大数据的利用可以产生许多小数据时代无法涉及、难以进行操作的研究问题,并为新理论和新假设的产生提供了可能性。但同时我们必须认识到在一个可预见的未来,大数据范式与小数据范式是不能相互替代的,它们自身的优势常常是对方的劣势,而自身的劣势又常常是对方的优势。虽然大数据在一定程度上可以直接获取人类行为和互动的基本信息,但数据量的庞大、各种信息混杂、信息质量参差不齐,使得大数据本身是一座信息和知识的“贫矿”,信息“品位低”,信息价值密度低,在数据的采、选及冶等方面尚难充分利用。由足够详尽的搜索和拟合产生的数据“模式”可能是过度拟合的结果,仅仅是随机波动的产物,并不代表所研究现象的任何本质的特征。有人用拖网捕鱼形容数据挖掘,意喻它会把各种东西打捞上岸,需要人们再从中甄别有价值的东西。所以大数据挖掘需要好的研究设计和方法的引导,以便提高数据资源的使用效率。大数据和小数据分析的有效结合才是教育研究健康发展的必由之路。

本期责编:何章立

北京大学教育经济研究所

北京大学教育经济研究所成立于1999年,由原国家教委、原国家计委和财政部联合支持设立,是国家教育经济和教育财政问题的重要研究和咨询机构。研究所也是教育部普通高等学校人文社会科学重点研究基地,依托的教育经济与管理学科是全国重点学科。

研究所重点发展的学科包括:教育经济、教育财政、教育管理、教育政策等。研究所强化学科发展的意识,成了规范与实证研究结合,定量方法与定性方法结合,多学科综合研究的特色。在高校毕业生就业、学生发展、高考招生、教育经费等研究领域拥有丰富的大型数据库资源。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
丁小浩:大数据时代的教育研究
男人做家务,死亡率降一半?标题党!| 科学人
论大数据思维的局限性及其超越
因果推断与机器学习,终于有本书能讲明白啦!
大数据时代的哲学变革
数据思维|总结常用的数据分析思维和分析方法
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服