学生统计思维发展水平划分探究

1 问题提出

大数据时代，人们需要用统计思维对随机现象所产生的数据做出合理的判断和决策，正如统计学家C.R.Rao所言：统计学存在于人类生活的各个领域，统计学知识对人的一生都是有价值的财富[1].随着对统计学及统计教育价值的认识，不管是高等教育还是基础教育阶段，统计教学目标都更加突出对学生统计思维的培养.

统计思维研究基本可以分为两种倾向，一是给出统计思维包含的要素或核心概念，如Wild和Pfannkuch、Moore依据统计学科的特殊性列出统计思维核心或要素[2-3]，Marriott给出20世纪到21世纪统计思维所包含核心概念的发展[4]；二是以数据处理过程或统计问题解决过程为主线，描述每个过程的认知特征，如Mooney中学生统计思维发展框架[5]、Reading的统计理解框架[6]、李化侠小学统计思维的表现形式[7]，国内很多研究以数据分析或数据分析观念为关键词，以数据分析过程为主线，有些研究也突出对数据随机性的认识[8-11].

综上，已有对统计思维的研究侧重统计学科的特殊性或者以数据分析为主线，缺少思维科学研究的视角；已有研究中不考虑随机性或是将随机性单列为一个维度.结合已有研究，尝试从统计和思维两个视角构建统计思维测评框架，并尝试将随机性认识融入统计思维发展的刻画中.

2 研究框架

研究分为两个阶段：第一次测试及访谈、第二次测试及学生学习个案.第一次测试及访谈，一是根据测试结果及学生访谈对学生表现的不同水平进行编码，二是调整并完善测试题目以使测试卷具有较好的内容效度.第二次测试及学生学习个案，初步探究随着年级升高学生统计思维水平的差异.

2.1 任务设计

逻辑学将思维形式分为概念、判断和推理，这里将统计思维形式分为统计概念、统计判断和统计推断（统计推理以归纳思维为主，通常称为统计推断[12]）.

统计学是研究数据的，本质不同的数据会催生不同的统计方法[13]，陈希孺将统计学研究数据分为3个类别：抽样数据、重复测量同一对象数据、试验设计所得数据[14]；Moore给出3种类型的数据：因个体不同产生的数据、重复测量同一个体的数据、随机化设计产生的数据[3]；Franklin认为数据的重要来源有：重复测量、自然观察、抽样数据和试验设计[15]；Stigler将似然作为统计学七大支柱之一[16]，强调附属于推断的概率，概率理解是理解和做出统计推断的基础，因而很多学者认同概率理解在统计思维中也是非常重要的.综上，任务设计时将数据来源分为重复测量、自然观察、随机抽样、机会情境和试验设计5种情境，由于试验设计的复杂性，任务设计时不考虑.由此，每个题目由统计思维和问题情境两个维度进行刻画，第一次测试题目分布见表1.

表1 第一次测试维度及题目分布

统计概念统计判断统计推断重复测量 1自然观察 3 3 1随机抽样 2 1机会情境 1 1

自然观察的统计概念考察包括单组数据1题，两组数据比较2题；随机抽样的统计概念考察包括随机抽样理解1题，平均数理解1题；自然观察的统计判断包括单组数据频率分布直方图1题、两组数据频数分布直方图1题、多变量数据统计表1题.

2.2 统计思维水平分析的理论依据

对学生表现水平进行分析和编码主要依据SOLO分类和已有相关研究结论.SOLO分类是基于皮亚杰认知发展理论的，很多统计学习研究都参照其进行水平划分.已有研究中对统计概念、数据信息判断、非正式统计推断学习的研究也作为重要参考.

2.2.1 SOLO分类法

SOLO（Structure of the Observed Learning Outcome）分类理论是由Biggs和Collis提出的[17]，根据学生回答问题表现的结构复杂程度划分为5个不同水平：前结构水平（prestructural）、单一结构（unistructural）、多元结构（multistructural）、关联结构（relational）和抽象拓展（extended abstract）.其中前结构水平表现为学生没有回答问题或关注无关要素给出回答；单一结构水平表现为学生只关注一个相关要素给出解答；多元结构水平表现为学生能从问题的多个相关要素进行解答，但尚未建立要素之间的关联；关联水平表现为学生关注所有要素及关系进行解答，思维水平已上升到抽象的层次；抽象拓展水平表现为学生的回答超越提供的资料，拓展到新的问题，给出开放的结论.

2.2.2 已有统计学习研究成果

（1）水损害。水损害是坑槽产生的根本原因。当沥青路面路表水不能及时排出，则可能沿孔隙或裂缝下渗到路面结构中，结构层中的水分会影响沥青的裹附与黏结效果，使得沥青与集料间的黏附性明显下降[2]。同时在行车荷载的作用下，使得结构层中滞留的水产生动水压力，冲刷集料表面的沥青，导致集料松动并被带离路面结构，最终形成坑槽病害。

统计概念学习研究，研究最多的是数字特征中的平均数，统计视角下对平均数的理解包含两个方面，描述数据和推断数据：平均数作为一组数据的概括，平均数应和离散程度结合起来，合理抽样前提下样本平均数可以作为总体平均数的估计等.

数据信息判断研究，典型代表是Konold和其同事提出的理解数据4种水平[18]：作为指示的数据、作为独立个案身份的数据、作为分类的数据、作为集合的数据.Curcio认为对统计图表的数据的读取包含3个方面[19]：数据本身的信息、数据之间的相关信息以及隐藏在数据背后的信息.

从文本的细读中，可以发现许多古代社会的信息，从这些信息中可以找到话语中与现代观念、现代思维相同和不同或有分歧的因素，再找到思维方式这种关键因素。唯其如此，才可能真正解读一本古代文献。这对我们了解现代社会的各种思想状态、社会现象有着不可替代的作用。文与史的真假判断标准是不一样的，文学可以虚构，但历史不可以虚构。所以，首先要分清文学与历史，才能以不同的标准去阅读它们。哲学和法律在文和史的形式中都可以显示。文史合一的则是历史故事。

统计推断学习的研究，基础教育阶段学习的是非正式的统计推断，Rubin提出非正式统计推断3个重要的原则[20]：归纳，即超出给定数据之外的描述；以数据作为归纳的证据；描述结论时使用概率的语言.Mooney等在学生统计思维发展框架中，对数据推断划分了4个水平[5]：不基于数据或基于无关问题进行推断；主要基于数据进行推断，推断是部分合理的；基于数据和情境做出合理推断；多个视角，基于数据和情境做出合理推断.

熊老夫人真名姜菊缘，与熊老同年同月生，但大熊老三天，在科学院诸夫人中很有名气，是贤妻的典范。1980年我见到她时她已经八十七岁高龄。熊老夫人和熊老三岁订婚，十六岁结婚。我爹的一位好友曾经写文纪念熊老，文中也提到过熊老夫人，内容如下：“在共同生活的六十年中，夫人对他的工作十分理解，并大力协助。熊庆来三次赴法国，前后共十七年，家中全赖夫人独立支撑。”

3 研究过程

3.1 第一次测试及编码

第一次测试选择了4所完全中学，测试时间在2017年12月—2018年6月，每所学校初一、初二、高一、高二这4个年级各选择了1个平行班，测试时间在40分钟内.4所学校情况是：学校A城区十二年一贯制普通学校、学校B城区普通完中、学校C城区普通中学（有寄宿制学生）、学校D郊区示范中学.4所学校测试对象情况见表2.

表2 第一次测试对象

学校初一初二高一高二合计A 34 32 30 28 124 B 33 33 27 35 128 C 39 33 37 29 138 D 28 35 45 37 145合计 134 133 139 129 535

根据测试及学生访谈，参照SOLO分类和已有的相关研究，对学生表现出的不同水平进行编码.统计概念、统计判断、统计推断各选择一个题目说明.

3.1.1 统计概念题目举例

重复测量的统计概念题目如图1所示.

观察组的伤口愈合时间（9.37±2.78）d，长于对照组的（8.94±2.49）d，但组间比较，差异无统计学意义（P＞0.05）。

参加实验的孩子18岁时，Walter Mischel做了跟踪调查，发现那些等待时间长的孩子，学业成功率明显超过等待时间短的孩子：他们的SAT（美国大学入学考试）成绩平均高出210分。其他方面也显示出优势：社交能力更强、事业成功、家庭和谐、体质指数更胜一筹。

图1 重复测量的统计概念题目

该题目通过对老师手长做出判断，以反映学生对数字特征这一概念的理解，为不定向选择题.测试结果见表3，该问题情境下选择最大或最小值不合理，特别是在这里最大值偏离其它数据较多，只选择A或B比例也很少；其它选项都有一定比例.由于看不出选择理由，选择个别学生进行了访谈，访谈结果见表4.

集成SSH框架的系统从职责上分为四层：表示层、业务逻辑层、数据持久层和域模块层。其中Struts2作为系统的基础架构，负责MVC的分离，控制业务跳转。Hibernate对持久层提供支持由Spring管理Struts和 Hibernate。具体做法［3］是：用面向对象的分析方法根据需求提出一些模型，将这些模型实现为基本的Java对象，然后编写基本的DAO（Data Access Objects）接口，并给出 Hibernate的DAO实现，采用Hibernate架构实现的DAO类来实现Java类与数据库之间的转换和访问，最后由Spring做管理，管理Struts2和Hibernate。

表3 重复测量测试结果

A B C D E单选人数/比例（%） 14/2.62 18/3.36 139/25.98 25/4.67 211/39.44总共人数/比例（%） 52/9.72 57/10.65 215/40.19 68/12.71 273/51.03

表4 选项理由

选项理由理由1：少数服从多数，最多出现的那个值是正确的.理由2：17.3出现次数最多，而且除了19.9之外，和其它数据也差不多.D 理由1：10位同学测量结果都不同，取居中的中位数.理由2：19.9和其它9个数相差太大，取中位数比平均数好.E 平均数可以代表一组数据.C F作答1：去掉最大最小值取平均值.作答2：10位同学测量太少，差别有点大，可以多测量几次看看.

访谈发现同样选择，学生表现出不同的思维水平：选择C理由1是确定性观点，理由2是综合10个数据、关注离群值基础上的概括.选择D理由1是综合10个数据的概括，理由2是综合10个数据、关注离群值基础上的概括.选择E理由是综合10个数据的概括.其它选项典型作答1是关注数据离散程度基础上的概括，典型作答2关注数据离散并超越这组数据以做出更好的判断.

依据SOLO分类及已有研究，按照学生表现的不同思维水平进行编码：（1）不合理选择或者确定性观点，对应单一结构，如选择C理由1；（2）在10个数据基础上进行概括，数字特征概括作用，对应多元结构，如选择D理由1和选择E；（3）关注数据离散程度并去掉极端值进行概括，关注10个数据及不同特征，对应关联结构，如选项C理由2和选项D理由2；（4）关注到10个数据差异大，想到再收集更多数据，对应抽象拓展结构.

3.1.2 统计判断题目举例

自然观察的统计判断题目如图2所示.

其次是系统建设问题。从20世纪80年代末期开始建设的业务系统，到CCIC综合查询系统，到金盾一期全国主要的业务系统实现了统一，到综合查询系统，到警务综合平台，再到大情报系统……我们花费巨资建设的信息系统种类繁多，层出不穷，20多年的系统建设，我们就像“狗熊掰棒子”一样，不断地建设、废弃、再建设、再废弃……而这些信息系统的功能都是增、删、改、查，只是起到档案数据库的作用，只能用于核查某类信息，各地“发明”的技战法只是各类信息的查询，根本谈不上分析功能。各类技战法的活跃，残酷而真实地揭示出现有系统建设的“弱智”。

图2 自然观察的统计判断题目

该题目是一组自然观察的数据，以频数分布直方图形式呈现，通过开放题形式考察学生对数据信息获取以反映对数据的判断水平.

依据SOLO分类及已有研究，按照学生表现出的不同思维水平进行编码：（1）只关注个别数据，如身高在141～145之间的人数最多；（2）关注同类多个信息，如141～145的人数最多，156～160没有人，131～135和146～150人数一样多；（3）提取不同角度信息，如141～145人数最多，身高范围是130～165；（4）关注数据整体，如141～145人数最多，总体呈现中间段多，两端分布少的趋势；（5）关注数据整体基础上，超越数据的判断，如这34人身高整体不高，可能是小学生.

3.1.3 统计推断题目举例

统计推断题目如图3所示.

图3 统计推断题目

该题目随机抽样下统计推断，给出结论的考察以开放题形式，对结论确定性评价以选择题形式.第一问学生有4类表现（表5），第二问学生选择①或⑦人数分别是32人、28人.

表5 估计三年级男生平均身高

典型作答第一类空白或者10个人不能估计所有人第二类计算10个数据的平均数（或去极端值计算平均），没有写结论第三类计算出平均值，结论是“三年级男生的平均身高是134.3厘米”第四类计算出平均值，三年级男生的平均身高大约134.3厘米（差不多或左右）

第二类作答学生访谈，主要两个问题：（1）为什么没有给出结论？（2）三年级男生平均身高会恰好等于134.3厘米吗？第二类作答学生对问题（1）有些疑惑，认为计算出平均数就给出了结论；追问问题（2）时，意识到不一定正好等于，大概会是134.3厘米.结论确定性评价选择①的学生认为10位同学有可能偏差和总体偏差很大，并认为随机抽样方法不可取.

依据SOLO分类及已有研究，综合学生给出结论及对结论不确定性认识两方面，按照学生表现出的不同思维水平进行编码：（1）确定性推断，如根据10位同学不能估计三年级所有男生平均身高，或三年级所有男生平均身高为134.3厘米且这个结论100%正确.（2）只关注随机抽样的偏差，如10个人的平均身高有可能和总体平均身高差很多，这种估计方法有风险；（3）认可样本推断总体并认识到结论不是100%正确，如三年级男生的平均身高大约为134.3厘米.

3.2 第二次测试及结果

3.2.1 题目调整

第一次测试基础上，对测试题进行4个方面的调整：（1）删减4个题目，统计概念自然观察情境删掉两组数据比较1题，随机抽样删掉平均数理解；统计判断自然观察情境删掉两组数据频数分布直方图1题；统计推断自然观察两组数据推断1题；（2）选择题改为单向选择，选项设置根据第一次测试不同水平的编码；（3）部分开放题改为选择题，如样本推断总体的题目，根据第一次测试不同水平编码设置成选项；（4）增加题目，增加多组随机样本下进行统计推断的题目，即抽样分布的直观表示.第二次测试题目分布见表6，其中-1表示删减1个题，+1表示增加1个题.测试后对多组随机样本的统计推断进行了学生学习个案研究.

具体做法是：①焚烧炉设置单独的上位机（监视操作站），与全厂DCS分开，各自操控互不干扰；②设置单独的ACC控制柜，该控制柜设置有较强大运算功能的PLC，能够分析处理各种运行数据。系统配置如图1所示。

表6 第二次测试题目分布

images/BZ_47_1294_2732_2246_3066.png

3.2.2 测试对象

随着云计算的发展和企业集约化、一体化、集中化的发展，云工作流引擎成为企业建立私有云工作流引擎的发展必然，给企业带来更多的经济效益，包括硬件的成本得以降低、硬件资源的使用率大幅提升、平台维护人员大幅减少、数据的管理和管控更加集中；同时，云工作流引擎可带来系统的高可用、可扩展性和自动伸缩等能力。但是，云工作流引擎是分布式系统，会提高部署和管理的复杂性，从而对开发者提出更高的要求。

选择城区两所学校，每所学校初一、初二、高一、高二各选择了一个平行班，其中学校1为城区示范完中，学校2为城区普通完中.由于个别题目有关联，拆分为两部分，并且隔开一定时间进行测试，总测试时间不超过30分钟.测试时间为2019年3月，共发放问卷287份，收回有效问卷278，具体人数分布见表7.

表7 测试对象

初一初二高一高二合计学校1 39 37 32 28 136学校2 41 38 27 36 142合计 80 75 59 64 278

3.2.3 测试结果

对应上述所举第一次测试3个例子呈现第二次测试结果.

重复测量的统计概念，第一次测试只有个别学生想到再收集更多数据，该题目选项设置只有水平1到水平3，保留了一个其它选项，第二次测试其它选项作答中并没有出现水平4.从表8来看，初一初二两个年级差别不大，高一与初二相比有更多学生达到水平3，高二达到水平3的比例高出高一近20%.

表8 重复测量的统计概念理解

年级水平1 水平2 水平3 水平4初一 11.25% 37.50% 51.25% 0.00%初二 17.33% 29.33% 53.33% 0.00%高一 15.25% 18.64% 66.10% 0.00%高二 6.25% 7.81% 85.94% 0.00%

频数分布直方图形式下对数据信息的判断，题目是开放题形式.从表9可以看出随着年级的升高，学生对频数分布直方图的数据信息判断水平呈现出上升趋势，初一年级主要在水平1和水平2，初二和高一主要在水平1到水平3，高二年级主要分布在水平2到水平4.

知识理解变量。本问卷借鉴了中国消费者协会2016年开展的“保健食品消费者认知度问卷调查”，从中选择了5道题目参与设计，每道题目都有正确的答案。分别是：保健食品“蓝盖帽”标记的识别；保健食品的作用(治病、预防疾病、改善身体机能)；保健食品的功能(养胃、提神醒脑、辅助降血压、治疗高血压、补肾壮阳)；普通食品宣称保健功能的行为(国家允许、国家不允许)；普通食品中添加保健食品原料行为(国家允许、国家不允许)。根据被访问者回答正确的题数来衡量民众对保健食品知识的理解程度，分数越高表示调查者的保健食品安全知识越丰富。

表9 频率分布直方图数据信息判断

年级水平1 水平2 水平3 水平4 水平5初一 35.44% 44.30% 13.92% 3.80% 2.54%初二 17.33% 41.33% 30.67% 4.00% 6.67%高一 25.43% 38.98% 28.82% 5.08% 1.69%高二 12.50% 39.06% 20.31% 25.00% 3.13%

样本推断总体由两个题目构成，题目1是只提供一组随机抽样样本，根据第一次测试编码设置水平1到水平3的选项，另外想要考察学生是否能够对统计推断合理性与风险性的平衡认识，第二次测试设置了水平4的选项：认可样本推断总体并认识到可能存在例外，如三年级男生的平均身高约为134.3厘米，但也有可能偏差很大.题目2提供30组随机抽样样本且差异比较大（样本均值最低132.3厘米，最高139.1厘米），只有极少数学生能够进行合理推断.由表10来看，初一、初二、高二这3个年级主要分布在水平3和4，差异并不大；高一年级约有30%的学生在水平2，更多关注随机抽样的偏差性.

表10 随机抽样下样本推断总体

年级水平1 水平2 水平3 水平4 水平5初一 11.25% 7.50% 41.25% 40.00% 0.00%初二 5.33% 4.00% 41.33% 49.33% 0.00%高一 5.08% 30.51% 22.03% 38.98% 3.39%高二 1.56% 3.13% 48.44% 40.63% 6.25%

测试后选择了6位初二年级学生进行个案研究，提供了30组样本量为10的随机样本及样本均值、总体均值，验证样本均值推断总体均值是否可靠的学习活动系列.其中5位学生都能关注30组样本均值的集中趋势和离散程度，想到给出一个总体均值为标准的区间，并用这30组样本落入该区间的经验频率“评价”这种方法的可靠性；其中1位学生一直在关注着统计推断的偏差性，最后提出了一个具有批判性的问题：如果再换30组，结果还会是这样吗？另外1位学生经历了同样的学习活动，但一直在担心极端样本的出现.

综合两次测试结果及学生学习个案，并结合统计学科中样本推断总体的理论基础，将统计推断拓展到水平5，即提供给学生多组随机抽样及样本均值，学生能想到给定一个偏差，在这个偏差下用频率刻画归纳推断的可靠性；或者在学生认可可以用频率刻画这种可靠性后，能进一步想到如果再重复抽样，可靠性是否会发生变化？经历学习过程后，学生对平均数的认识也达到统计量水平的认识：“以前就是计算平均数然后进行推断，通过这个活动我知道平均数有可能和真实偏差大，但很多时候是可靠的.”有学生开始初步关注30个样本平均数的规律性，初步能够从量化角度研究统计量的规律性，将学生的这两种对统计概念的理解作为水平4和水平5.

4 研究结论

依据逻辑学对思维形式的分类，将统计思维形式分为统计概念、统计判断、统计推断；根据已有研究对统计学研究数据本质结构的不同，选择重复测量、自然观察、随机抽样及机会情境，由统计思维形式和问题情境构建统计思维测评框架.在该框架下设计若干题目进行两次测试、学生访谈及学生学习个案，并借鉴SOLO分类及已有统计学习的相关研究结论，对统计概念、统计判断、统计推断进行水平划分.

我问一位在深圳工作的朋友，深圳的环境和其他地方比，有什么差别？朋友是从内陆弃职过来的，已呆了有些年了。他认真地说，感觉这边的政府部门工作会更多地考虑普通老百姓的实际需求，更多地着眼于提高办事效率，解决实际问题，不管有“关系”没“关系”，只要符合条件，事情同样能办。“无论来自何方，都可以在这里共事创业，公平竞争，靠着自己的努力奋斗改变生活。”朋友这番话，我颇有同感。我想，这也是深圳的魅力所在吧，它肯定不仅仅是收入高低的问题。

4.1 统计概念理解水平划分

统计概念理解水平的划分，在对随机抽样及样本、数字特征、频率与概率关系的认识等理解水平划分基础上进行概括，将统计概念理解划分为5个水平（表11）.

临床药师参与1例滤泡性淋巴瘤合并丙型肝炎患者免疫化疗方案制订的病例分析 ……………………… 徐姗等（9）：1267

4.2 统计判断水平划分

判断是断定事物情况的思维状态[21].综合学生在单变量频数分布直方图、多变量统计表中对数据信息的判断，将统计判断划分为5个水平（表12）.

表11 统计概念理解水平划分及描述

水平具体描述水平1确定的意义理解统计概念个体将统计概念当作如三角形等确定性的概念认识，表现出的特点是单一、静止、精确地理解统计概念.水平2概括的角度理解统计概念个体能够根据数据的特点，利用数据之间的关系，寻找共同性对数据进行概括，个体认识的特点是关注数据集某个特征进行概括.由单一到概括在历史发展中也是一个长期的过程，古代和中世纪人们更多选择个别例子概括不同的数据[16].水平3关联的角度理解统计概念能够关注到数据的多个角度特征，并将这些特征关联起来理解统计概念；个体认识到放弃数据集的个别信息进行概括或者给出不同角度的概括，能得到更好的信息.水平4随机性的角度理解统计概念随机抽样下，个体能够从随机性的角度理解统计概念，随机抽样获得样本是所有可能样本中的一个，其数字特征则是以统计量的意义被认识的.前三个水平个体是将这组数据作为确定的数据集，并不具有随机的理解.水平5定量刻画统计概念的随机性个体能够在抽样情境、机会情境下认识到统计概念的随机性，并知道可以用概率模型刻画统计概念的随机性.

表12 统计判断水平划分及描述

水平具体描述水平1单一、确定性的角度判断数据个体从单一、确定角度做出判断，能够获取数据集的个别、孤立的信息；不能建立这些信息之间的联系.水平2多个角度信息判断数据个体能对同类信息建立联系，或进行比较；或者个体从多个角度对数据信息做出判断，但不能将多个角度的信息进行关联.水平3关联角度判断数据个体能从多个不同角度给出对数据信息的判断，能将信息进行关联，还不能整体认识数据分布；多个变量数据，能够提出概括的比较问题.水平4整体上判断数据个体能够在对数据多个角度认识的基础上，认识数据的分布；或者在多变量数据情境下，能够提出概括的相关问题.水平5联系背景判断数据个体能够将数据和背景进行联系，对数据背景信息做出判断；或者在多变量数据情境下，能够对比较问题或者相关问题进行推广，或者对数据背景信息做出判断；样本数据下，能够联系到可能的其它样本情况或联系到总体.

4.3 统计推断水平划分

根据观测或者实验所获取的信息对总体做出统计推断，必须伴以一定概率表明这个推断的可靠程度[22].综合学生在样本推断总体、频率估计概率的测试表现和统计推断的理论解释，将统计推断划分为5个水平（表13）.

表13 统计推断水平划分及描述

水平具体描述水平1确定认识样本推断总体这种不完全归纳推理根据样本信息对总体做出推断，是不完全归纳推理；人们完全否认不完全归纳推理，或者完全接受不完全归纳推理，即从确定的角度认识不完全归纳推理.个体认为部分不能够代表全体，或者部分结论等于总体结论.水平2怀疑由样本推断总体这种不完全归纳推理由于不完全归纳推理的原因，人们在进行推理时往往持有怀疑的心态，样本推断总体时，认识到样本是总体的一部分，但认为所选择样本有可能和总体偏差很大.思维过程是一种验证性的思考：是否接受这种不完全归纳推理.水平3理解样本随机性会影响不完全归纳推理的准确性个体通过类比或者随机抽样获得多组样本的考察，理解了样本具有相对代表性.在此基础上，承认可以由样本对总体做出推断.个体理解样本具有代表性，并且代表性是一定程度上的代表；既承认可以由样本对总体做出推断，又能认识到这种推断不是100%准确的.水平4平衡样本随机性导致不完全归纳推理的可靠性与风险性个体理解样本具有代表性，同时也认识或关注到样本有可能偏离总体，承认可以由样本对总体做出推断，认识到这种推断不是100%准确，也有可能得出的推断和真实情况相差很远.水平5定量地刻画不完全归纳推理的准确性个体在对样本代表性有一定思考基础上，理解由样本对总体推断的合理性，并能使用重复抽样下频率刻画统计推断结论的可靠性.或者个体认可不必通过重复抽样，可以通过一个样本推断总体，知道这个推断是在某个概率（或P值）之下的，这个概率是可以通过统计量的抽样分布计算出来的，知道推断可能会犯错误.

5 研究反思

测试题目的形式，以选择题形式会给学生暗示，学生表现出的水平一般好于开放题形式下的水平，如以开放题的形式样本均值推断总体均值时，学生基本上都是给出一个确定性的答案.测试对象是中学生，研究中给出的5个水平并不是要求中学生达到的统计思维水平，如统计概念和统计推断中的水平5要到大学正式学习统计学时才能够达到.

对统计概念、统计判断和统计推断分别进行了水平划分，个体在解决统计问题时这3个方面往往是交织在一起并相互作用的，有时可能以某种思维形式为主，并不是按照先有概念，由概念到判断，再到推断的过程，可能是判断、推断时形成概念或促进概念理解水平的提高.如在对样本推断总体的访谈后学生对平均数的新认识：平均数不是“一个”数，而是很多可能平均数的集合，这些数还会有规律.研究表明学生在进行统计推断的过程中，对平均数的认识由水平3关联理解过渡到水平4随机角度理解.学生在统计概念、统计判断、统计推断发展之间的交互关系是需要进一步研究的.另外研究中给出的水平划分是否合适，也需要进一步验证和修正.

[参考文献]

[1]RAO C R.统计与真理——怎样运用偶然性[M].李竹喻，译.北京：科学出版社，2004：104.

[2]WILD C J,PFANNKUCH M.Statistical thinking in empirical enquiry[J].International Statistical Review,1999,67(3):223-248.

[3]MOORE D.On the shoulders of giants[M].Washington,DC:National Academy Press,1990:135.

[4]MARRIOTT N.The future of statistical thinking[J].Significance,2015,11(5):78-80.

[5]MOONEY,EDWARD S.A framework for characterizing middle school students'statistical thinking[J].Mathematical Thinking and Learning,2002,4(1):23-63.

[6]READING C.Profile for statistical understanding[C].ICOTS6,2002.

[7]李化侠，宋乃庆，杨涛.大数据视域下小学统计思维的内涵与表现及其价值[J].数学教育学报，2017，26（1）：59-63.

[8]童莉，张号，张宁.义务教育阶段学生数据分析观念的评价框架建构[J].数学教育学报，2014，23（2）：45-48.

[9]李红梅.数据分析观念的认识及调查分析——以七年级学生为例[J].数学教育学报，2014，23（4）：78-82.

[10]张定强，蒋会兵，王旭阳.高中生数据处理能力现状调查及教学启示[J].数学教育学报，2016，25（2）：80-83.

[11]张丹.小学生数据分析观念发展过程的研究[D].长春：东北师范大学，2015：163-198.

[12]王静龙.统计思想欣赏[M].北京：科学出版社，2017：41.

[13]李金昌.基于大数据思维的统计学若干理论问题[J].统计研究，2016，33（11）：3-10.

[14]陈希孺.机会的数学[M].北京：清华大学出版社，2000：58-59.

[15] FRANKLIN.Guidelines for assessment and instruction in statistics education(gaise)report[R].Alexandria:American StatisticalAssociation,2007:6-7.

[16] STIGLER S M.统计学七支柱[M].高蓉，李茂，译.北京：人民邮电出版社，2018：viii，2.

[17] BIGGS J B,COLLIS K F.Evaluating the quality of learning:The SOLO taxonomy[M].New York:Academic Press,1982:23-28.

[18] GARFIELD J,BEN-ZVI D.Developing students'statistical reasoning[M].Springer,2008:127-128.

[19]CURCIO F R.Comprehension of mathematical relationships expressed in graphs[J].Journal for Research in Mathematics Education,1987,18(5):382-393.

[20] MAKAR K,RUBIN A.A framework for thinking about informal statistical inference[J].Statistics Education Research Journal,2009,8(1):82-105.

[21]金岳霖.形式逻辑[M].北京：人民出版社，2006：68.

[22]魏宗舒.概率论与数理统计[M].北京：高等教育出版社，2003：227.

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。