专题11 统计
易错点1 不能正确区分总体、样本、样本容量
易错点2 对随机抽样的概念理解不透彻
1.简单随机抽样是不放回抽样,抽样过程中,每个个体被抽到的机会(概率)相等.
2.应用简单随机抽样应注意的问题:
(1)一个抽样试验能否用抽签法,关键看两点:
一是抽签是否方便;
二是号签是否易搅匀.
一般地,当总体容量和样本容量都较小时可用抽签法.
(2)在使用随机数表时,如遇到三位数或四位数时,可从选择的随机数表中的某行某列的数字计起,每三个或四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去.
(3)简单随机抽样需满足:
①被抽取的样本总体的个体数有限;
②逐个抽取;
③是不放回抽取;
④是等可能抽取.
简单随机抽样是逐个抽取,而题中是一次性抽取;④不是简单随机抽样,原因是个子最高的5名同学是56名同学中特定的,不存在随机性,不是等可能抽样.
故选择D.
【名师点睛】简单随机抽样的特征
要判断所给的抽样方法是否是简单随机抽样,关键是看它们是否符合简单随机抽样的定义,即简单随机抽样的四个特点:有限性、逐一性、不放回性、等可能性.
①有限性:简单随机抽样要求被抽取的样本的总体个数是有限的,便于通过样本对总体进行分析.
②逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作.
③不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算.
④等可能性:简单随机抽样中各个个体被抽到的机会都相等,从而保证了抽样方法的公平性.
易错点3 对系统抽样的特点理解不到位
易错点4 对个体的入样可能性与抽样间隔理解不透
1.明确系统抽样的操作要领
系统抽样操作要领是先将个体数较多的总体分成均衡的若干部分,然后按照预先指定的规则,从每一部分中抽取一个个体,得到所需样本.系统抽样是等距离抽样,每个个体被抽到的机会是相等的,如本题中2000人要分为50段.
2.对系统抽样合理分段
在系统抽样过程中,为将整个编号分段,要确定分段间隔,当在系统抽样过程中比值不是整数时,要从总体中剔除一些个体(用简单随机抽样),但每一个个体入样的机会仍然相等.如本题中剔除14人后,每个人被抽取的可能性不变.
易错点5 忽略分层抽样的特点
1.分层抽样的前提和遵循的两条原则
(1)前提:分层抽样使用的前提是总体可以分层,层与层之间有明显区别,而层内个体间差异较小,每层中所抽取的个体数可按各层个体数在总体的个体数中所占比例抽取.
(2)遵循的两条原则:
①将相似的个体归入一类,即为一层,分层要求每层的各个个体互不交叉,即遵循不重复、不遗漏的原则;
②分层抽样为保证每个个体等可能入样,需遵循在各层中进行简单随机抽样,每层样本数量与每层个体数量的比等于抽样比.
2.与分层抽样有关问题的常见类型及解题策略:
(1)求某一层的样本数或总体个数.可依据题意求出抽样比,再由某层总体个数(或样本数)确定该层的样本(或总体)数.
(2)求各层的样本数.可依据题意,求出各层的抽样比,再求出各层样本数.
进行分层抽样时应注意以下几点:
(1)分层抽样中分多少层、如何分层要视具体情况而定,总的原则是层内样本的差异要小,两层之间的样本差异要大,且互不重叠.
(2)为了保证每个个体等可能入样,所有层中每个个体被抽到的可能性相同.
(3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样.
易错点6 误将频率分布直方图的纵坐标当作频率
1.画频率分布直方图的步骤
(1)求极差(即一组数据中最大值与最小值的差);
(2)决定组距与组数;
(3)将数据分组;
(4)列频率分布表;
(5)画频率分布直方图(以横轴表示样本分组,纵轴表示频率与组距的比值).
2.频率分布直方图的性质
(1)落在各小组内的频率用各小长方形的面积表示,且各小长方形的面积的和等于1.
(2)频率分布直方图与众数、中位数与平均数的关系
①最高的小长方形中的某个(些)点的横坐标即是众数;
②中位数左边和右边的小长方形的面积和是相等的;
③平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
绘制频率分布直方图的注意事项:
(1)计算极差,需要找出这组数的最大值和最小值,当数据很多时,可选一个数当参照.
(2)将一批数据分组,目的是要描述数据分布规律,要根据数据多少来确定分组数目,一般来说,数据越多,分组越多.
(3)将数据分组,决定分点时,一般使分点比数据多一位小数,并且把第一组的起点稍微减小一点.
(4)列频率分布表时,可通过逐一判断各个数据落在哪个小组内,以“正”字确定各个小组内数据的个数.
(5)画频率分布直方图时,纵坐标表示频率与组距的比值,一定不能标成频率.
频率分布直方图是用样本估计总体的一种重要方法,是高考命题的一个热点,多以选择题或填空题的形式呈现,试题难度不大,多为容易题或中档题,且主要有以下几个命题角度:
(1)已知频率分布直方图中的部分数据,求其他数据.可根据频率分布直方图中的数据求出样本与总体的关系,利用频率和等于1就可求出其他数据.
(2)已知频率分布直方图,求某种范围内的数据.可利用图形及某范围结合求解.
(3)与概率有关的综合问题,可先求出频率,再利用古典概型等知识求解.
易错点7 对茎叶图的画法规则认识不够
1.茎叶图将所有两位数的十位数字作为茎,个位数字作为叶,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶可以按从大到小(或从小到大)的顺序同行列出(也可以没有大小顺序).
2.绘制茎叶图的关键是分清茎和叶.一般地说,当数据是两位数时,十位上的数字为“茎”,个位上的数字为“叶”;如果是小数,通常把整数部分作为“茎”,小数部分作为“叶”.解题时要根据数据的特点合理地选择茎和叶.
3.应用茎叶图对两组数据进行比较时,要从数据分布的对称性、中位数、稳定性等几方面来比较.
4.茎叶图只适用于样本数据较少的情况.
在样本数据较少时,用茎叶图表示数据的效果较好.它不但可以保留所有信息,而且可以随时记录,这对数据的记录和表示都能带来方便.但是当样本数据较多时,茎叶图就显得不太方便,因为每一个数据都要在图中占据一个空间,如果数据很多,枝叶就会很长.
故该校应该选择乙班参赛.
【名师点睛】本题考查了根据茎叶图求平均数,根据平均数、中位数求原始数据,考查了计算方差,并利用方差做出统计判断的问题.
易错点8 忽略方差的统计意义
用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似.实际应用中,当所得数据的平均数不相等时,需先分析平均水平,再计算标准差(方差)分析稳定情况.
1.平均数与方差都是重要的数字特征,是对总体的一种简明的描述.
2.众数、中位数与平均数都是描述一组数据集中趋势的量,平均数是最重要的量.平均数反映的是样本个体的平均水平,众数和中位数则反映样本中个体的“重心”.
3.数据的离散程度可以通过极差、方差或标准差来描述,极差反映了一组数据变化的最大幅度,它对一组数据中的极端值极为敏感.一般情况下,极差大,则数据波动性大;极差小,则数据波动性小.极差只需考虑两个极端值,便于计算,但没有考虑中间的数据,可靠性较差.方差和标准差反映了数据波动程度的大小.标准差、方差越大,数据的离散程度越大,越波动;标准差、方差越小,数据的离散程度越小,越稳定.
易错点9 运用数字特征作评价时考虑不周
1.平均数受个别极端数据(比其他数据大很多或小很多的数据)的影响较大,因此若在数据中存在少量极端数据时,平均数对总体估计的可靠性较差,往往用众数或中位数去估计总体.有时也采用剔除最大值与最小值后所得的平均数去估计总体.
2.运用数字特征进行评价时,要全面考虑各数字特征的优缺点,从不同层面或两两综合进行评价,才能得到较为可靠的估计.
本题考查分层抽样的方法,平均数、方差的计算方法以及应用,考查用样本的数据特征估计总体的数据特征的方法,考查运算求解能力和数据处理能力,考查运用基本知识分析解决实际问题的能力.
平均数:能较好地反映一组数据的总体平均水平,但易受少数极端值的影响;
方差:反映数据的波动程度,方差值越大,数据的波动越大.
易错点10 弄错回归方程中,的位置
易错点11 忽略求回归方程的前提——线性相关
相关关系与函数关系的异同点:
共同点:二者都是指两个变量间的关系.
不同点:函数关系是一种确定性关系,体现的是因果关系;而相关关系是一种非确定性关系,体现的不一定是因果关系,可能是伴随关系.
1.两个变量x与y相关关系的判断方法:
(1)散点图法:通过散点图,观察它们的分布是否存在一定规律,直观地判断;如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
(2)表格、关系式法:结合表格或关系式进行判断;
(3)经验法:借助积累的经验进行分析判断.
2.求线性回归方程时,先利用散点图判断两个变量是否存在线性相关关系,只有在两个变量之间存在线性相关关系时,求出的线性回归方程才有意义.否则,如果两个变量之间不存在线性相关关系,即使由样本数据求出回归方程,用其估计和预测的结果也是不可信的.
这种解法是错误的,原因是这两个变量之间不是线性相关关系.此类问题的解决,应先对两个变量间的相关关系进行相关性检验,然后结合作出的散点图,选择适宜的回归方程.
易错点12 没有准确掌握公式中参数的含义
2.抽样方法的选取方法
(1)若总体由差异明显的几个层次组成,则选用分层抽样.
(2)若总体没有差异明显的层次,则考虑采用简单随机抽样或系统抽样.
当总体容量较小时宜用抽签法;当总体容量较大,样本容量较小时宜用随机数表法;当总体容量较大,样本容量也较大时宜用系统抽样.
2.统计表
(1)频率分布的估计:频率分布是指各个小组数据在样本中所占比例的大小,可以用样本的频率分布估计总体的频率分布,频率分布表是反映样本的频率分布的表格.通过频率分布直方图和频率分布表可以看到样本的频率分布.
(2)尽管有些总体密度曲线是客观存在的,但是在实际应用中我们并不知道它的具体表达形式,需要用样本来估计.由于样本是随机的,不同的样本得到的频率分布折线图不同;即使对于同一个样本,不同的分组情况得到的频率分布折线图也不同.频率分布折线图是随样本容量和分组情况的变化而变化的,因此不能用样本的频率分布折线图得到准确的总体密度曲线.
(3)估计总体分布的步骤是:
①选择适当的抽样方法从总体中抽取样本,即收集数据.
②利用样本数据画出统计图或计算数字特征.
③结合统计图分析样本取值的分布规律.
④用样本取值的分布规律估计总体分布,由于是用科学抽样抽取的样本,那么样本与总体取值的分布规律近似,有时也可看成相同.
⑤利用总体分布解决有关问题.
(4)各种统计表的优点与不足
从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在从左上角到右下角的区域内,两个变量的相关关系为负相关.
具有正相关关系的两个变量的散点图如图1,具有负相关关系的两个变量的散点图如图2.
3.回归分析
如果散点图中点的分布从整体上看大致在一条直线附近,则这两个变量之间具有线性相关关系,这条直线叫做回归直线.
回归直线对应的方程叫做回归直线方程(简称回归方程).
求非线性回归方程的步骤:
①确定变量,作出散点图.
②根据散点图,选择恰当的拟合函数.
③变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.
④分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.
⑤根据相应的变换,写出非线性回归方程.
答案解析
联系客服