用样本的数字特征估计总体的数字特改.pptx
问题:众数、中位数、平均数这三个数一般都会来自于同一个总体或样本,它们能表明总体或样本的什么性质?平均数:反映所有数据的平均水平 众数:反映的往往是局部较集中的数据信息 中位数:是位置型数,反映处于中间部位的 数据信息 第1页/共22页例1、求下列各组数据的众数和中位数(1)、1,2,3,3,3,5,5,8,8,8,9,9众数是:3和8(2)、1,2,3,3,3,5,5,8,8,9,9众数是:3练习、求下列各组数据的众数和中位数(1)、1,2,3,3,3,4,6,8,8,8,9,9(2)1,2,3,3,3,4,8,8,8,9,9中位数是:5中位数是:4中位数是5中位数是5众数是3,8众数是3,8第2页/共22页 例2、在一次中学生田径运动会上,参加男子跳高的17名运动员的成绩如下表所示:成绩成绩(米米)150160165170175180185190人数人数23234111分别求这些运动员成绩的众数,中位数与平均数。解:在17个数据中,1.75出现了4次,出现的次数最多,即这组数据的众数是1.75上面表里的17个数据可看成是按从小到大的顺序排列的,其中第9个数据1.70是最中间的一个数据,即这组数据的中位数是1.70;答:17名运动员成绩的众数、中位数、平均数依次是1.75米、1.70米、1.69米。这组数据的平均数是第3页/共22页练习:高一(3)班有男同学27名,女同学21名,在一次语文测验中,男同学的平均分是82分,中位数是75分,女同学的平均分是80分,中位数是80分(1)求这次测验全班平均分(精确到0.01);(2)估计全班成绩在80分以下(含80分)的同学至少有多少人?(3)分析男同学的平均分与中位数相差较大的主要原因是什么?第4页/共22页(2)男同学的中位数是75分,至少有14人得分不超过75分又女同学的中位数是80分,至少有11人得分不超过80分全班至少有25人得分低于80分(含80分)(3)男同学的平均分与中位数的差别较大,说明男同学中两极分化现象严重,得分高的和低的相差较大第5页/共22页 二、众数、中位数、平均数与频率分布直方图的关系第6页/共22页频率组距0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。如何在频率分布直方图中估计众数可将众数看作直方图中面积最大长方形的“中心”第7页/共22页0.52.521.5143.534.5频率组距0.040.080.150.220.250.140.060.040.02前四个小矩形的面积和=0.49后四个小矩形的面积和=0.262.02如何在频率分布直方图中估计中位数第8页/共22页分组分组0,0.5)0.5,1)1,1.5)1.5,2)2,2.5)2.5,3)3,3.5)3.5,4)4,4.5合计合计频率频率0.040.080.150.220.250.140.060.040.021在样本中中位数的左右各有50%的样本数,条形面积各为0.5,所以反映在直方图中位数左右的面积相等.,中位数)可将中位数看作整个直方图面积的“中心”第9页/共22页思考讨论以下问题:1、2.02这个中位数的估计值,与样本的中位数值2.0不一样,你能解释其中原因吗?答:2.02这个中位数的估计值,与样本的中位数值2.0不一样,这是因为样本数据的频率分布直方图,只是直观地表明分布的形状,但是从直方图本身得不出原始的数据内容,直方图已经损失一些样本信息。所以由频率分布直方图得到的中位数估计值往往与样本的实际中位数值不一致.第10页/共22页求考试平均分第11页/共22页第12页/共22页=2.02=2.02平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和。可将平均数看作整个直方图面积的“重心”第13页/共22页思考讨论以下问题:样本中位数不受少数极端值的影响,这在某些情况下是一个优点,但它对极端值的不敏感有时也会成为缺点。你能举例说明吗?答:优点:对极端数据不敏感的方法能够有效地预防错误数据的影响。对极端值不敏感有利的例子:例如当样本数据质量比较差,即存在一些错误数据(如数据录入错误、测量错误等)时,用抗极端数据强的中位数表示数据的中心值更准确。第14页/共22页 缺点:(1)出现错误的数据也不知道;(2)对极端值不敏感有弊的例子:某人具有初级计算机专业技术水平,想找一份收入好的工作。这时如果采用各个公司计算机专业技术人员收入的中位数作为选择工作的参考指标就会冒这样的风险:很可能所选择公司的初级计算机专业技术水平人员的收入很低,其原因是中位数对极小的数据不敏感。这里更好的方法是同时用平均工资和中位数作为参考指标,选择平均工资较高且中位数较大的公司就业.第15页/共22页小结:众数:在一组数据中,出现次数最多的数据叫做这组数据的众数反映的往往是局部较集中的数据信息 是位置型数,反映处于中间部位的数据信息.中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.平均数:一组数据的算术平均数,即 反映所有数据的平均水平第16页/共22页 例1、下表是七位评委给某参赛选手的打分,总分为10分,你认为如何计算这位选手的最后得分才较为合理?评委 1号2号3号4号5号6号7号打分 9.69.39.39.69.99.39.4提问:1、电视里评委是怎样给选手打分的?2、为什么这么做?直接取中位数和众数的值不好么?练习:解:1.去掉一个最高分去掉一个最低分后再求平均分。2.这样避免了受极端值的影响,能体现选手的真实水平。第17页/共22页特征数特征数 众数众数中位数中位数平均数平均数去掉一个最高分和去掉一个最高分和最低分后的平均分最低分后的平均分去掉两个最高分去掉两个最高分和最低分后的平和最低分后的平均分均分特征值特征值 93949499429442.(2)若直接取中位数,则当评委评价出现两个极端情况时,结果可能会偏向一种情况,失去评价的公平性,不能反映选手的真实水平;(3)若取众数,则会造成少数评委的意见代表多数,比如本题中,3个评委的评价代表其他四个评委,有失公平,不合理。第18页/共22页例2 某工厂人员及工资构成如下:人员人员经理经理管理人员管理人员高级技工高级技工工人工人学徒学徒合计合计周工资周工资2200 250220200100人数人数16510123合计合计2200 1500110020001006900(1)指出这个问题中周工资的众数、中位数、平均数(2)这个问题中,工资的平均数能客观地反映该厂的工资水平吗?为什么?分析:众数为200,中位数为220,平均数为300。因平均数为300,由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平。第19页/共22页3、假设你是一名交通部门的工作人员。你打算向市长报告国家对本市26条公路项目投资的平均资金数额,其中一条新公路的建设投资为2 200万元人民币,另外25个项目的投资在20万与100万中位数是25万,平均数是100万,众数是20万元。你会选择哪一种数字特征来表示每一个项目的国家投资?你选择这种数字特征的缺点是什么?选择平均数更好:因为,此时的众数20万比中位数25万还小,所以众数代表的是局部的数。中位数代表的虽然是大多数公路投资的数额,但由于其不受极端值的影响,不能代表全体,因而此时成了它的缺点。选择平均数较好,能比较好的代表整体水平,但缺点是仍不能显示出具体的数字特征 第20页/共22页第21页/共22页感谢您的观看!第22页/共22页