《数据的收集、整理、描述与分析8158.pdf》由会员分享,可在线阅读,更多相关《数据的收集、整理、描述与分析8158.pdf(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据的收集、整理与描述备课人:李发【问题】统计调查的一般过程是什么统计调查对我们有什么帮助统计调查一般包括收集数据、整理数据、描述数据和分析数据等过程;可以帮助我们更好地了解周围世界,对未知的事物作出合理的推断和预测.一、数据处理的一般程序 二、回顾与思考、数据的收集 1、收集数据的方法(在收集数据时,为了方便统计,可以用字母表示调查的各种类型。)问卷调查法:为了获得某个总体的信息,找出与该信息有关的因素,而编制的一些带有问题的问卷调查。媒体调查法:如利用报纸、电话、电视、网络等媒体进行调查。民意调查法:如投票选举。实地调查法:如现场进行观察、收集和统计数据。例 1、调查下列问题,选择哪种方法
2、比较恰当。班里谁最适合当班长()正在播出的某电视节目收视率()本班同学早上的起床时间()黄河某段水域的水污染情况()2、收集数据的一般步骤:明确调查的问题;谁当班长最合适 确定调查对象;全班同学 选择调查方法;采用民主推荐的调查方法 展开调查;每位同学将自己心目中认为最合适的写在纸上,投入推荐箱 统计整理调查结果;由一位同学唱票,另一位同学记票(划正字),第三位同学在旁边监督。分析数据的记录结果,作出合理的判断和决策;3、收集数据的调查方式(1)全面调查 定义:考察全体对象的调查叫做全面调查。全面调查的常见方法:问卷调查法;访问调查法;电话调查法;特点:收集到的数据全面、准确,但花费多、耗时长
3、、而且某些具有破坏性的调查不宜用全面调查;(2)抽样调查 全面调查 抽样调查 收集数据 整理数据 制表 绘图 描述数据 分析数据 得出结论 条形图 扇形图 折线图 直方图 定义:只抽取一部分对象进行调查,然后根据调查数据来推断全体对象的情况,这种方法是抽样调查。总体:要考察的全体对象叫做总体;个体:组成总体的每一个考察对象叫做个体;样本:从总体中抽取的那一部分个体叫做样本。样本容量:样本中个体的数目叫做样本容量(样本容量没有单位);特点:省时省钱,调查对象涉及面广,容易受客观条件的限制,结果往往不如全面调查准确,且样本选取不当,会增大估计总体的误差。性质:具有代表性与广泛性,即样本的选取要恰当
4、,样本容量越大,越能较好地反映总体的情况。(代表性:总体是由有明显差异的几个部分组成时,每一个部分都应该按照一定的比例抽取到)(3)实际调查中常常采用抽样调查的方法获取数据,抽样调查的要求是什么 总体中每个个体都有相等的机会被抽到;样本容量要适当.例 2、1判断下面的调查属于哪一种方式的调查。为了了解七年级(22 班)学生的视力情况(全面调查)我国第六次人口普查(全面调查)为了了解全国农民的收支情况(抽样调查 )灯泡厂为了掌握一批灯泡的使用寿命情况(抽样调查)2下面的调查适合用全面调查方式的是 .调查七年级十班学生的视力情况;调查全国农民的年收入状况;调查一批刚出厂的灯泡的寿命;调查各省市感染
5、禽流感的病例。3 为了了解某七年级 2000 名学生的身高,从中抽取 500 名学生进行测量,对这个问题,下面的说法正确的是 A、2000名学生是总体 B、每个学生是个体 C、抽取的500名学生是样本 D、样本容量是500 4请指出下列哪些抽查的样本缺少代表性:在大学生中调查我国青年的上网情况;从具有不同文化层次的市民中,调查市民的法治意识;抽查电信部门的家属,了解市民对电信服务的满意程度。、数据的整理 1、表格整理 2、划记法、数据的描述 1、统计表 定义:将要统计的数据填入相应的表格内,利用表格统计法可以很好地整理数据;优点:统计表中的数据比较准确、详实,可以清楚地反映各个量之间的真实情况
6、;缺点:统计表得到的信息需要进行分析,表达不够直观;2、统计图(1)条形统计图 定义:用一个单位长度在坐标系中表示一定的数量,根据数量的多少画出长短不同的直线;图形:特点:条形图能够显示出各个项目的具体数目、易于比较组间数据之间的差别;优点:能够清楚地表示出各个项目的具体数目(表示数据清);缺点:不能准确地描述各部分量之间的关系;(2)扇形统计图 定义:用来表示各部分量与总数之间的关系。15 5 人数 10 20 新闻 动画 0 节目类别 体育 娱乐 4 10 8 18 图形:特点:扇形图能够用扇形的面积表示出各部分在总体中所占的百分比、易于显示每组数据相对于总数的大小;优点:能够清楚地表示出
7、各部分在总体中所占的百分比(表明百分比);缺点:不能从统计图中看出每个项目的具体数量;步骤:计算百分数;计算圆心角;画出圆和扇形并标明百分数;(用整个圆表示总体,每个扇形代表总体的一部分,用各个扇形的大小表示各部分数据,圆心角0=360 百分比)(3)折线统计图 图形:特点:折线图更易于显示数据的变化趋势 优点:能够清楚地反映事物的变化情况(反映变化清);缺点:不能表示各部分在总体中所占的比值;(4)直方图 图形:特点:能够显示各组频数分布的情况、易于显示各组之间频数的差别;绘制频数分布直方图的步骤:计算最大值与最小值的差;变化范围 决定组距与组数;组内数据的取值范围 列频数分布表;将一组数据
8、分组后落在各个小组内数据的个数叫做小组的频数 画频数分布直方图;注意:组距与组数的确定没有固定的标准,要凭借经验和研究的具体问题来确定。通常数据越多,分成的组数也越多,当数据在100个以内时,根据数据的多少通常分成512:个组。小长方形的面积=频数组距=频数 10 25 20%45%新闻 体育 动画 娱乐 频数/组距 身高()0 2 5 1 3 4 6 7 152 158 164 170 149 155 161 167 173 30 10 百分率 20 40 0 青少年 成年人 老年人 年龄段 娱乐 动画 数据的分析备课人:李发 本章是属于“统计与概率”领域的内容,是我们在七年级下册学习了“数
9、据的收集、整理与描述”之后,对数据统计的进一步的认识,为初三学习概率做好铺垫.在前面的学习中,我们学习了收集、整理和描述数据的常用方法,将收集到的数据进行分组、列表、绘图等处理工作后,数据分布的一些面貌和特征可以通过统计图表等反映出来.为了进一步了解数据分布的特征和规律,还需计算出一些代表数据一般水平或分布状况的特征量.对于统计数据的分布的特征,可以从两个方面来分析:一是分析数据分布的集中趋势,反映数据向其中心值(平均数)靠拢或聚集的程度;二是分析数据分布的离散程度,反映数据远离其中.这两个方面分别反映了数据分布特征的不同侧面.本章主要从前两个方面来研究数据的分布特征,集中学习分析数据的集中趋
10、势和离散程度的常用方法.一、知识结构框架 本章知识的结构框图:本章知识的展开顺序:方差 极差 中位数 众数 平均数 波动情况 集中趋势 用样本平均数估计总体平均数 用样本方差估计总体方差 二、本章具体内容 1、数据的代表 平均数、中位数和众数这三个量的相同之处主要表现在:都是用来描述数据集中趋势的统计量;都可用来作为一组数据的代表,且都可用来反映数据的一般水平.平均数的大小与每一个数据都有关,任何一个数的波动都会引起平均数的波动,当一组数据中有个别数据较大或较小,用平均数来描述整体趋势则不合适,用中位数或众数则较合适.中位数与数据排列有关,个别数据的波动对中位数没影响;当一组数据中不少数据多次
11、重复出现时,可用众数来描述.平均数:一般地,如果n个数123,nx x xx,有1231(+)nxx xxxn ,那么x叫做这n个数的算术平均数.平均数常用来反映一组数据的平均水平或反映这组数据的总体集中趋势,但容易受到极端值的影响.平均数是唯一的(由于平均数是通过计算得到的,因此平均数会因为每一个数据的变化而变化,而不会受个别数据较大或较小的影响)计算平均数时,若没有特别说明,计算的结果保留的位数与原数据相同.平均数是统计中最常用的数据代表值,比较可靠和稳定,因为它与每一个数据都有关,反映出来的信息最充分.其中任何数据的变动都会相应引起平均数的变动.平均数既可以描述一组数据本身的整体平均情况
12、,也可以用来作为不同组数据比较的一个标准.因此,它在生活中应用最广泛,比如我们经常所说的平均成绩、平均身高、平均体重等.主要缺点是易受极端值的影响,这里的极端值是指偏大或偏小数,当出现偏大数时,平均数将会被抬高,当出现偏小数时,平均数会降低.反映了一组数据的平均大小,常用来一代表数据的总体“平均水平”.是一个“虚拟”的数,是通过计算得到的,它不是数据中的原始数据.加权平均数:如果在n个数中,1x出现次1f次,2x出现次2f次,,kx出现次kf次,(这里12+=kfffn)那么根据平均数的定义,这n个数的平均数可以表示为1 1221(+)kkxx fx fx fn这样求得的平均数叫做加权平均数,
13、其中12kfff、叫做权.这里的“权“是表示数据的重要程度的意思,解题时,正确地确定每个数据的“权”是非常重要的 当一组数据中,有些数据重复出现时,易把重复出现的数据看做一个数据导致计算出错.权的理解:反映了某个数据在整个数据中的重要程度。学会权没有直接给出数量,而是以比的或百分比的形式出现及频数分布表求加权平均数的方法.例 1:某校举行歌咏比赛,10位评委对某位选手的打分为80,85,77,82,78,95,83,79,75,82,去掉一个最高分和一个最低分后的平均分是 分.【分析】这是一道关于算术平均数的计算,去掉一个最高分 95,去掉一个最低分 75,剩下的分数加起来再除以 8,可以得到
14、最终答案:80.75.例 2:某生期中考试中,语、数、英三科的平均分为 78 分,物理、政治两科的平均分为80,则该生这 5 门学科的平均分为 .【分析】由部分的平均分求整体的平均分,可列式23280378得到 5 科平均分:.例 3:某中学规定学期总评成绩评定标准为:平时 30,期中30%,期末 40,小明平时成绩为 95 分,期中成绩为 85 分,期末成绩为 95 分,则小明的学期总评成绩为 .【分析】本题考查加权平均数“权”的第一种类型:百分数,可列式95 30%85 30%95 40%9230%30%40%.例 4:某生在英语技能水平测试中,听、说、读、写四方面的成绩分别为 85、83
15、、88、80,请你按听:说:读:写3:3:2:2 的比例算出他的成绩.【分析】本题考查加权平均数“权”的第二种类型:比例,即:842233280288383385为所求.例 5:某区参加希望杯数学邀请赛,成绩如图所示:则竞赛成绩的平均数为 【分析】这是一道用直方图展现出来的考查加权平均数“权”的第三种类型:数字(人数、次数)的题目,把每一个分组的头尾两数的平均数作为组中值,则每一分组的组中值分别为 55、65、75、85、95,可算出平均分为745253525105952585357525651055.中位数:将一组数据按照由小到大(或由大到小)的顺序排列,如果数据的个数是奇数,则处于中间位置
16、的数就是这组数据的中位数;如果数据的个数是偶数,则中间两个数据的平均数就是这组数据的中位数.唯一且带有单位.中位数作为一组数据的代表,可靠性比较差,因为它只利用了部分数据.但当一组数据的个别数据偏大或偏小时,用中位数来描述该组数据的集中趋势就比较合适.中位数与数据的排列位置有关,而某些数据的变动对它没有影响;它是一组数据中间位置上的代表值,不易受数据极端值的影响.中位数像一条分界线,将数据分成前半部分和后半部分,因此用来代表一组数据的“中等水平”.中位数是一个不完全“虚拟”的数.当一组数据有奇数个时,它就是该组数据排序后最中间的那个数据,是这组数据中真实存在的一个数据;但在数据个数为偶数的情况
17、下,中位数是最中间两个数据的平均数,它不一定与这组数据中的某个数据相等,此时的中位数就是一个虚拟的数.中位数意义:若一组数据中的中位数是a,则说明大于或小于a的数各占一半.众数:在一组数据中,出现次数最多的数(有时不止一个),叫做这组数据的众数.众数作为一组数据的代表,可靠性也比较差,因为它也只利用了部分数据。在一组数据中,如果个别数据有很大的变动,且某个数据出现的次数最多,此时用该数据(即众数)表示这组数据的“集中趋势”就比较适合.众数与数据出现的次数有关,着眼于对各数据出现的频率的考察,其大小只与这组数据中的部分数据有关,众数是一组数据中出现次数最多的数据,而不是该数据出现的次数,一组数据
18、中的众数不唯一,可以有多个,也可以没有众数,但不能说众数是零.带单位 众数不受极端值的影响,其缺点是具有不惟一性,反映了出现次数最多的数据,用来代表一组数据的“多数水平”.是一组数据中的原数据,它是真实存在.例 6:已知一组数据的中位数为80,可知这组数据中大于或小于这个中位数的数据各占 ,中位数有 个。【分析】中位数是一个位置代表值,可以笼统理解为处于中间位置的数据,这个数据可以是现成的数,也可以是中间两个数的平均值。小于和大于它们中位数的数据各占一半,中位数只有唯一一个.70 100 50 O 80 60 10 5 90 25 35 人数 成绩(分)例 7:周三下午体锻课有六个学生进行投篮
19、比赛,投进的个数分别为 2,3,3,5,7,10,13,则这七个数的中位数是 ,众数是 .【分析】找出中位数的前提是这组数据已经排好了顺序,这组数据的个数是 7 个,那么中位数就是处于第 4 个位置的数:5.而这组数据出现次数最多的数是 3,所以众数是 3.例 8:下图是某市排球队队员年龄结构直方图,根据图中信息解答下列问题:(1)该队队员年龄的平均数;(2)该队队员年龄的众数和中位数 【分析】平均数为2122321224223321218117.21 岁的人数最多,故众数为 21.由于共有10个数据,第 5、第 6 个数据的平均值为中位数,即2122121.2、数据的波动(表示一组数据的离散
20、程度)极差:是指一组数据中最大数据与最小数据的差叫做这组数据的极差.【极差=数据中的最大值数据中的最小值.】极差反映的是一组数据的稳定性即波动大小 极差是刻画数据离散程度(波动情况)的最简单的统计量,能够反映数据的变化范围.(由于极差仅是由两个数据来评判一组数据的,但不能反映出中间数据的分散状况,故不科学)为了体现一组数据的离散程度,我们常用这组数据中最大值与最小值的差来反映这组数据的变化范围,这样的差叫做极差。一组数据,极差大,离散程度就大;极差小,离散程度就小;所以离散程度的大小与极差的大小是成正比的。我们通常用数据的离散程度来描述一组数据的波动范围和偏离平均数的差异程度 数据的离散程度越
21、大,表示数据分布的范围越广,越不稳定,平均数的代表 性也就越小;数据的离散程度越小,表示数据分布的范围越集中,变动范围越小,平均数的代表性就越大 方差:在一组数据nxxxx,3,21中,各数据与他们的平均数x的差的平方的平均数,叫做这组数据的方差,常用2S来表示,即:2222121()()();nSxxxxxxnK 方差是各个数据与平均数之差的平方的平均数,记作2s.【用“先平均,再求差,然后平方,最后再平均”得到的结果表示一组数据偏离平均值的情况,这个结果叫方差】方差是一个非负数,其单位是原始数据单位的平方,但通常省略.用来描述一组数据在它的平均数附近的波动情况(稳定性),方差越大,说明这组
22、数据的波动就大,方差越小,波动就越小.方差的作用:用于表述一组数据波动的大小,方差越小,该数据波动越小,越稳定或整.方差的三种公式:基本公式:2222121()()();nSxxxxxxnK 化简公式:22222211()nSxxxnxnK 化简公式的变形公式:22222121()nSxxxxnK 标准差:方差的算术平方根,记作S.方差与标准差的关系:2s;与2s的作用相同、单位不同。方差的算数平方根叫做这组数据的标准差,即:222211xxxxxxnn;标准差用于描述一组数据波动的大小;标准差的单位与原数据的单位相同;例 9:下图是一组数据的折线统计图,这组数据的极差是 .【分析】一组数据中
23、最大数据与最小数据之差叫极差,由图可知,这组数据中最大数据 59 与最小数据 28 之差为 31,故极差为 31.例 10:(1)数据-1,0,1,2,3 的方差是 (2)数据 5,5,5,5,5 的方差是 .【分析】本题考查方差的计算,让学生熟悉方差的计算公式nxxxxxxn222212)()()(S 将数据代入公式可得:(1)2;(2)0.可以让学生思考一下方差为0的实际意义 例 11:一组数据的方差一定是()A.正数 B.任意实数 C.负数 D.非负数 例 12:在方差公式 2222121xxxxxxnSn中,下列说法不正确的是()A.n是样本的容量 B.nx是样本个体 C.x是样本平均
24、数 D.S 是样本方差【分析】解剖方差公式,了解公式里面每一个代数代表的意义.D 选项是错误的.例 13:体育课上,初二(1)班的两个小组各 8 人参加400米跑,要判断哪一组成绩比较整齐,通常需要知道这两个小组400米跑成绩的()A平均数 B.众数 C方差 D频率分布 例 14:已知一个样本:1,3,5,x,2,它的平均数为 3,则这个样本的方差是 .【分析】本题通过一组数据综合考察平均数和方差的定义.由平均数的定义可得:352531x,解得4x,则这组数据的方差为:25)32()34()35()33()31(S222222 例 15:从一排摆有 200 个苹果的架子上抽测了10个苹果的重量
25、,将测得的每一个数据(单位:g)都减去100g,其结果如下:-8,2,-6,10,3,-7,5,2,-6,0;(1)这10个苹果中最重的与最轻的之差是 ;(2)这10个苹果的平均重量为 ;方差为 .(3)求这一排苹果的重量.【分析】这道题综合考察了极差、平均数、方差的计算和用样本估计总体的思想.可以让学生认识这些统计量和统计方法的实际意义.(1)由所提供的数据,最大值为10,最小值为-8,故最重与最轻的苹果之差为 10-(-8)18(g)(2)这10个数据的平均值5.01006257310628)()()(.则这 10 个苹果的平均重量为 100+()(g)方差为45.3210)5.00()5
26、.06()5.02()5.08(S22222(3)由于抽测的10个苹果的平均值为 99.5g,因此可以估计这排苹果的重量为:19905.9910200(g).例 16:某公司销售部有 16 名营销人员,销售部为了制定某种商品的月销售定额,统计了这 16 人某月的销售量如下:每人销售件数 1000 500 400 300 200 100 人 数 1 1 2 4 5 3(1)在这 16 名营销人员中,销售件数在多少件的人数最多中间的销售件数是多少销售的平均件数是多少(2)假设销售部要制定一个较高的销售定额,你认为应该定为多少合适说明理由.(3)为了调动营销人员的积极性,销售部想让一半左右的人员达到
27、目标,你认为销售定额应该定为多少合适说明理由.(4)假设销售部把每位营销人员的月销售量定为 320 件,你认为是否合理为什么【分析】这是一道关于平均数、中位数、众数的综合练习,主要考察这些统计量的实际意义.(1)这一组数据的众数是 200,中位数是 250,平均数是 300,所以销售件数在 200 件的人数最多;中间的销售件数是 250 件;销售的平均件数是 300 件.(2)从数据上看,在平均数、众数、中位数中,平均数最大,如果把 300 件定为一个较高目标,有41的销售人员能够超过这个标准,有41的销售人员已经达到奖励标准。故定位 300 件合适.(3)月销售量在 250 件以上的有 8
28、个人,占总人数的21,这样可以充分调动销售人员积极性,故定位 250 件合适.(4)因为 16 个人里面只有 4 个人的销售量达到 320 件以上,有43的销售人员达不到要求,故将销售量定为 320 件是不合理.易错点归纳 忽略了加权平均数中“权“的存在 1、有 8 个数的平均数是10,还有 12 个数的平均数是 12,则这 20 个数的平均数是 .【正解】2.11201212810 x.这 20 个数的平均数是.忽略了将中位数进行排序 2、学校 8 名学生三月份参加义务劳动的时间(小时)分别为 3,6,4,3,7,5,7,4,这组数据的中位数是 .【错解】观察数据可得,中位数为第 4、第 5
29、 个位置的数据的平均数,即5273【正解】先将数据进行排序:3,3,4,4,5,6,7,7,因此中位数为5.4254 忽略了数据的个数 3、广州某地连续 10 天的最高气温统计如下:这组数据的中位数是 .【错解】由图表可得 5 个温度:22、23、24、25、26,中间位置的数为 24,所以中位数为 24.【正解】图表中 22、23、24、25、26 只是属于最高温度的类型,需要讨论的数据其实有 10 个:22、23、23、24、最高气温(C)22 23 24 25 26 天数 1 2 2 4 1 24、25、25、25、25、26,因此这组数据的中位数是5.2422524 忽略了众数的个数 4、若数据 8,7,8,x,5 的平均数是 7,则这组数据的众数是 .【正解】由题意可得755878x,所以,7x,故这组数据的众数为 7、8.用样本估计总体时,错把样本的统计量当做总体的统计量 5、为发展农业经济,养鸡大户王大伯 2010 年养了 2000 只鸡。上市前他随机抽取了10 只鸡,称得质量统计如下表:估计这批鸡的总质量是 千克 质量(单位 kg)2 3 数量(单位 只)1 2 4 2 1【错解】101328.245.222.212(kg),1025(kg).这批鸡的总质量是 25 千克【正解】2000 5000(kg).这批鸡的总质量是 5000 千克
限制150内