统计数据搜集与整理.ppt
1第二章第二章 统计数据收集、统计数据收集、整理与显示整理与显示2主要内容2.1 统计数据的收集2.2 统计数据的整理2.3 统计数据的显示统计表和统计图32.1 统计数据的收集一、数据的收集统计数据收集统计数据收集是根据统计研究的目的要求,采用科学的形式和方法,有计划、有组织地获取所研究变量数据的过程。在社会经济统计中,统计数据收集也称为统计调查统计调查。它是进行统计数据整理和分析的必要前提。对统计数据收集的基本要求基本要求:准确性、及时性。4统计数据的分类按照获取途径不同,统计数据可以分为直接来源的直接来源的原始数据和间接来源的次级数据。原始数据和间接来源的次级数据。原始数据是直接对各调查单位进行观察登记或通过实验来收集的数据。次级数据亦称二手数据,是从统计年鉴、报刊、互联网或有关部门业务资料中获取经过加工整理的数据。51统计调查的组织形式6就范围不同划分而言全面调查:对调查对象中的所有单位无一例外地进行调查。直接获得总体数据。优点:资料齐全、能够满足各种需要。缺点:耗费大,易产生登记性误差。应用:搜集重要的、基础性数据。非全面调查:对调查对象中的一部分进行调查。获得样本数据。优点:耗费小(人财物时间),不易产生登记性误差。缺点:易产生代表性误差。应用:广泛。7(1 1)统计报表)统计报表统计报表是以基层单位的原始记录为依据,按有关法规的规统计报表是以基层单位的原始记录为依据,按有关法规的规定和标准,自上而下地统一布置任务,按统一的表式、统一定和标准,自上而下地统一布置任务,按统一的表式、统一的项目、保守时间和程序,自下而上地定期提供基本统计资的项目、保守时间和程序,自下而上地定期提供基本统计资料的一种调查方式。料的一种调查方式。特点特点是国家或行业重要的定期统计报告制度;是国家或行业重要的定期统计报告制度;自上而下统一布置,自下而上定期提供;自上而下统一布置,自下而上定期提供;费时、费力。费时、费力。优点和缺点优点和缺点优点:全面性、稳定性、连续性、可比性优点:全面性、稳定性、连续性、可比性 曾经是我国数据收集的主要方式曾经是我国数据收集的主要方式缺点:耗费大、数据质量差、基层负担重缺点:耗费大、数据质量差、基层负担重8(2)普查)普查指指一一个个国国家家或或者者一一个个地地区区为为详详细细调调查查某某项项重重要要的的国国情情、国国力力,专专门门组组织织的的一一次次性性大大规规模模的的全全面调查。面调查。n目前,我国政府开展的普查主要有人口普查、第三产业普查、农业普查,这些普查都是每10年进行一次,分别在逢0、3、7的年份实施;经济普查、基本单位普查每5年进行一次,在逢3、8的年份实施。9普查应该注意:n统一规定普查的标准时间和统一的普查期限,以避免由于时间变动使资料重复和遗漏。n统一规定普查内容和指标解释,不得任意改变或增减项目。同类普查,各次调查的项目应尽可能一致,以便于历史资料的对比研究。n同类普查应尽可能按周期进行,以便观察现象发展变化的过程和规律。10(3)抽样调查)抽样调查抽样调查是总体中随机抽取一部分单位作为样本抽样调查是总体中随机抽取一部分单位作为样本进行调查,并根据样本资料来推断总体数量特征进行调查,并根据样本资料来推断总体数量特征的一种非全面调查方法。的一种非全面调查方法。广义的抽样包括概率抽样和非概率抽样。概率抽样也称随机抽样,是指按照随机原则从总体中抽取部分单位构成样本。非概率抽样也叫非随机抽样,是指从研究目的出发,根据调查者的经验或判断,从总体中有意识地抽取若干单位构成样本。非概率抽样常用的方式主要有方便抽样和判断抽样。11概率抽样和非概率抽样是性质不同的两种抽样类型,在调查中采用何种抽样类型,取决于研究问题的性质、使用数据要说明的问题、调查对象的特征、调查费用、调查时间等多方面的因素。统计上所说的抽统计上所说的抽样一般都是指概率抽样,即指随机抽样调样一般都是指概率抽样,即指随机抽样调查。查。本教材若无特别说明,抽样均指概率若无特别说明,抽样均指概率抽样,抽样调查也即对随机样本的调查。抽样,抽样调查也即对随机样本的调查。12常用的概率抽样方式常用的概率抽样方式(了解)(了解)简单随机抽样简单随机抽样,也称为纯随机抽样,是一,也称为纯随机抽样,是一种最基本的抽样形式。这种抽样方式无须种最基本的抽样形式。这种抽样方式无须对总体单位进行任何划分或排队,只需对对总体单位进行任何划分或排队,只需对总体单位进行编号,利用总体单位进行编号,利用抽签法、随机数抽签法、随机数表或计算机随机取数法表或计算机随机取数法等完全随机地直接等完全随机地直接从总体中抽取样本单位,每个总体单位入从总体中抽取样本单位,每个总体单位入样的概率是相等的。样的概率是相等的。系统抽样(等距抽样)系统抽样(等距抽样)它是首先将总体中各单位按一定它是首先将总体中各单位按一定顺序排列,根据样本容量要求确顺序排列,根据样本容量要求确定抽选间隔,然后随机确定起点,定抽选间隔,然后随机确定起点,每隔一定的间隔抽取一个单位的每隔一定的间隔抽取一个单位的一种抽样方式。一种抽样方式。优点:操作简便。但不能实施于优点:操作简便。但不能实施于总体发生周期性变化的场合。总体发生周期性变化的场合。14分层抽样(类型抽样)分层抽样(类型抽样)(了解)(了解)概念概念首先将总体单位按某一标志分层(分类、分组);首先将总体单位按某一标志分层(分类、分组);然后在各层按随机抽样的方法分别抽出各层的样本。然后在各层按随机抽样的方法分别抽出各层的样本。特点特点:分层抽样保证了样本中包含有各种特征的抽样单位,分层抽样保证了样本中包含有各种特征的抽样单位,适用于各层间差异比较大的情况;适用于各层间差异比较大的情况;不仅能够用样本推断总体,还可以用各子样本推断不仅能够用样本推断总体,还可以用各子样本推断相应子总体的特征,深化对总体的认识。相应子总体的特征,深化对总体的认识。例例A,B,C三个工人一日产量分别为三个工人一日产量分别为800,1200,2000件,那么批量件,那么批量N=4000件,若抽件,若抽取样本量取样本量n=80,那么分层抽取件数为:,那么分层抽取件数为:A层:层:80(800/4000)=16件件B层:层:80(1200/4000)=24件件C层:层:80(2000/4000)=40件件16整群抽样(集团抽样)(了解)(了解)概念:概念:首先将总体单位划分为首先将总体单位划分为R个群;然后按随个群;然后按随机的原则抽出机的原则抽出r个群构成样本,在抽中群中进行全个群构成样本,在抽中群中进行全面调查。面调查。特点:特点:简化了抽样组织工作,便于实施调查和组简化了抽样组织工作,便于实施调查和组织管理。织管理。适用:适用:群间差异不大,而群内差异较大的情况。群间差异不大,而群内差异较大的情况。举例说明以上4种抽样方法的应用 假设有某种成品零件分别装在10个零件箱中,每箱各装100个,总共1000个。如果想从中抽取100个零件作为样本进行测试研究,那么应该怎样运用上述4种抽样方法。(1)简单随机抽样 将10箱零件混合在一起,并将零件从1-1000进行编号,然后用查随机数表或抽签的方法从中抽出编号毫无规律的100个零件组成样本。(2)系统随机抽样 将10箱零件混合在一起,并将零件从1-1000进行编号,然后用查随机数表或抽签的方法先决定起始编号(假设为16),那么后面入选的样本的零件编号依次为26,36,996,06.于是就由这样100个零件组成样本。(3)分层抽样 对所有10箱零件,每箱都随机抽出10个零件,共100个零件组成样本。(4)整群抽样 先从10箱零件随机抽出1箱,然后对这1箱进行全数检查,即由这一箱看成“整群”,由它们组成样本。19(4)重点调查)重点调查概念概念 重点调查重点调查是指在调查对象中选择一部是指在调查对象中选择一部分重点单位进行调查,用以反映总体基本情分重点单位进行调查,用以反映总体基本情况的非全面调查方法。况的非全面调查方法。重点单位重点单位是指就所要调查的标志而言,标志是指就所要调查的标志而言,标志值所占比重较大的少数总体单位。值所占比重较大的少数总体单位。20适用范围适用范围(1 1)适用于现象总量在各总体单位之间的分布)适用于现象总量在各总体单位之间的分布极不均衡,客观上存在重点单位的情况;极不均衡,客观上存在重点单位的情况;(2 2)既可以用于一次性调查,也可用于经常性)既可以用于一次性调查,也可用于经常性调查。调查。21(5)典型调查(了解)典型调查(了解)典型调查的概念典型调查的概念典型调查典型调查是在对调查对象有一定了解基础上,有意识地是在对调查对象有一定了解基础上,有意识地选择少数典型单位进行的非全面调查方法。选择少数典型单位进行的非全面调查方法。典型调查的特点典型调查的特点调查目的是为了深入研究某一问题;调查目的是为了深入研究某一问题;调查单位是根据调查目的有意识地选取的。调查单位是根据调查目的有意识地选取的。调查结果不能用于推断总体调查结果不能用于推断总体作用作用弥补全面调查的不足;弥补全面调查的不足;用于研究新生事物;用于研究新生事物;222.统计数据收集的基本方法(1)直接观察法)直接观察法直接观察法是调查人员深入现场对调查单位进行直接观察、记录和计量。(2)报告法)报告法报告法是指被调查者按照调查者的要求,根据自己的实际情况如实填报调查内容,以信函、传真、计算机网络等方式向调查者报送数据的方法。(3)访问法)访问法访问法也称采访法、询问法,是由调查人员提问、被调查者回答来获取数据的方法。访问方式也是多样的,可以集团座谈,也可以个别访问;可以街头访问,入户访问;也可以面谈访问、电话访问等。除了以上几种传统的调查方法以外,随着计算机网络技术的普及,电子邮件调查法、WED站点调查法、计算机电话辅助调查等以互联网络为平台进行调查的方法应运而生,其应用范围日益广泛。23二、统计调查方案(一)确定调查目的 为什么调查,解决什么问题(二)确定调查对象、调查单位和报告单位 调查对象是所要调查事物的全体,由许多个别单位构成,即统计总体。调查单位是所要调查的具体单位,即总体单位。前者确定调查范围,后者明确具体向谁调查。调查单位要与调查的报告单位相区别。(三)确定调查项目 调查项目是具体的调查内容,是调查单位具有的特征,由一系列品质标志和数量标志构成。24(四)设计(四)设计调查表(问卷)调查表(问卷)为为了了便便于于调调查查和和汇汇总总,应应该该把把调调查查项项目目按按一一定定顺顺序序排排列列在在表表格格中中,这这就就是是调调查查表表。一一个个调调查查单单位位填填写写一一份份的的调调查查表表称称为为单单一一表表,若若干干个个调调查查单单位位填填写写一一份份的的调调查查表表称称为为一一揽表。揽表。(五)(五)确定调查组织形式和方法确定调查组织形式和方法明确调查的组织形式和收集数据的具体方法。明确调查的组织形式和收集数据的具体方法。(六)确定调查时间(六)确定调查时间确确定定调调查查时时间间一一是是指指确确定定调调查查的的标标准准时时间间,即即调调查查资资料料所所属属的的时时间间,二二是是指指调调查查期期限限,即即整整个个调调查查工工作作从从开开始始到到结结束束的的时时间间,包包括括调调查查登登记记的的时时间间、数数据据处处理理的的时时间间、数数据分析的时间。据分析的时间。(七(七)确定其它事项确定其它事项包包括括确确定定调调查查机机构构、培培训训计计划划、是是否否需需要要试试点点、经经费费预预算、资料报送程序和方法、数据公布时间等。算、资料报送程序和方法、数据公布时间等。252.2统计数据的整理统统计计整整理理是指根据统计研究的需要,将统计调查阶段所搜集到的大量个体资料进行科学的分类汇总、加工处理,或对已经经过加工的次级资料再加工,使之系统化、条理化,以符合统计分析的需要,成为能够反映事物总体特征的综合资料的过程。内容 数据处理:分类、汇总、表现(制表)数据管理:输入、贮存、更新、输出步骤 审核原始资料、数据的分类汇总 数据的表现、数据保管和发布 原始数据的整理一般是分类和汇总性的整理,次级原始数据的整理一般是分类和汇总性的整理,次级资料的整理主要是分组。资料的整理主要是分组。26一、统计分组1、概念 统计分组就是根据统计研究的需要,将总体中的所有单位按照一定的标志分为若干部分或组别的方法。对总体分;对个体合。突出组与组之间的差异2、作用 划分总体类型、反映现象内部结构和比例关系、揭示现象间的相互依存关系3、原则 科学性、完备性、互斥性 274、统计分组的种类 按标志的性质分为品质标志分组和数量标志分按标志的性质分为品质标志分组和数量标志分组。组。品质标志分组是从属性上区分各种类型组,其关键是界定各类型的性质差异。数量标志分组是从某个变量的数量差异上区分各种类型组,其关键是正确划分各组界限。按分组标志多少分为简单分组和复合分组。按分组标志多少分为简单分组和复合分组。简单分组按一个标志对总体单位进行分组,它只反映总体某一方面的类型和结构特征。复合分组按两个或以上标志对总体单位进行重叠分组,复合分组还可以显示结构的层次,说明总体内部类型的主从关系。28二、分布数列-统计分组整理的基本结果 1.分布数列的概念将总体各单位按某个标志分成若干组,列出各组的总体单位数或各组单位数在总体单位数中所占的比重,这样形成的数列称为分布数列分布数列。它表明总体单位在各组的分布状况。次数(次数(频数)是分布在各组的单位数。频率频率是各组单位数在总体单位数中所占的比重。292.分布数列的种类(1)品质数列是按品质标志分组形成的分布数列是按品质标志分组形成的分布数列 30表表2-1 某公司职工文化程度状况某公司职工文化程度状况文化程度文化程度 工人数工人数 比重(比重(%)小学小学 400 8初中初中 1500 30高中高中 2600 52大学大学 500 10合计合计 5000 100品质品质标志标志31性别是品质标志性别人数(万人(比重()男6362950.98女6118149.02合计124810100.00表表2-2 某年中国人口状况某年中国人口状况32 2、变量数列 是按数量标志分组而形成的分是按数量标志分组而形成的分布数列,定量数据。布数列,定量数据。3334(1)单项式变量数列以一个变量值作为一组的变量序列是单项式变量数列。适合于离散变量 取值可以一一列举适合于变量值较少,变动幅度不大的情况35表24 某企业日产量 日产量 工人数 10 70 11 100 12 380 13 150 14 100 合计 80036将变量值的一个区间作为一组的变量数列是组距式变量数列每一组两端的值称为组限,各组最小值称为下限,最大值称为上限。适合于连续变量,也适合于变量值较多、变化幅度大的情况(离散变量)相邻两组间的上下组限可以重叠也可以不重叠。一般来说,离散变量采用不重叠组形式,连续变量采用重叠组形式。区间的长度称为组距开口组、开口数列等距数列、异距数列(2)组距式变量数列)组距式变量数列37 表表25 某班学生考试成绩次数表某班学生考试成绩次数表成绩(分)成绩(分)学生人数学生人数向上累计向上累计向下累计向下累计60以下以下 2 25460-7015175270-8019363780-9015511890-100 354 3合合 计计54组限重叠组限重叠38等距数列表表2-6某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)频率(频率(%)105110110115115120120125125130130135135140358141064610162820128合计合计50100组限重叠组限重叠39表表2-7 某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)频率(频率(%)105109110114115119120124125129130134135139358141064610162820128合计合计50100组限间断组限间断40开口数列表表2-12 某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)频率(频率(%)109以下以下110114115119120124125129130134135以上以上358141064610162820128合计合计50100适合数据集有极端值的情况适合数据集有极端值的情况41组距的计算组限重叠组距=本组上限-本组下限组限间断组距=本组上限-上组上限 =下组下限-本组下限据此可以判断等距与不等距数列42开口数列?开口数列?组中值:组中值:各组上下限的中点值。当组内变量值均匀分布或各组上下限的中点值。当组内变量值均匀分布或对称分别时,组中值可作为组变量值的代表值。对称分别时,组中值可作为组变量值的代表值。组中值的计算43确定确定分组分组形式形式3.3.编制变量数列编制变量数列的步骤的步骤确确定定组组数数确确定定组组距距确确定定组组限限排排序序计计算算频频数数表现现象的度、规定的界限表现现象的度、规定的界限体现分布的集中趋势体现分布的集中趋势考虑到习惯、便于对比考虑到习惯、便于对比44某月啤酒公司60个销售点的销量48 71 52 53 36 41 69 58 47 60 53 29 41 72 81 37 43 58 68 42 73 62 59 4451 53 47 66 59 52 34 49 73 29 47 1639 58 43 29 46 52 38 46 80 58 51 67 54 57 58 63 49 40 54 61 58 66 47 50 单位:桶 excel45啤酒销售量的分布数列(表啤酒销售量的分布数列(表2-3)销售桶数销售桶数 销售点数销售点数 频率频率(%)19以下以下 1 1.72029 3 5.03039 5 8.34049 16 26.75059 20 33.36069 9 15.07079 4 6.780以上以上 2 3.3 合计合计 60 100.0464.累计次数分布471.1.向上累计向上累计 次数的累计从变量值较小的组向变量次数的累计从变量值较小的组向变量值较大的组累计,值较大的组累计,反映小于该组上限的次反映小于该组上限的次数或百分数总共有多少。数或百分数总共有多少。2.2.向下累计向下累计 次数从变量值较大的组向变量值较次数从变量值较大的组向变量值较小的组累计,小的组累计,反映大于该组下限的次数或反映大于该组下限的次数或百分比总共有多少。百分比总共有多少。48定序数据频数分布表定序数据频数分布表【例例2.2】在在一一项项城城市市住住房房问问题题的的研研究究中中,研研究究人人员员在在甲甲乙乙两两个个城城市市各各抽抽样样调调查查300户户,其其中中的的一一个个问问题题是是:“您您对对您您家家庭庭目目前前的的住住房房状状况况是是否否满意?满意?1非非常常不不满满意意;2不不满满意意;3一一般般;4满满意意;5非常满意非常满意。表2-5 甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)向上累积 向下累积 户数(户)百分比(%)户数(户)百分比(%)非常不满意 不满意 一般 满意 非常满意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合计300100.049定序数据的图示定序数据的图示累计频数分布图累计频数分布图243001322252700100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(a)向上累积向上累积27616830300750100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(b)向下累积向下累积图图2-3 甲城市家庭对住房状况评价的累积频数分布甲城市家庭对住房状况评价的累积频数分布505.次数分布类型和次数分布图 (1)次数分布类型钟型分布中间多、两头少对称分布如正态分布左偏分布(负偏)右偏分布(正偏)U型分布 两头大,中间少J型分布 一头大,一头小51频数分布的类型U U型分布型分布型分布型分布正正正正J J型分布型分布型分布型分布反反反反J J型分布型分布型分布型分布对称分布对称分布对称分布对称分布右偏分布右偏分布右偏分布右偏分布左偏分布左偏分布左偏分布左偏分布522.3 统计表和统计图统计表1.统计表的概念表现经过整理的统计数据按一定结构和顺序排列而成的表格统计数据最规范的表现形式 2.统计表的构成标题总标题、横行标题、纵列标题横行、纵列数字资料表外附加53表表213 1999年世界年世界500强企业中利润额最高的前五个行业强企业中利润额最高的前五个行业总标题总标题横横行行标标题题数数字字资资料料纵列标题纵列标题资料来源:中国国情国力2000年第10期表外附加表外附加主词主词宾词宾词54分组分组年份年份家庭人均可支配收入家庭人均可支配收入恩格尔系数恩格尔系数()()绝对额(元)绝对额(元)指数指数(78100)农村居民农村居民20012005200620072366.43254.93587.04140.4503.8624.5670.7734.447.745.543.043.1城镇居民城镇居民20012005200620076859.610493.0 11759.513785.8416.3607.4670.7752.338.236.735.836.3我国农村和城镇居民家庭人均可支配收入及恩格尔系数我国农村和城镇居民家庭人均可支配收入及恩格尔系数联合国粮农组织针对该系数提出具体标准:即恩格尔系数在联合国粮农组织针对该系数提出具体标准:即恩格尔系数在59%以上为贫困,在以上为贫困,在50-59%之间为温饱,在之间为温饱,在40-50%之间为小之间为小康,在康,在30-40%之间为富裕,低于之间为富裕,低于30%为最富裕。为最富裕。55n列联表又称为交叉表,是由两个以上的变量进行交叉列联表又称为交叉表,是由两个以上的变量进行交叉分类的频数分布表分类的频数分布表n对于定类数据的描述和分析,通常采用列联表进行对于定类数据的描述和分析,通常采用列联表进行交叉分析。交叉分析。n列联表是由两个以上的变量进行交叉分类的频数分列联表是由两个以上的变量进行交叉分类的频数分布表。布表。n列联表就是复合分组表。列联表就是复合分组表。列联表列联表 月平均通信费(元)50以下50100100以上合计男855015150女555540150合计性别10555300表表x 某校学生性别与通信费列联表某校学生性别与通信费列联表56总标题内容应满足3W要求(what where when)要合理安排统计表的结构数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明表中的上下两条横线一般用粗线,其他线用细线通常情况下,统计表的左右两边不封口表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一对于没有数字的表格单元,一般用“”表示必要时可在表的下方加上注释4.统计表的设计规则统计表的设计规则5757 制作频数分布表制作频数分布表制作频数分布表制作频数分布表 用图形显示数据用图形显示数据用图形显示数据用图形显示数据列出各类别列出各类别 计算各类别的频数计算各类别的频数计算各类别的频数计算各类别的频数2.3.2 统计图统计图次数分布图次数分布图58定性数据整理次数分布表【例例】为为研研究究广广告告市市场场的的状状况况,一一家家广广告告公公司司在在某某城城市市随随机机抽抽取取200人人就就广广告告问问题题做做了了邮邮寄寄问问卷卷调调查查,其其中中的的一一个个问问题题是是“您您比比较较关关心心下下列列哪一类广告?哪一类广告?”1商商品品广广告告;2服服务务广广告告;3金金融融广广告告;4房房地地产产广广告告;5招招生生招招聘聘广广告告;6其其他他广广告。告。广告类型广告类型人数人数(人人)比重比重(%)商品广告商品广告 服务广告服务广告 金融广告金融广告 房地产广告房地产广告 招生招聘广招生招聘广告告 其他广告其他广告1121651910256.0825.54.55.01.0表表29 某城市居民关注广告类型的频数分布某城市居民关注广告类型的频数分布59定性数据的图示柱形图柱形图是用宽度相同的条形的高度或长短来表示数据变动的图形柱形图有单式、复式等形式在表示定性数据的分布时,是用柱形图的高度来表示各类别数据的频数或频率绘制时,各类别可以放在纵轴,又称为条条形形图图,也可以放在横轴,称为柱形图柱形图60定类数据的图示条形图61定量数据直方图1.直直方方图图法法是是适适用用于于对对定定量量数数据据进进行行整整理理加加工工,找找出出其其统统计计规规律律,即即分分析析数数据据分分布布的的形形态态,以以便便对对其其总总体体的的分分布布特特征征进行推断。进行推断。2.在在企企业业经经营营统统计计中中,尤尤其其是是在在质质量量管管理理中中,对对工工序序是是否否合合格或批量产品的质量水平是否正常进行分析的方法。格或批量产品的质量水平是否正常进行分析的方法。作直方图的方法步骤如下作直方图的方法步骤如下(1)(1)收集数据收集数据一般收集数据都要随机抽取50个以上的数据,最好是100个以上的数据,并按先后顺序排列。(2)(2)找出数据中的最大值,最小值和极差。找出数据中的最大值,最小值和极差。数据中的最大值用xmax表示,最小值用xmin表示,极差用R表示。例 某项目统计数据为:某项目统计数据为:x xmaxmax=63=63,x xminmin=38=38,极差极差R R=x xmaxmax-x xminmin=63-38=25=63-38=25。区间区间 x xminmin,x xmaxmax 称为数据的散布范围称为数据的散布范围(3)(3)确定组数。确定组数。组组数数常常用用符符号号k k表表示示。k k与与数数据据个个数数多多少少有有关关。数数据据多,多分组;数据少,少分组。多,多分组;数据少,少分组。上例中有上例中有100100个数据,常分为个数据,常分为1010组左右。组左右。也也 有有 人人 用用 这这 样样 一一 个个 经经 验验 公公 式式 计计 算算 组组 数数:k k=1+3.31(log=1+3.31(logn n)上例中上例中n n=100=100,故:,故:k k=1+3.31(1og=1+3.31(1ogn n)=1+3.31(log100)=7.628)=1+3.31(log100)=7.628 一般由于正态分布为对称形,故常取一般由于正态分布为对称形,故常取k k为奇数。为奇数。所以取所以取k k=9=9。(4)(4)求出组距求出组距(h h)。组组距距即即组组与与组组之之间间的的间间隔隔,等等于于极极差差除除以以组组数数,即即组距组距 (5)(5)确定组界确定组界 为为了了确确定定边边界界,通通常常从从最最小小值值开开始始。先先把把最最小值放在第一组的中间位置上。小值放在第一组的中间位置上。上上例例数数据据最最小小值值xmin=38,组组距距(h)=3,故故第第一一组的组界为:组的组界为:即即36.539.5(6)(6)计算各组的组中值计算各组的组中值(w(wi i)。所所谓谓组组中中值值,就就是是处处于于各各组组中中心心位位置置的的数数值值,又又叫中心值。叫中心值。某组的中心值某组的中心值(wi)=(某组的上限某组的上限+某组的下限某组的下限)/2 第一组的中心值第一组的中心值(w1)=(36.5+39.5)/2=38 第二组的中心值第二组的中心值(w2)=(39.5+42.5)/2=41 其它各组类推,其它各组类推,(7)(7)统计各组频数。统计各组频数。计算出现在各组组界内的数据的个数计算出现在各组组界内的数据的个数 (8)8)画直方图画直方图。以以分分组组号号为为横横坐坐标标,以以频频数数为为高高度度作作纵纵坐坐标标,作作成直方图。成直方图。510152012345678943 直方图22频数组号1618231715直方图(Histogram)练习练习:画画直方直方图,判断工序的特征图,判断工序的特征螺纹紧固件的拧紧力矩数据螺纹紧固件的拧紧力矩数据与频数作出频数分布表组号组号组界组界组中心距组中心距频数频数1 1145-149145-1491471472 22 2149-153149-1531511514 43 3153-157153-1571551558 84 4157-161157-16115915917175 5161-165161-16516316329296 6165-169165-16916716725257 7169-173169-17317117111118 8173-177173-1771751756 69 9177-181177-1811791792 2EXCEL2010:文件-选项-加载项-直方图74表 某车间50名工人日加工零件数的异距分组表按零件数分组按零件数分组按零件数分组按零件数分组频数(人)频数(人)频数(人)频数(人)频率(频率(频率(频率(%)105 105 105 105 110 110 110 110110 110 110 110 115 115 115 115115 115 115 115 120 120 120 120120 120 120 120 125 125 125 125125 125 125 125 135 135 135 135135 135 135 135 140 140 140 1403 3 3 35 5 5 58 8 8 814141414161616164 4 4 46 6 6 6101010101616161628282828323232328 8 8 8合计合计合计合计50505050100100100100异矩数列处理75q找出标准组距:该例为找出标准组距:该例为5q频数密度频数频数密度频数频数密度频数频数密度频数/组距组距组距组距=16/10=1.6=16/10=1.6=16/10=1.6=16/10=1.6q 标准组距的频数标准组距的频数=51.6=8q按标准组距的次数按标准组距的次数8作直方图。作直方图。异异距距数数列列作作直直方方图图时时,应应将将不不等等组组距距调调整整为为等组距。等组距。调调整整的的方方法法是是:以以标标准准组组距距乘乘以以频频数数密密度度(频频频频数数数数密密密密度度度度频频频频数数数数/组组组组距距距距)得得到到标标准准组组距距的的频频数数,再再按标准组距的次数作直方图。按标准组距的次数作直方图。76105105 110110 115115 120120 1251251401401351351301308 88 8频频频频频频数数数数数数(人人人人人人)151512129 96 63 3日加工零件数日加工零件数日加工零件数日加工零件数日加工零件数日加工零件数(个个个个个个)77折线图1.折线图也称频数多边形图(Frequency polygon)2.是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉3.折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的78151512129 96 63 3105105 110110 115115 120120 125125 130130 135135 140140日加工零件数日加工零件数日加工零件数日加工零件数(个个个个)频频数数(人人)折线图下的面积折线图下的面积与直方图的面积与直方图的面积相等!相等!图图2-3 某车间工人日加工零件数的折线图某车间工人日加工零件数的折线图79曲线图曲线图是用一条光滑的曲线表示次数分布;当直方图的组距无限缩小时,折线图就成了曲线图曲线图是折线图的理论图8081141156215205196191187181177173143158218206197192187182177173144159223207197194188182178174149160225208198194188183178174150160226209198195188184178174152161228210200195189185179175153161233210201196189186179175153162233211202196189186179175154163234211203196190187180176155163234213203196190187180176165164237214171172172172167168166168165168171172173165170172某电脑公司某年某电脑公司某年4个月销售量个月销售量82茎叶图茎叶图是反映原始数据的图形。它由茎和叶两部分构成。通过茎叶图,可以看出数据的分步形状及数据的离散状况,如分布是否对称,数据是否集中,是否有离群点等等。绘制茎叶图关键是设置好树茎。制作茎叶图时,首先把一个数字分成两部分,通常是以该数据的高位数值作为树茎,而且叶上只保留该数值的最后一个数字。如125分成12 5,12分成1 2,前部分是树茎,后部分是树叶。茎叶图类似于横置的直方图,与直方图相比,茎叶图既能够给出数据的分布状况,又能够给出每一个原始数据。而直方图虽然能够很好的显示数据的分布,但不能保留原始数值。在应用方面,直方图通常适用于数据量大的情况,茎叶图通常适用于小批量数据。83某电脑公司某年4个月销售量84圆形图也称饼图,是用圆形及园内扇形的面积来表示数值大小的图形主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用在绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的例如,关注服务广告的人数占总人数的百分比为25.5%,那么其扇形的中心角度就应为360025.5%91.80,其余类推85 其他广告1.0%房地产广告8.0%商品广告56.0%金融广告4.5%服务广告25.5%招生招聘广告5.8%图图2-8 2-8 某城市居民关注不同类型广告的人数构成某城市居民关注不同类型广告的人数构成86【例例】在在一一项项城城市市住住房房问问题题的的研研究究中中,研研究究人人员员在在甲甲乙乙两两个个城城市市各各抽抽样样调调查查300户户,其其中中的的一一个个问问题题是是:“您您对对您您家家庭庭目目前前的的住住房房状状况况是是否否满意?满意?1非非常常不不满满意意;2不不满满意意;3一一般般;4满满意意;5非常满意非常满意。表表210 甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数(户户)百分比百分比(%)向上累积向上累积 向下累积向下累积 户数户数(户户)百分比百分比(%)户数户数(户户)百分比百分比(%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合合 计计300100.087表表211 乙城市家庭对住房状况评价的频数分布乙城市家庭对住房状况评价的频数分布回答类别回答类别乙城市乙城市户数户数(户户)百分比百分比(%)向上累积向上累积 向下累积向下累积 户数户数(户户)百分比百分比(%)户数户数(户户)百分比百分比(%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.030027918010238100.093.060.0