《(精品)第二章统计资料的收集与整理.ppt》由会员分享,可在线阅读,更多相关《(精品)第二章统计资料的收集与整理.ppt(74页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、思考题思考题 Thinking Challenge你用什么办法可你用什么办法可以知道广大学生以知道广大学生对学校食堂的评对学校食堂的评价如何?价如何??1984-1994 T/Maker Co.统统计计整整理理统统计计调调查查统计研究的程序统计研究的程序统计研究目的统计研究目的统计设计统计设计推推断断分分析析描描述述分分析析第二章第二章 统计资料的收集与整理统计资料的收集与整理 o第一节第一节 统计资料的收集与审核统计资料的收集与审核o第二节第二节 统计调查统计调查o第三节第三节 调查方案的设计调查方案的设计o第四节第四节 资料整理的方法资料整理的方法第一节第一节 统计资料的收集与审核统计资料
2、的收集与审核 一、原始资料的收集一、原始资料的收集 1.1.试验方法试验方法 控制一种或多种因素保持不变,只记录控制一种或多种因素保持不变,只记录某种所研究因素的变化情况。某种所研究因素的变化情况。问题:如何证明在商场进行的广告宣传是否问题:如何证明在商场进行的广告宣传是否有效?有效?指直接从各调查单位指直接从各调查单位收集的用来反映收集的用来反映个体个体特征的数据资料特征的数据资料统计调查是整个统计认识活动的基础,统计调查是整个统计认识活动的基础,决定着统计认识过程及其结果的成败决定着统计认识过程及其结果的成败 收集收集原始数据资料原始数据资料 的统计活动过程的统计活动过程统计调查统计调查要
3、求:要求:准确、及时、准确、及时、全面、系统全面、系统 是根据研究的目的,采用一定的方法,对客观存在的事实进行记录,以取得实际统计资料的一种工作过程。2.统计调查统计调查o统计调查与试验方法的区别:o 统计调查是以实际发生的结果为依据,研究哪些因素对结果产生了影响;而试验是从控制条件出发,通过改变某一因素的数据观察对试验结果产生什么影响o二、次级资料的收集二、次级资料的收集 o1.公开的出版物o2.来源于内部调查的数据o三、统计资料的审核三、统计资料的审核 就是对原始资料进行审查与核实,目的在于保证资料的客观性、准确性和完整性 审核统计资料应根据不同的资料来源,选择不同的审核重点和审核办法 既
4、要审核在填报过程中出现的错误,还需要审查资料的来源是否正确 第二节第二节 统计调查统计调查 一、统计调查的组织形式一、统计调查的组织形式 按组织方式不同,可以分为定期报告制度按组织方式不同,可以分为定期报告制度和专门调查和专门调查 按调查对象包括范围的不同,可以分为全面按调查对象包括范围的不同,可以分为全面调查和非全面调查。调查和非全面调查。1.定期报告制度(统计定期报告制度(统计报表制度)报表制度)定期报告制度是指由国家或企业统一制定定期报告制度是指由国家或企业统一制定报表内容和表式,由下级部门按一定的程序报表内容和表式,由下级部门按一定的程序定期向上级部门报送资料的一种方式定期向上级部门报
5、送资料的一种方式。优点优点能能保证统计资料的全面性和连续性保证统计资料的全面性和连续性能保证统计资料的统一性和及时性能保证统计资料的统一性和及时性能满足各级部门对统计资料的需要能满足各级部门对统计资料的需要局限局限统计报表过多会增加基层负担统计报表过多会增加基层负担有可能由于虚报瞒报而影响统计资有可能由于虚报瞒报而影响统计资料质量料质量总体单位总体单位调查单位调查单位统计调查的组织方式统计调查的组织方式总体单位总体单位调查单位调查单位报表制度报表制度可以全面调查,但可以全面调查,但通常是调查限定规通常是调查限定规模以上的总体单位模以上的总体单位统计调查的组织方式统计调查的组织方式2.普查(ce
6、nsus)普查普查是一种专门调查,它是为了某种特定目的而对总体中所有个体进行的一次性的全面调查。作用作用可以收集总体全面、准确的数据资可以收集总体全面、准确的数据资料,收集统计报表所不能提供的反料,收集统计报表所不能提供的反映重大国情国力的基本统计信息映重大国情国力的基本统计信息局限局限由于需要大量的人力、物力和财力,由于需要大量的人力、物力和财力,不宜经常进行不宜经常进行特点特点一次性、全面性一次性、全面性总体单位总体单位调查单位调查单位统计调查的组织方式统计调查的组织方式总体单位总体单位调查单位调查单位普普 查查统计调查的组织方式统计调查的组织方式对全部单位对全部单位进行调查进行调查普查普
7、查案例:我国历次人口普查案例:我国历次人口普查次别次别第一次第一次第二次第二次第三次第三次第四次第四次第五次第五次主要主要目的目的配合各级人民配合各级人民代表大会的选代表大会的选举,为第一个举,为第一个五年计划提供五年计划提供依据依据为制定第为制定第三个五年三个五年计划和长计划和长远规划提远规划提供依据供依据结束动乱,结束动乱,为给国家制为给国家制定政策和计定政策和计划提供人口划提供人口数据数据为检验为检验“七七五五”计划执计划执行情况,制行情况,制定定“八五八五”计划提供数计划提供数据据为了制定国民为了制定国民经济和社会发经济和社会发展战略规划,展战略规划,实现人口与资实现人口与资源、环境的
8、协源、环境的协调发展调发展 普查普查对象对象*常住人口常住人口常住人口常住人口常住人口常住人口常住人口常住人口常住人口常住人口标准标准时间时间1953.7.1零时零时1964.7.1零时零时1982.7.1零时零时1990.7.1零零时时2000.11.1零零时时调查调查项目项目6项项:本户地址、姓本户地址、姓名、性别、年名、性别、年龄、民族、与龄、民族、与户主关系。户主关系。9项:新增项:新增本人成分、本人成分、文化程度、文化程度、职业。职业。19项:新增项:新增本户人数、本户人数、本户出生人本户出生人数、本户死数、本户死亡人数等。亡人数等。21项:新增项:新增五年前常住五年前常住地状况、迁
9、地状况、迁来本地原因。来本地原因。短表:短表:9项。项。长表:长表:26项。项。(增加生育、(增加生育、婚姻、学业、婚姻、学业、职业等项目)职业等项目)3.重点调查 重点调查重点调查属于非全面性调查,即只对调查总体中的部分个体(重点单位)重点单位)进行调查。这些单位数目这些单位数目这些单位数目这些单位数目不多,但其标不多,但其标不多,但其标不多,但其标志值在总体标志值在总体标志值在总体标志值在总体标志总量中占有志总量中占有志总量中占有志总量中占有较大比重,能较大比重,能较大比重,能较大比重,能反映总体的基反映总体的基反映总体的基反映总体的基本情况本情况本情况本情况作用作用能以能以较少的投入和较
10、快较少的投入和较快的速度取得总体基本情的速度取得总体基本情况及变动趋势的资料况及变动趋势的资料局限局限只只适用于客观存在着适用于客观存在着重点单位的情况重点单位的情况特点特点目的在于反映现象总体的目的在于反映现象总体的基本情况,重点单位的选基本情况,重点单位的选择不带有主观因素。择不带有主观因素。总体单位总体单位调查单位调查单位统计调查的组织方式统计调查的组织方式总体单位总体单位调查单位调查单位重点调查重点调查只调查重点单位(单位只调查重点单位(单位数不多但其标志量占标数不多但其标志量占标志总量比重较大的单位)志总量比重较大的单位)统计调查的组织方式统计调查的组织方式 要了解全国煤碳的生产变化
11、情况,只要对全国几个大型矿务局进行调查,就可以及时地了解全国煤碳生产的基本情况。对为数不多的大型钢铁企业进行调查,就可以对全国钢铁产品的产量、品种、质量等变化情况作出基本分析。对我国32个大中城市的零售商品价格的变化进行调查,可以及时了解全国城市零售商品价格变化的趋势。例例4.抽样调查o为什么要抽样为什么要抽样调查调查?o1.涉及破坏受试对象涉及破坏受试对象n质量控制质量控制o2.取得精确可靠的结果取得精确可靠的结果o3.实际情况的约束实际情况的约束n时间,成本等时间,成本等o抽样抽样调查调查就是从总体中选取部分个体单位作为样本进行调查的一种形式.分为两大类:非概率抽样和概率抽样。非概率抽样和
12、概率抽样。二、抽样形式二、抽样形式(一)非概率抽样非概率抽样1.方便抽样(方便抽样(convenience samples)就是在选择样本时以方便为原则,是选择样就是在选择样本时以方便为原则,是选择样本和搜集资料的一种相对简单的方法本和搜集资料的一种相对简单的方法 2.主观抽样(judgment samples)根据个人的主观意识来选择总体中有代表性个体的方法,在我国也称为典型调查典型调查 典型调查o根据调查目的,在对调查对象有一定了解的在对调查对象有一定了解的基础上,有意识地选择少数基础上,有意识地选择少数典型单位典型单位 进行进行调查的一种非全面调查组织方式调查的一种非全面调查组织方式。o
13、典型单位典型单位指在数量表现指在数量表现指在数量表现指在数量表现上具有普遍意上具有普遍意上具有普遍意上具有普遍意义和代表性的义和代表性的义和代表性的义和代表性的总体单位,可总体单位,可总体单位,可总体单位,可以用来推断总以用来推断总以用来推断总以用来推断总体的数量体的数量体的数量体的数量一般典型一般典型若调查目的是研究现象发展变化的一般规律,就应选择那些能代表全面情况的一般典型。突出典型突出典型调查目的若是在于总结成功经验或失败教训,就应选择突出典型,即一般所说的先进或落后的典型。o选择典型单位的基本准则是:要对被研究的社选择典型单位的基本准则是:要对被研究的社会经济现象进行全面的科学分析,并
14、能反映调会经济现象进行全面的科学分析,并能反映调查的目的和任务及调查对象本身的特点,查的目的和任务及调查对象本身的特点,总的总的原则是典型单位不宜选得过多。原则是典型单位不宜选得过多。o典型调查虽选取单位不能排除主观性,推断总典型调查虽选取单位不能排除主观性,推断总体只能是近似值,但选取单位数量少,取得资体只能是近似值,但选取单位数量少,取得资料快,调查效率高,特别适用于了解新情况、料快,调查效率高,特别适用于了解新情况、解决新问题的调查。解决新问题的调查。o“开调查会开调查会”、“个别访问法个别访问法”、“蹲点调查蹲点调查法法”等在典型调查中有独特的意义。等在典型调查中有独特的意义。总体单位
15、总体单位调查单位调查单位典型调查典型调查对典型单位进行调对典型单位进行调查,典型单位的选查,典型单位的选择并不一定按规模择并不一定按规模3.配额抽样(quota samples)配额抽样配额抽样首先要将总体按一定标志分层或分类,然后在各层或各类中主观地确定抽样比例,根据比例主观地选取个体单位组成样本 4.滚雪球抽样(snowball samples)是通过初始被调查者的推荐来挑选下一个被调查者的抽样程序(二)概率抽样概率抽样 按照随机原则从总体中抽取一部分单位作为样本进行观察,取得数据资料,以此对总体数量特征做出具有一定可靠程度的推算的调查方法。随机原则:随机原则:o它是一种在抽取中必须保证实
16、现的客观原则,其客观性体现在:o保证总体中每一个单位的中选或不中选不受任何主观因素的影响。o必须保证各单位有相同的中选(不中选)的可能性。总体单位总体单位调查单位调查单位按随机原则选择调按随机原则选择调查单位,各单位被查单位,各单位被选中的机会相同。选中的机会相同。1.简单随机抽样简单随机抽样(simple random sampling)就是按照随机原则从总体中随机抽取个体组成就是按照随机原则从总体中随机抽取个体组成一个样本,每一个个体被抽中的机会都是相等的一个样本,每一个个体被抽中的机会都是相等的 2.等距抽样(systematic sampling)排序依据的标志:(排序依据的标志:(1
17、)无关标志;()无关标志;(2)有关标志)有关标志(总体单位按某一标志排序)(总体单位按某一标志排序)等距抽样等距抽样又称系统抽样,这种抽样的方法是先将个体按某一标志排队,然后随机确定某一开始位置,再按一定的相等距离抽取调查单位3.分层抽样(stratified samples)就是先将总体依照某一种或某几种特性分就是先将总体依照某一种或某几种特性分为若干个层(或组),然后从每一层中随为若干个层(或组),然后从每一层中随机地抽取个体单位组成样本机地抽取个体单位组成样本。总体总体N样本样本n等额等额等比例等比例4.整群抽样整群抽样(cluster samples)就是将总体按照某种标志划分成为就
18、是将总体按照某种标志划分成为不同的群不同的群,然后随机抽取几个然后随机抽取几个群群,对抽出群中的个体单位进,对抽出群中的个体单位进行调查行调查 ABCDEFGHIJKLMNOPLHPD样本容量样本容量例:总体群数例:总体群数例:总体群数例:总体群数R=16 R=16 样本群数样本群数样本群数样本群数r=4r=4重复抽样重复抽样又被又被称作重置抽样、有放回抽样称作重置抽样、有放回抽样放回放回总体总体抽出抽出个体个体登记登记特征特征继续继续抽取抽取特点特点同一总体单位有可能被重复抽中,同一总体单位有可能被重复抽中,而且每次抽取都是独立进行而且每次抽取都是独立进行5.抽样方法抽取样本的具体方法有抽取
19、样本的具体方法有重复抽样重复抽样和和非重复抽样非重复抽样不重复抽样不重复抽样又被又被称作不重置抽样、不放称作不重置抽样、不放回抽样回抽样抽出抽出个体个体登记登记特征特征继续继续抽取抽取特点特点同一总体中每个单位被抽中的机会并同一总体中每个单位被抽中的机会并不均等,在连续抽取时,每次抽取都不均等,在连续抽取时,每次抽取都不是独立进行不是独立进行是最为常用的抽样方法,用于无限总是最为常用的抽样方法,用于无限总体和许多有限总体样本单位的抽样。体和许多有限总体样本单位的抽样。三、统计调查方法三、统计调查方法1.观察法(observation research)就是由调查者直接观察记录被调查对象的有关资
20、料 2.自填法(self-reports research)即由被调查对象按调查者制定的调查表自行填报的方法访问调查访问调查调查者调查者被调查者被调查者 平等合作平等合作调查者调查者被调查者被调查者 平等合作平等合作3.访问法访问法(interview research)是指由调查人员直接对被调查者是指由调查人员直接对被调查者进行询问并记录调查结果的方法进行询问并记录调查结果的方法第三节第三节 调查方案的设计调查方案的设计 调查方案调查方案用来指导整个调查工作的纲领性文用来指导整个调查工作的纲领性文件,是统计设计在统计调查阶段的具体化件,是统计设计在统计调查阶段的具体化o一、调查方案的主要内容
21、一、调查方案的主要内容o二、调查问卷的设计二、调查问卷的设计 一、调查方案的主要内容一、调查方案的主要内容o1.确定统计调查的目的(为什么调查)(为什么调查)o2.确定调查的总体、个体或样本(向谁调查)(向谁调查)o3.确定调查项目(调查什么)(调查什么)o4.确定时间和期限o5.确定组织及实施计划二、调查问卷的设计二、调查问卷的设计 o1.1.问卷(问卷(questionnairequestionnaire)的作用)的作用 问卷就是为了收集数据信息而设计好的由一问卷就是为了收集数据信息而设计好的由一系列问题所组成的表格系列问题所组成的表格o2.2.设计问卷的原则设计问卷的原则o设计问卷的基本
22、要求是:主题明确,形式简明,设计问卷的基本要求是:主题明确,形式简明,文字通俗,便于回答。设计中主要掌握以下几文字通俗,便于回答。设计中主要掌握以下几个原则:个原则:n(1 1)必须满足决策者的需要。)必须满足决策者的需要。n(2 2)要适合受访者。)要适合受访者。n(3 3)要方便调查者记录或管理)要方便调查者记录或管理 n(4 4)易于快速检查和录入)易于快速检查和录入 图2-1设计问卷流程图确定调查总体或样本确定调查总体或样本确定调查问题确定调查问题决定问题回答形式决定问题回答形式编排问题顺序编排问题顺序对问卷评价对问卷评价问卷测试问卷测试实施实施确定调确定调查目的查目的通过通过通过通过
23、修改修改修改修改3.问卷设计的流程引言内容引言内容:目的、意义、主要内容、调查的组织单位、结果使用者、保密措施等;作用作用:调动积极性,排除顾虑,配合调查 篇幅不易过长。注释注释:问卷的填写说明。4.1问卷设计中应注意的问题 问卷开头的设计技巧 设置一个问句实质上就是设置一个变量,对问句的回答,就是给出变量值(1)开放式问句 即提出问题,由被调查者自由回答,问卷中不设备选答案(2)封闭式问句 这种问句在提出问题的同时就给出若干个备选答案,要求被调查者从中选取一个或多个作为回答 填空式 A.您今年的年龄 B.您单位的名称 _是否式 A.您家购买了数码像机吗?是 否 B.您是否喜欢观看足球比赛?是
24、 否 4.2问卷设计中应注意的问题 问答题的主要类型及询问方式多项选择式 您的文化程度是您的文化程度是(单选式)小学及以下 初中 高中 大专以上矩阵式(或表格式)您单位是否存在下列现象?您单位是否存在下列现象?(在每一行选择一个)。很严重 比较严重 不严重 不存在 a.迟到 b.早退 c.旷工 4.2问卷设计中应注意的问题 问答题的主要类型及询问方式o(3)量表式o 量表量表(scale)式是一种测量技术,这种方式也属于多项单选式,不同的是它一种梯次选答式。可选答案是一系列成梯次排列的修饰词语或依次排列的量值区间。优点:可以对应答者态度的强弱进行测量,量表式的答案可以转换成数字,并且这些数字可
25、直接用于编码 4.2问卷设计中应注意的问题 问答题的主要类型及询问方式语意差别量表(Semantic Differential)语意差别量表:职业社会地位我们很想知道你对职业的社会地位是如何理解的。请对以下项目作答,以表明你对职业社会地位的理解。对每对形容词打“”,并且每对词只打一个“”。要将“”打在空格正中间,而不是边上,比如如果你觉得你的职业社会地位是稳定的,就这样打:稳定的:变动的如果你觉得职业社会地位是变动的,就这样打:稳定的:变动的如果你觉得职业社会地位既不是自主的,也不是受控的,那就将打在靠近中央的空格上,置于偏向哪一边,随你意愿。职业社会地位稳定的:变动的非竞争的:竞争性的满意的
26、:不满意普通的:特殊的重要的:无足轻重的成功的:失败的不快的:愉快的 安全的:有偏见的好:坏刺激的:乏味的有益的:无益的 老一套的:富于变化的自主的:受控的有意义:无意义美好的:讨厌的紧张:轻松灵活:刻板李克特态度量表(Likert Attitude Scale)具有结构强度的李克特量表下面是一些陈述句,右边有一些态度描述。请仔细阅读每个句子,在最符合您想法的态度选项打勾。很赞成还算赞成不确定不赞成绝不赞成1.工人天生是懒惰的543212.工人不会主动提高生产效率543213.工人对企业绩效没有贡献543214.工人不在意企业是否有发展543215.工人是缺乏道德感和责任感的54321社会距离
27、量表(Bogardus Social Distance Scale)鲍格达斯社会距离量表愿意不愿意1.你愿意让爪哇国人生活在你的国家吗?2.你愿意让爪哇国人住在你所在城市吗?3.你愿意让爪哇国人住在你的社区吗?4.你愿意让爪哇国人住在你们那条街吗?5.你愿意让爪哇国人做你的邻居吗?6.你愿意与爪哇国人交朋友吗?7.你愿意让你的孩子与爪哇国人结婚吗?直接性问答题 您的年龄间接性问答题 您的身份证号码 你的年级假设性问答题 有些学生上课不听,考前突 击,你有什么看法q自由联想式问答题 对我的授课有什么意见q控制联想式问答题 看电视想到什么食品q引导联想式问答题 给问题和答案及补充4.2问卷设计中应
28、注意的问题 问答题的主要类型及询问方式 总体要求:总体要求:问句表达要简明、生动;注意概念的准确性;避免歧义性问题。1)避免提笼统、抽象、或过于专业化的问题。如:你认为税务机构应如何进行税法检查,你对企业做假帐有何看法 2)避免用不缺切的词语。经常、很久、一些、美丽等个人理解不同,如:你经常看电影吗?你经常打球吗?4.3问卷设计中应注意的问题 各种问答题的询问技巧 3)避免引导性提问 如:你对党员自愿交纳党费有何看法。大家都认为,你认为。4)避免推断定性的问题 如:你30几?(其实26)5)避免提及令被访者难堪、禁忌和敏感的问题 释疑法、假定法、转移法 6)问题考虑时间性 时间过久易忘4.3问
29、卷设计中应注意的问题 各种问答题的询问技巧 7)拟定问句要有明确的界限 如:收入(工资、津贴等)年龄(虚岁、实岁)8)避免一问多答;对象多个,答案一个 如:你们是国贸0301班学生吗?9)注意提问顺序 关心的在前,有兴趣的在前,控制联想式在前,其余在后。4.3问卷设计中应注意的问题 各种问答题的询问技巧1答案设计的基本方法 1)二项选择法 是 否 有 无 0 1 2)多项选择法 你喜欢什么品牌的篮球鞋?3)排序法 对给出的答案进行全部或部分的排序。4)回忆法 列举出洗发水的几个品牌。5)比较法 4.4问卷设计中应注意的问题 问句答案设计技巧2答案设计时应注意的事项 1)答案要穷尽 政治面貌 党
30、员 群众 动机调查中的原因列示 2)答案互斥 娱乐支出、上网支出;食品、饮料 3)定距、定比问题的答案设计 收入档次。档次不宜太多,不能间断。4)注释和填答标记应恰当 4.4问卷设计中应注意的问题 问句答案设计技巧第四节第四节 资料整理的方法资料整理的方法 资料整理是统计分析的前提条件。统计资料整理是统计分析的前提条件。统计调查所得到的资料都是零散的、无序的,只调查所得到的资料都是零散的、无序的,只能反映出每一个调查单位的特征,而不能反能反映出每一个调查单位的特征,而不能反映出总体的特征。在进行统计分析之前,必映出总体的特征。在进行统计分析之前,必须对这些资料进行分组和汇总,使之系统化须对这些
31、资料进行分组和汇总,使之系统化和条理化,体现出总体的本质与规律,以满和条理化,体现出总体的本质与规律,以满足统计分析的需要。概括的说,足统计分析的需要。概括的说,资料整理资料整理就就是将调查所得到的资料按照研究的目的进行是将调查所得到的资料按照研究的目的进行分组、汇总的工作过程分组、汇总的工作过程。一、统计分组一、统计分组o统计分组统计分组(statistics classification)o 就是根据统计研究的需要,将总体按照一定的标志划分为若干个组成部分的方法。它包括以下几个步骤:o按照研究目的,选择一个或一个以上的分组标志,对调查资料进行分组;o编制适当表格以便汇总资料;o将资料逐一进
32、行计数和加总。分组分组分组前分组前分组前分组前分组后分组后分组后分组后2533421划分现象类型划分现象类型作用:作用:例:按所有制性质划分,我国现有例:按所有制性质划分,我国现有8种经济类型:种经济类型:国有经济;集体经济;私营经济;个体经济国有经济;集体经济;私营经济;个体经济联营经济;股份制经济;外商投资经济;港联营经济;股份制经济;外商投资经济;港澳台投资经济澳台投资经济 2研究总体结构研究总体结构例:上海市按例:上海市按GDP计算的三次产业结构(计算的三次产业结构(%)1980年年1990年年 1996年年 1997年年 GDP100 100 100 100 第一产业第一产业3.2
33、4.32.5 2.3 第二产业第二产业75.7 63.854.5 52.2 第三产业第三产业21.1 31.943.0 45.53研究现象之间的依存关系研究现象之间的依存关系例:中国农民家庭按收入分组的恩格尔系数(例:中国农民家庭按收入分组的恩格尔系数(1984年)年)按收入分组(元)按收入分组(元)200 300 400 500 600 800 1000恩格尔系数(恩格尔系数(%)64.9 60.2 56.7 54.4 50.5 49.9 43.6 其作用如下:(1)可以区别事物的不同性质(2)可以反映和研究总体内部结构(3)反映和研究现象之间的依存关系数据分组整理之前一般需要进行数据预处理
34、。统计分组按标志分组有:n品质标志分组n数量标志分组一、统计分组一、统计分组二、按品质标志分组二、按品质标志分组 按品质标志分组可以将统计资料划分成若按品质标志分组可以将统计资料划分成若干个性质不同的组成部分,可以区别个体之间干个性质不同的组成部分,可以区别个体之间的不同属性。的不同属性。根据标志进行分组就会形成不同的组别以根据标志进行分组就会形成不同的组别以及每一组别相应出现的累计的频数(数字),及每一组别相应出现的累计的频数(数字),这样就形成了频数分布(这样就形成了频数分布(frequency distribution)o频数与频率频数与频率 o频率分布频率分布 某商业银行使用信用卡顾客
35、的职业分类表 职 业 顾客人数(频数)百分比(频率)管理人员技术人员服务人员销售人员生产工人其他人员191821539567706163530955335.94%28.84%12.68%11.55%9.95%1.04%合 计53372100.00%三、按数量标志分组三、按数量标志分组o选择数量标志为分组标志,就是将总体按数量的差异划分为具有不同数值的组成部分,以便反映出各组别在数量上存在的差异。o按数量标志分组进行分组有两种类型,一是单项式分组,一是组距式分组。o1.单项式分组o当整理的是标志值较少且变动范围不大的数据资料时,一般选择进行单项式进行分组,所形成的分布称为单项式频数分布。单项式分
36、组:一个变量值列为一组。单项式分组:一个变量值列为一组。如:对居民家庭按家庭人口数进行分组:如:对居民家庭按家庭人口数进行分组:人人人人人人人人人及以上人及以上例例组距式分组:若干个变量值列为一组。组距式分组:若干个变量值列为一组。如:如:A、企业的工人按日企业的工人按日 B、工人按工资水平分组(连)工人按工资水平分组(连)产零件数分组(离)产零件数分组(离)50-60 300-400 60-70 400-500 70-80 500-600 80-90 600-700 90以上以上 700-800适用于离散适用于离散型变量,且型变量,且变量值不多变量值不多时。时。适用于连续型变适用于连续型变量
37、,且变量值变量,且变量值变化范围大时。化范围大时。o2.组距式分组o组距式分组的方法是,首先选择某一数量标志,然后按标志值的大小分为不同的组别,在每一组中都包含若干个标志值,最后将每一组别出现的次数累计加总,由此形成的分布就是组距式频数分布。o组距式分组,仍要遵循“互斥”和“穷尽”的原则,还要同时考虑确定最佳的组数、组限和组距 三、按数量标志分组三、按数量标志分组例例组距式分组:若干个变量值列为一组。组距式分组:若干个变量值列为一组。如:如:A、企业的工人按日企业的工人按日 B、工人按工资水平分组(连)工人按工资水平分组(连)产零件数分组(离)产零件数分组(离)50-60 300-400 60
38、-70 400-500 70-80 500-600 80-90 600-700 90以上以上 700-800适用于连续型变适用于连续型变量,且变量值变量,且变量值变化范围大时。化范围大时。例:学生按成绩分组(分)例:学生按成绩分组(分)(1)5060 6070 7080 8090 90100(2)60以下以下 6069 7079 8089 90以上以上o(1)组数的确定o所分组数组数(number of classes)越多,资料显示的就越详细,信息损失就越小,但不便于总结归纳 o美国统计学家斯特吉斯提供的公式,近似地确定分组数目。现在用K代表组数,N代表分组数据的总数,分组数目的计算公式如下
39、:3.322logN 三、按数量标志分组三、按数量标志分组o(2)组限的确定o组限组限(class linit)是指一个组两端的极值,最小值叫下限下限(lower linit),最大值叫上上限限(upper linit)。o确定组限是分组过程中最重要的步骤。组限相当是一个分水岭,它将数据分为不同性质的部分,组限是否适当直接影响分析的结果。组内同质性;组间差异性三、按数量标志分组三、按数量标志分组o例:企业按产值计划完成程度分组(例:企业按产值计划完成程度分组(%):):o 100100以下以下以下以下o 100110o 110以上以上95-105105-115115以上以上()三、按数量标志分
40、组三、按数量标志分组o在分组时,如果标志值的数据是离散型数据,则相邻组的上、下限必须间断,不能重叠,以防数据的重复统计(互斥)。o如果标志的数值是连续型数据,在确定组限时,相邻组的上、下限应该重叠设置,以防止数据在归类时发生遗漏(穷尽)。o为了保证不出现重复填报的问题,有一个约定俗成的原则,即“上组限不在内”。三、按数量标志分组三、按数量标志分组o(3)组距的确定o组距组距(class interval)就是组与组之间的数值距离,是一个组的上(下)限与它相邻组上(下)限的差值的绝对值 o各组组距之间如果是相等的,则称为等距等距分组分组;各组组距之间如果是不相等的,则称为异距分组异距分组 三、按
41、数量标志分组三、按数量标志分组o(4)其他问题o什么是“开口组”o最低组下限最低组上限最低组下限最低组上限-与邻组的组距与邻组的组距 o最高组上限最高组下限最高组上限最高组下限+与邻组的组距与邻组的组距 o组中值:o用组中值代表每组一般水平时,有一个基本假设,即各变量值在本组内呈均匀分布或在组中值两侧对称分布。三、按数量标志分组三、按数量标志分组四、累计频数分布四、累计频数分布我国城市按人口分组累计表(1987年底)按人口分组城市数(频数)城市数(频率)向下累计频数向下累计频率向上累计频数向上累计频率10万人以下10-30万人30-50万人50-100万人100-200万人200万人以上139
42、09011558510.0310.2160.2160.2760.1390.122417404314224109511.0000.9690.7530.5370.2610.122131031933083664170.0310.2470.4630.7390.8781.000合 计4171.000全距与组距全距与组距等距与异距等距与异距组限与组中值组限与组中值开口组与闭口组开口组与闭口组 连续组距分组连续组距分组 和不连续组距分组和不连续组距分组 重叠组限重叠组限 “上限不在内上限不在内”原则原则 例:关于组距式分组的几个例:关于组距式分组的几个问题问题例:学生按成绩分组(分)例:学生按成绩分组(分)
43、(1)5060 6070 7080 8090 90100(2)60以下以下 6069 7079 8089 90以上以上组距=80-70=10上限:80下限:70开口组闭口组组中值组中值组中值重叠组限值70归于7080组不连续组距式分组连续组距式分组五、使用表格进行整理五、使用表格进行整理o在整理过程中使用的表格可以分为两种,一种是简单表,一种是分组表。o1.简单表 o就是不进行分组所形成的统计表格。o2.分组表 o分组表是指按个体的某一标志或多个标志进行分组所形成的表格。o3.使用表格的要求(自学)五、使用表格进行整理五、使用表格进行整理企业名称所有制企业规模全年利润机床厂热电厂电机厂制药厂o1.简单表 o就是不进行分组所形成的统计表格。表表2-14 按个体名称排列的简单表按个体名称排列的简单表2.分组表o分组表是指按个体的某一标志或多个标志进行分组所形成的表格。例:表215;216企业所有制工业增加值企业规模全年利润国有私营股份制表表2-152-15 按所有制分组按所有制分组企业名称工业增加值全年利润国有国有大型中型小型私私营营大型中型小型股份制股份制表表2-16 2-16 按所有制及企业规模分组按所有制及企业规模分组
限制150内