第二章 统计数据的整理.doc
第二章统计数据的整理【学习目标】本章主要介绍有关统计数据整理的基础知识,包括数据整理的含义及其重要性、数据整理的内容、数据分组的意义、分组的类型和方法、经济统计中的常用分类、分配数列的含义和类型、一些分配数列中的概念、变量数列的编制方法、统计表的构成和编制、各种统计图的绘制等,这些内容对以后学习统计数据的描述有着重要的作用。学习时要求掌握统计数据整理的最基本理论,在此基础上熟练掌握主要的整理操作方法,能够根据不同的统计原始数据编制相应的分配数列,并能根据所编制的数列编制恰当的统计表和绘制适当的统计图。【重点难点】1数据整理的内容2数据分组的类型和方法3经济统计中的常用分类4变量数列的编制方法5统计表的编制6各种统计图的绘制【学习内容】第一节统计整理的意义和内容一、统计数据整理的意义统计数据整理,就是根据统计研究的任务与要求,将调查所得到的大量原始资料进行科学的加工、分类、汇总,使之条理化、系统化,得出能够反映总体综合特征的统计资料的工作过程。大量数据收集上来以后,并不能直接用来分析,因为这些数据间的差异仍然体现为一种原始的无序的状态,只有经过整理后我们才能找出现象的规律性。例如,通过人口普查,可以取得每个人的性别、年龄、民族、文化程度和婚姻状况等个体资料,这仅说明单个人的具体情况,然而,通过对普查人口资料的整理,就可以得到全国及各地区的人口总数、人口性别结构、民族构成、年龄结构等反映全国人口综合特征的统计资料,达到对全国人口的全面、系统的认识。统计数据的整理工作在统计工作过程中具有十分重要的地位,它实现了从调查得到的大量个别单位的标志表现向说明总体数量特征的指标数值的过渡,是人们对社会经济现象从感性认识上升到理性认识的连接点。同时,统计整理又是统计分析的前提,如果不对统计资料进行整理,就得不到必要的统计分组和变量数列,也得不到科学合理的统计图表,就无法计算统计分析指标,也就谈不上进一步的统计分析了。可见,统计数据整理既是统计调查的继续和深化,同时又是统计分析的基础和前提,具有承前启后的作用。如果这一步工作搞不好,将会使调查来的丰富、完备的资料失去价值,从而也不能达到统计工作的目的和完成统计工作的任务。二、统计数据整理的内容统计数据整理的内容主要包括以下几个方面:(一)统计数据的预处理调查资料的审核为了确保统计工作的质量,在统计调查资料汇总整理前,首先要做好原始资料的审核和检查工作。因为资料一经汇总,原始资料中的差错就会被掩盖起来,会影响到整个统计工作的质量,故在整理之前必须对调查资料作严格审查。对原始资料的审核主要包括以下三个方面:1及时性审核资料的及时性,是检查资料是否符合调查方案规定的时间以及资料是否按规定的时间报送等。任何单位的资料不能及时取得,都将会影响整个统计工作的进程,对于某些时效性较强的问题,如果统计数据过于滞后,就失去了研究的意义。2完整性审核资料的完整性,一是检查调查表是否都已收齐;二是要检查调查表中所填写的项目有无遗漏,是否齐全等。对于不完整的资料,应采取适当的措施加以补救,避免出现大的数据偏差。3正确性审核资料是否正确是审核资料的重点。审核办法主要有以下两种:一是逻辑检查法。即检查调查资料各项目之间的关系是否合乎逻辑,有无不合理或相互矛盾的现象。例如,人口调查中,少年儿童年龄段的居民不应有婚姻情况,人口数量不应小于家庭户数;工业调查中,工业总产值应大于工业净产值,全年产值应大于每个季度的产值,等等。二是计算检查法。即检查资料的统计口径和范围、计算方法和计量单位是否符合要求;统计数字有无差错;有关指标间的平衡关系是否得到保持等。例如,审核中要注意各单项之和是否等于小计,小计之和是否等于合计,各横行纵栏的合计有无错误等。通过审核发现错误以后,要分别不同情况及时纠正和处理。对弄虚作假、虚报瞒报、伪造篡改统计资料的,要按统计法严肃处理。统计资料的审核是一项严肃细致的工作,一定要认真对待,不可草率从事。(二)统计数据的分组和汇总这是整个统计整理工作的核心内容,如何对调查资料进行科学分组,我们将在本章第二节中详细介绍。按分组要求进行汇总,即通过计算机或手工将原始资料的各种标志值汇总、计量,得出总体指标。统计汇总有逐级汇总和集中汇总两种基本组织形式。(三)编制统计表和绘制统计图根据现象之间的内在联系和统计分析的要求,将总体有关数量关系编制在一张表上,就形成了统计表,统计表使统计资料的表现更加明白、清晰。统计图是表现统计资料的另一种更直观、更形象的手段。有关统计表和统计图的详细内容,我们将在本章第四节中介绍。第二节统计分组一、统计数据分组的涵义统计分组是按照某种标志将统计总体划分为若干个组成部分的一种统计方法。总体的组成部分称为“组”。统计分组的基本作用,在于使数据资料条理化。合理的分组将总体划分为组间差异较大、组内差异较小或没有差异的若干部分,这就便于进一步的分析研究。例如,在人口统计中,我们除了掌握全部人口的总数量外,还要按照性别、年龄、民族等标志把人口总体区分为各种不同的组,汇总计算各组的各种标志值,来丰富、完善我们对人口总体的认识。统计分组可以反映总体的分布特征,说明总体的结构,使我们对总体的认识深化,更好地揭示事物的本质和规律。统计分组在整个统计工作中占有十分重要的地位。它不仅是统计整理的基础,而且是统计分析的基本方法。二、统计数据分组的类型(一)字符型分组和数值型分组1字符型分组字符型分组是指选择反映事物属性差异的品质标志作为分组标志进行分组,并在该品质标志的变异范围内划定各组的界限,将总体划分为若干个性质不同的组成部分。例如,人口按性别、民族、职业、文化程度等分组;企业按所有制形式、隶属关系、地区、规模等分组都是字符型分组。2数值型分组数值型分组是指选择反映事物数量差异的数量标志作为分组标志进行分组,在数量标志的差异范围内划定各组界限,从而将总体分为性质不同的若干个组成部分。如企业按职工人数、计划完成百分比、资金利税率分组;学生按身高或学习成绩分组;职工按工资、年龄分组等等,都是按数量标志分组。按数量标志分组的目的并不是单纯确定各组的数量差别,而是通过数量变化来区分各组的不同类型和性质。(二)简单分组、复合分组和分组体系在统计整理中,为了全面认识被研究对象总体的数量特征,常常需要运用多个分组标志对总体进行分组,形成一系列相互联系、相互补充的统计分组体系。统计分组体系有平行分组体系和复合分组体系两种重要形式。1简单分组与平行分组体系对总体只按一个分组标志进行分组称为简单分组。简单分组只反映现象在某一标志特征方面的差异情况。同一总体选择两个或两个以上标志分别进行简单分组,平行排列起来,即成为平行分组体系。例如,对国民收入积累额的研究,可以进行以下平行分组,形成分组体系。国民收入积累额(1)按用途分:生产性非生产性(2)按性质分:固定资产流动资产平行分组体系中,各个分组都是彼此独立的,没有相互包含关系。它们各有侧重,相互补充,形成对总体全貌的完整认识。2复合分组与复合分组体系对同一个总体选择两个或两个以上的标志重叠或交叉起来进行分组,叫复合分组。复合分组的结果即形成复合分组体系。按多个标志分组和分组的层叠(或交叉)形成是复合分组体系的两个基本特点。具体地说,复合分组就是先按某一主要标志将总体分为若干组,再按其他有关辅助标志,对各组进行更细的分组,从而形成一种具有许多层次的分组组合形式。例如,对国民收入积累额的研究,可以作如下复合分组:国民收入积累额:按用途分按性质分 固定资产生产性流动资产固定资产非生产性流动资产通过复合分组,可以从多角度对现象总体内部差别进行描述,反映问题全面深入。进行复合分组时,首先应合理安排好各个分组标志的主次关系,以及由此决定的分组层次。这样,才能做到主次分明,层次清楚。另外,分组标志不宜太多,因为复合分组体系的总组数是各分组标志所分组的乘积,每增加一个分组标志,就会增加一个分组层次,组数也会成倍增加,从而使资料显得冗长、繁琐。一般以两个分组标志为宜,最多不要超过三个分组标志层叠分组。在实际工作中,平行分组体系和复合分组体系常常是结合运用的。三 、统计分组的原则和方法统计分组的关键问题是正确选择分组标志和划分各组的界限,它们不仅直接影响统计分组的科学性和统计资料整理的准确性,而且也影响统计分组结果的真实性。(一)统计数据分组的原则科学的统计分组,应遵循以下几项原则:1必须坚持组内统计资料的同质性和组间资料的差异性,这是统计分组的一个基本原则。2必须遵循穷举性和互斥性原则。所谓穷举性,是指每一个总体单位都能归到某一组;而互斥性是指每一个总体单位只能归属于一组,不能同时归属于两个或两个以上的组。(二)分组标志的选择正确地选择分组标志是统计分组的核心。分组标志就是作为分组依据的标志。分组标志一经选定,就突出了总体在此标志下的性质差异,同时也将总体在其他标志下的性质差异给掩盖了。分组标志选择的是否恰当,关系到能否正确反映总体的数量特征及其变化规律,对同一总体采用不同的标志分组,其结果也不相同。如果分组标志选择不恰当,不但不能显示出所研究总体的基本特征,而且可能歪曲事物的本来面目,得出错误的结论。分组标志的选择应根据统计研究的目的和任务,结合现象所处的具体历史条件和经济条件,选择能够反映事物本质特征或主要特征的标志分组。(三)分组界限的划分分组标志确定以后,区分各组性质差别界限是十分重要的,各组之间界限的划分正确与否,直接影响统计分析结果的真实性。对于字符型分组,各组之间界限的划分在许多情况下是比较简单的,作为分组标志的品质标志一经确定,组的名称和组数也就确定了,不存在组与组之间界限难以划分的困难。如人的性别、民族分组等。但有些品质标志的涵义抽象繁杂,各组间性质差异不太明确,从这一组到另一组存在各种过渡状况,边缘不清,这种分组比较复杂。例如,国民经济的行业分类中,由于各部门都是在社会分工发展过程中逐渐形成的,工业首先从农业中分离出来,随后又从工业中分离出来了一些其他物质生产部门和非物质生产部门,这是一个由量变到质变的渐进过程,因此,工业与农业,工业与其他物质生产部门之间也必然存在着一些过渡形态。这些过渡状态是划归工业,还是划归其他物质生产部门,就是一个很复杂的物质分类问题。在实际工作中,为了使这些复杂的分类在全国有个统一的分类标准,国家统计局及中央有关部门,统一制定有关各种分类目录与规定标准,如国民经济分类目录、大中小型工业企业划分标准、工业部门分类目录、工业产品目录等等,供全国各地区、各部门、各单位分类时使用。完善统计分类目录,做到分类标准化是统计工作现代化的重要标志。数值型分组,由于作为分组标志的数量标志的变异表现为许多不同的变量值,这些单个的变量值只能反映现象数量上的差异,不能明确地反映现象性质上的区别,达不到统计研究的目的,因此分组的关键是掌握决定事物质的差异的数量界限。划分数量界限时,通常要考虑到每组的数量界限与事物本质特征的联系,以及进一步计算分析的需要,一般来说,组数不宜太多或太少,太多或太少均不能反映被研究对象的特点。关于这方面的具体划分办法,将在本章第三节中作详细介绍。四、社会经济统计中的常用分类(一) 经济类型分类经济类型分类是以生产资料的所有制性质和国家的有关法规作为划分的依据,我国国家统计局1998年9月新颁布的关于统计上划分经济成分的规定中,为了反映我国经济中所有制成分的构成情况,为宏观决策和管理提供依据,将我国国民经济的所有制构成类型划分为两大类五小类。1公有经济(包括国有经济和集体经济)2非公有经济(包括私有经济、港澳台经济和外商经济)。其中,公有经济是指资产归国家或公民集体所有的经济成分,包括国有经济和集体经济。国有经济是指资产归国家所有的经济成分;集体经济是指资产归公民集体所有的经济成分。非公有经济是指资产归我国内地公民私人所有或归外商、港澳台商所有的经济成分,包括私有经济、港澳台经济和外商经济。私有经济是指资产归我国内地公民私人所有的经济成分;港澳台经济是指资产归港澳台商所有的经济成分;外商经济是指资产归外商所有的经济成分。新的经济成分类型的划分办法,在我国坚持党的十五大提出的以公有制为主体,多种经济成分共同发展的决策下,为观察我国经济结构变化提供了一个更为准确、全面的工具,也为我国社会主义市场经济体制的建立提供了一个重要基础。人们可以更为清楚地认识我们所处的经济社会的构成和性质,宏观决策就有了更准确全面的依据。(二) 三次产业分类三次产业分类是目前世界上许多国家使用较多的一种产业结构划分方法,用以研究三次产业的内部结构、比例关系及其发展变化情况,反映社会分工及社会经济活动发展的不同阶段,也是我国国民经济核算的基础,其划分方法为:第一产业:农业,包括种植业、林业、牧业和渔业等。第二产业:工业(包括采掘业、制造业、自来水、电力、蒸汽、热水、煤气等供应业)和建筑业。第三产业:除上述第一、二产业以外的其他各业。根据我国的实际情况,第三产业可分为两大部分:一是流通部门;二是服务部门。具体又可分为四个层次。第一层次:流通部门,包括交通运输业、邮电通讯业、商业饮食业、物资供销和仓储业。第二层次:为生产和生活服务的部门,包括金融、保险业,地质普查业,房地产业,公用事业,居民服务业、旅游业,咨询信息服务业和各类技术服务业等。第三层次:为提高科学文化水平和居民素质服务的部门,包括教育、文化、广播电视事业,科学研究事业,卫生、体育和社会福利事业等。第四层次:为社会公共需要服务的部门,包括国家机关、党政机关、社会团体,以及军队和警察等。(三) 行业分类行业分类又称产业分类或部门分类,它是按主要产品同质性原则对基层单位进行部门分类,将国民经济划分成各个行业,以便搜集这些行业的资料,研究国民经济的产业结构、比例关系及其发展变化情况。在新国民经济核算体系中,它是核算国民生产总值,编制投入产出表及经济循环帐户中的产业部门生产帐户的依据。目前,我国新的行业分类共分16个门类、92个大类、368个中类、848个小类。其16个门类为:1农、林、牧、渔业;2采掘业;3制造业;4电力、煤气及水的生产和供应业;5建筑业;6地质勘探业、水利管理业;7交通运输、仓储及邮电通信业;8批发与零售贸易、餐饮业;9金融、保险业;10房地产业;11社会服务业;12卫生、体育和社会福利业;13教育、文化艺术及广播电影电视业;14科学研究和综合技术服务业;15国家机关、党政机关和社会团体;16其他行业。(四)机构部门分类这是新国民经济核算体系中部门分类的另一种重要的分类。机构部门分类是根据机构单位的性质进行的分类。机构单位是指那些有权拥有和处理、承担负债,能够从事经济活动并与其他经济实体进行交易的经济实体单位。根据我国目前的实际情况,独立核算单位可视同为机构单位。我国新国民经济核算体系中,在编制资金流量表、资产负债表和经济循环帐户时,都需采用机构部门分类。根据实际情况,将机构单位具体划分为以下五大部门:1企业部门(非金融企业部门)。由除金融企业以外的所有常住独立核算企业组成,包括各种经济类型的企业,但不含个体经营单位,因为个体经营单位在资产负债、财务收支方面很难独立于居民户的消费活动。2金融部门(金融企业)。由从事金融活动的所有常住独立核算企业组成。包括中国人民银行、各商业银行、信用社、保险公司、信托投资公司等。3行政事业单位。由独立核算行政事业单位(包括政党和社会团体)组成。4财政部门。仅指国家行使财政收支管理的职能,包括中央财政和地方财政。这是为核算经济运行中国家财政在集中资金和分配资金方面与各机构部门之间往来关系而设的虚拟部门,不是指经济实体。作为经济实体的各级财政机构则属于行政事业部门。5居民部门。由所有常住居民住户组成,其中包括为住户所有的个体经营单位。以上每个机构部门都可根据需要再细分为若干个子部门。如金融部门可以细分为银行、保险公司、信托投资公司等。第三节分配数列一、分配数列及其构成要素(一)分配数列的概念在统计分组的基础上,把总体的所有单位按组归并排列,形成总体中各个单位在各组间的分布,称为分配数列或分布数列。分配数列实质上是把总体单位数按组进行分配,所以又称为次数分配数列或次数分布数列。分配数列在统计研究中具有重要的意义,它是统计整理结果的一种重要表现形式,也是统计分析的一种重要方法。它表明总体单位分布的特征和结构状况,并在这一基础上进一步研究标志的构成、平均水平及变动的规律性。(二)分配数列的构成要素分配数列由两个要素构成:一个是总体按某标志所分的组;一个是各组所占的总体单位数,称为次数或频数。各组次数与总体总次数的比率称为频率。如表121所示,它表明我国第五次人口普查时,大陆人口在性别上的分布情况。表121 中国(大陆)人口性别构成情况表(2000年11月1日)性别人口数(万人)比重()男女653556122851634837合 计10000(各组名称) (次数) (频率)根据表121的资料我们可以看出,各组的频率大于0,所有组的频率总和等于1或100%。在变量数列中,频率越大表明该组标志值对于总体水平所起的作用也越大;反之,频率越小,表明该组标志值对于总体水平所起的作用越小。频率表明对应组标志值的作用强度,也表明各组标志值出现的概率的大小。按顺序列出各组变量值和相应的频率,称为变量分布,也称统计分布。在本节的最后我们将介绍几种常见变量分布类型。有时为了更简便地概括总体各单位的分布特征,还需要编制累计频数数列和累计频率数列。累计有由低到高累计和由高到低累计的方法。由低到高累计是指将各组频数和频率由变量值低的组向变量值高的组累计,表明在这些数值以下所有数值所占的比重;由高到低累计是指将各组频数和频率由变量值高的组向变量值低的组累计,表明在这些数值以上所有数值所占的比重。二、分配数列的种类根据分组标志的形式不同,分配数列可分为品质分配数列和变量分配数列两种。(一)品质分配数列按品质标志分组形成的分配数列叫品质分配数列,简称品质数列。如表121所示分配数列,即为品质分配数列。(二)变量分配数列按数量标志分组形成的分配数列称为变量分配数列,简称变量数列。如人口按年龄分组、职工按工资分组、工业企业按增加值分组等形成的数列都是变量数列。 变量数列反映了总体在一定时期内量的状态及量变过程,按照变量值在各组是否存在变动范围,又可分为单项数列和组距数列两种。1单项数列单项数列是指以一个变量值为一组,按顺序排列而形成的分配数列。如表122所示,即为单项数列。表122 1998年北京市家庭户型资料家庭户型(人)户 数(户)12345678910及10以上 397 8311719 635 273 89 29 18 3 9一般地,只有离散型随机变量在取值不多且变量值的变动范围不大时,才适合编制单项数列。如表122中,由于家庭的人口数取值数量有限,且每一个取值都能代表一种类型,因而可以采用单项数列来反映其分布。当变量值变动幅度很大时,如果仍采用单项数列,就势必会出现次数太多,不便于分析问题,也难以反映总体的分布趋势,这时就需要采用组距数列。2组距数列组距数列是指以一定范围的变量值为一组,按顺序排列而形成的数列。如表123所示,即为组距数列。表123某主管局所属企业产值计划完成情况表按计划完成程度分组()企业数(个)90以下90100100110110120120以上 4 83212 2合计58组距数列每组的变量组值采取“由多少至多少”的形式来表示,没有具体的变量值。当某一离散型随机变量值较多或变量值的差异很大时,宜编制组距数列;当分组变量为连续型随机变量时,一般应编制组距数列,因为只有采用组距式分组,才能保证所有可能出现的变量值无一遗漏地包括在内。但是,有些变量本质上是连续型的,而在实践中常常用整数计量,如年龄用“岁”,体重用“公斤”计量等,这时可按离散型随机变量处理,因此,当连续型随机变量当作离散型随机变量看待时,可以编制单项数列或组距数列。三、变量数列的编制(一)单项数列的编制单项数列的编制是把所有变量值按大小排序,并按组归类排列,再把各组单位数经综合后填入相应的各组次数栏中即可。(二)组距数列的编制组距数列的编制有如下步骤:1将原始资料按其数值大小排列只有把得到的原始资料按其数值大小排列顺序,才能看出变量分布的集中趋势和特点,为确定全距、组距和组数作准备。2确定全距全距是变量值中最大值和最小值的差数(或距离),又称极差,一般用符号R表示。R=最大变量值最小变量值确定全距,主要是确定变量值的变动范围和变动幅度。3确定组距和组数组距是每组最大值和最小值的差数(或距离),一般用符号d表示。组距的大小和组数的多少,是互为条件和互相制约的。对一个具体的分组对象而言,其全距一定,组距大,组数就少;组距小,组数就多。那么,在组距数列中,究竟分多少个组,组距多大为好,美国学者斯特基斯于1926年提出了一种计算组数的公式,在总体单位数不是较少或较多时,可供参考使用。他是把二项展开式的各项系数之和作为总体单位数,把二项展开式的项数当作组数m,有(其中,x=m1),则x=lgN/lg2,因为m=x+1,所以组数为:m=1在实际工作中,我们一般是先确定组距,再根据全距和组距确定组数。确定组距时,除了要考虑组距的大小,还要明确整个组距数列是采用等距还是异距分组。所谓等距分组是各组的组距都相等,这种分组一般用于变量的变动比较均匀或情况比较稳定的现象。所谓异距分组是指各组的组距不都相等,又称不等距分组。这种分组主要是在有些现象的变量分布很不均匀,存在明显的偏斜,或现象的变量变异范围很大,组与组间的性质变化是由变量值的非均匀增长造成的情况下采用。如人口按年龄分组,大城市商场按营业额分组等,一般都采用异距分组。在确定组距时,必须考虑原始资料的分布状况和集中程度,注意组内统计资料的同质性,尤其是对带有根本性的质量界限,绝不能混淆,否则就失去分组的意义。在实际应用中,组距最好是5或10的整数倍。在等距分组条件下:组数=全距/组距4确定组限和组限的表示方法组限是各组变量值的极端值,是组与组间的分界点。其中,各组的最小变量值称为下限,最大变量值称为上限。显然,组距上限下限。组限要根据变量的性质来确定,如果变量值相对集中,无特大或特小的极端数值时,则采用闭口式,即每组都有下限和上限的分组方法;反之,如果变量值相对比较分散,为了不出现空白组,更好地反映总体的分布情况,则应采用开口式,即最小组只有上限,用“××以下”表示,最大组只有下限,用“××以上”表示的分组方法。在采用闭口式时,应做到最小组的下限略低于最小变量值,最大组的上限略高于最大变量值。组限的表示方法有两种:一种是用重叠组限来表示;另一种是用不重叠组限来表示。所谓重叠组限是指低一组的上限与高一组的下限用同一数值表示的组限。所谓不重叠组限是指低一组的上限与高一组的下限分别用两个不同的数值表示的组限。连续型变量由于其变量值不能一一列举,任何两个具体数值之间都有无穷多个数值,其组限只能用重叠组限来表示,如表123中的组限。而对于离散型变量,可根据具体情况采用不重叠组限或重叠组限的表示方法。如企业按工人人数分组,可以采用不重叠组限表示为:99以下1004995009991000以上也可以采用重叠组限表示为:100以下10050050010001000以上采用不重叠组限表示法时,组距的计算是变量值高一组的下限与本组下限之差。如上例中100499这一组,其组距应是500100=400,而非499100=399。这是因为400这个组距即包括100这个变量值,也包括499这个变量值。采用重叠组限时,习惯上规定各组不包括其上限的单位,即所谓“上组限不在内”的原则。如表123中,完成计划正好为100%的企业应统计到第三组(100110)中。在组距分组资料的情况下,计算平均指标时需要利用组中值作为各组标志值的代表值来计算。所谓组中值,就是每组上限与下限的中点值。其计算公式为:闭口组的组中值只有上限的开口组组中值只有下限的开口组组中值5编制变量数列经过统计分组,明确了全距、组距、组数和组限及组限表示方法以后,就可以把变量值归类排列,最后把各组单位数经综合后填入相应的各组次数栏中,有时还应根据需要计算各组的频率,也列入表中,组距数列的编制就完成了。四、几种概率分布类型概率是用以衡量随机事件发生可能性大小的一种度量(数值)。一个试验,如果它满足以下三个条件:一是试验可以在相同的条件下重复进行;二是试验的所有可能结果是明确可知的,并且不止一个;三是每次试验总是恰好出现这些可能结果中的一个,但在一次试验之前却不能肯定这次试验会出现哪一个结果。就称这样的试验是一个随机试验。若一个随机试验全部可能出现的基本结果有n种,则称该试验是由n个基本事件构成,我们所关心的事件是由其中m(mn)个基本事件构成的,事件发生的概率为,记为:概率的取值范围与频率一样,介于0与1之间。对于一个随机事件来说,它发生可能性大小的度量是由其自身决定的,并且是客观存在的。就好比一根木棒有长度,一块土地有面积一样。实践表明,如果我们重复进行某一随机试验,随着试验次数的增多,事件出现的频率会逐渐稳定于某一个常数,这个常数就是事件在一次试验中发生的概率。频率与概率之间关系的实质,就象用尺或仪器测量长度一样,给定一根木棒,谁都不会怀疑它有自身的客观长度,至于长度是多少,我们可以用尺或仪器去测量,不论尺或仪器有多么精确,测得的数值总是稳定在木棒真实的长度附近,我们也总是把测得的数值当作木棒真实的长度。(一)离散型随机变量的分布离散型随机变量的概率分布由离散型随机变量x的取值(1,2,3,,n)及其相应的概率P()组成。统计学中,又称P(x)为x的概率密度函数。显然,离散型随机变量的概率密度函数P(x)满足以下两个条件:(1)0P()1;(2)P()=1。常用的离散型随机变量概率分布主要有二项分布、几何分布、超几何分布和Poisson分布等。1二项分布贝努里试验如果随机试验只有两种可能结果:A与(A是的对立事件),其中A出现的概率为P(A)=p,出现的概率为P()=1p=q,则称此实验为贝努里试验。n重贝努里试验将贝努里实验在相同的条件下重复独立地进行n次的试验。二项分布是重复抽样的概率分布。在n重贝努里试验中,事件A出现的次数,即样本中包含A事件的个数x是一个离散型随机变量。那么,在上述的n次试验中,A事件恰好发生k次,即变量x取值为k的概率为:P(x=k)= k=0,1,2,3,,n由于这一分布的概率与二项式的展开式各项相同,所以称为二项分布,记作:xb(k;n,p)。二项分布具有以下特点:(1)二项分布的概率随x的增加而逐渐变大,达到最大值后,又随x的增加而逐渐变小。(2)当P(A)=P()=0.5时,二项分布完全对称,整个分布呈一钟形。随着n的不断增加,趋于一条光滑曲线,即正态分布曲线。(3)若P(A)P(),则概率分布不对称而向左右偏斜。但当实验次数n足够大时,概率分布不断趋于正态分布。2几何分布在n重贝努里实验中,实验进行到第x次事件A才发生的概率为:P(x=k)=p k=1,2,3,,n由于这一分布的概率p与几何级数的一般项相同,所以称为几何分布,记作:xg(k;p)。3超几何分布例子:设有一批产品共N件,其中有M件次品,从中任取n件,以x表示n件中的次品数,则P(x=k)= k=0,1,2,3,,minn,M以上式为分布列的概率分布称为超几何分布,记作:xH(k;n,M,N)。4Poisson分布设随机变量x的概率分布为:P(x=k)= k=0,1,2,3,其中>0为常数,则称x服从参数为的Poisson分布,记作:xP(k;)。Poisson定理:设随机变量数列(n=1,2,3,)服从二项分布,若当时,n(>0为常数),则有 k=0,1,2,定理表明,若事件A发生的次数xb(k;n,p),当n充分大,而每次试验中事件A发生概率p很小时,x近似地服从参数为的Poisson分布。根据此定理,可以在符合上述定理的条件下,利用查Poisson分布表的方法简化二项分布的计算。利用Poisson分布,可以描绘大量重复试验中稀有事件出现的频数k=0,1,2,的概率分布情况。例如,飞机被子弹击中的次数;纱锭的纱线被扯断的次数;大量产品中不合格品的数量;一年中出现暴雨的次数;一页书中出现的印刷错误次数;数字通讯中传输数字时发生误码的个数等等,都相当近似地服从Poisson分布。(二)连续型随机变量的分布连续随机变量的概率是用分布函数F(x)来表示的。分布函数F(x)的定义为:F(x)= f(x)0,且 -x+式中,f(x)称为F(x)的密度函数。在连续分布的情况下,P(X=x)=0,P(aXb)是以f(x)及x=a,x=b与x轴所围的面积表示的,可以用式子表示为:P(aXb)=F(b)-F(a)用图形表示就是图121中阴影部分的面积。图121显然,连续型随机变量的密度函数是其分布函数的导函数。即1正态分布在连续型随机变量中,最重要最常用的是具有钟形概率分布的随机变量,如图122所示。 图122这样的随机变量人们称它为正态随机变量,相应的概率分布称为正态分布。由于高斯在研究误差理论时曾用它来刻划误差,因此又称高斯分布。正态分布的定义:如果随机变量X的概率密度为 -x+,则称X服从正态分布,记作:XN(,),其中(-,+),0。称为随机变量X的数学期望,也叫均值,称为随机变量X的标准差,它们是正态分布的两个参数。正态分布的特点:(1)f(x)0,即整个概率密度曲线都在x轴的上方;(2)曲线f(x)关于x=对称,并在x=处达到最大值;(3)决定曲线的陡缓,越大,曲线越平缓,变量发散程度越大,越小,曲线越陡峭,变量发散程度越小。(4)当x±时,曲线以x轴为渐近线。2标准正态分布当=0,=1时的正态分布称为标准正态分布。记作:xN(0,1)。此时,其密度函数为: -x+分布函数为:标准正态分布的分布函数值(概率)可以通过查正态分布查对表查得,而普通正态分布则可以通过如下变换,转换成标准正态分布:设x N(,),则N(0,1)。3(卡方)分布分布是分别由海尔墨特和卡·皮尔生于1875年和1900年导出的,它是从正态分布派生出来的一个分布,在统计学中占有重要地位。设随机变量XN(0,1),n个随机变量(,)是X的一个样本,且,相互独立,则=也是一个随机变量,它的分布称为自由度为n的分布,记作:(n)。所谓自由度是指不受任何约束,可以自由变动的变量的个数。分布的分布函数比较复杂,其密度函数曲线与自由度n有关,如图123所示。 图123从图123中可以看出,随着自由度k的增大,图形渐渐接近正态分布曲线。4t分布设X、Y为两个独立的随机变量,XN(0,1),Y(n),则称随机变量t=服从自由度为n的t分布,记作:tt(n)。t分布的概率密度曲线与标准正态分布的概率密度曲线很相似。当自由度n30时,t分布比正态分布随机变量的变动范围稍微大一些,如图124所示;当n30时,t分布与正态分布几乎没有区别,所以当自由度n很大时,t分布近似于N(0,1)。 图1245分布设X、Y为两个独立的随机变量,X(),Y(),则称随机变量F=服从第一自由度为,第二自由度为的F分布,记作:FF(,)。F分布的概率密度曲线与,有关,如图125所示。 x图125第四节统计表和统计图统计资料的表现形式主要有统计表、统计图和统计分析报告。其中,统计图表是最常用的形式。一、统计表将统计整理的结果,按一定的顺序排列在表格上,这种表现统计资料的表格叫统计表。广义的统计表包括统计工作各个阶段中所用的一切表格。包括统计调查表、统计整理表、统计分析计算表等。统计表以表格、数字为语言,清晰明了地说明社会经济现象,既科学,又实用,既简练,又美观。它能使大量的统计数字系统化、条理化,便于对客观现象的各个角度进行对照比较、分析现象或过程的内在联系。统计表还易于检查和改正统计数字的错误,以及便于统计资料的积累与保管,因而在实际工作中被广泛采用。(一)统计表的构成1从外形上看,统计表主要由总标题、横行标题、纵栏标题和指标数值四部分组成。如表124所示。表124 2001年我国固定资产投资完成情况 总标题横行标题按经济类型分投资额(亿元)比上年增长(%)纵栏标题指标数值国有及其他经济城乡集体经济城乡居民个人26401 5189 530812.8 8.112.7 合 计3689812.1 (主 词) (宾 词)总标题是统计表的名称,用以概括说明统计表的内容,一般写在表的上端中央。横行标题是横行的名称,用来说明统计资料反映的总体及其分组名称,它代表统计表所要说明的对象,一般写在表的左方。纵栏标题是纵栏的名称,用来说明各组统计指标的名称,一般写在表的上方。指标数值列在各横行标题和各纵栏标题的交叉处,是用来说明总体及其组成部分数量特征的各种统计数字。此外,有些统计表在表的下端还列有补充资料、注解、附记、资料来源、某些指标的计算方法、填表说明、填表单位、填表人等表脚。2从内容上看,统计表由主词和宾词两部分组成。如表124所示。