统计学资料(个人觉得这是最有用的)(共21页).doc
精选优质文档-倾情为你奉上第一章 总论1. 统计是从数据中获取信息的科学,一门研究客观事物数量方面的方法论科学。其研究对象现象总体的数量特征和数量关系。2. 统计的多重含义:统计工作,统计资料,统计学3. 统计总体:凡是客观存在的,在同一性质基础上结合起来的许多个别事物的整体,就是统计总体。统计总体的基本特征:同质性,大量性,差异性。根据总体所包含的单位数量,总体可以分为有限总体和无限总体两类。4. 总体单位:构成统计总体的每个基本单位或元素称为总体单位5. 样本:由总体的部分单位组成的集合称为样本(又称子样)样本所包含的总体单位数称为样本容量。6. 标志(变量值):总体各单位普遍具有的属性或特征 标志的分类: 1、品质标志:单位属性方面的特征。品质标志的表现只能用文字、语言来描述。 2、数量标志:单位数量方面的特征。数量标志可以用数值来表现。 3, 不变标志与可变标志 典型的统计软件SAS SPSS MINITAB STATISTICA Excel7. 标志值8. 指标:是说明总体数量特征的概念。一般有两种不同的理解:一是指数量化的概念 ;二是指数量化的概念和具体数值 。 数量指标总量指标时期指标,时点指标 质量指标相对指标,平均指标9. 统计指标的特点:数量性、综合性、具体性。 10.标志与指标的关系 标志与指标既有区别,又有联系。 其主要区别有:(1) 标志是说明总体单位特征的,而指标是说明总体数量特征。(2) 标志有不能用数值表示的品质标志与能用数值表示的数量标志两种,而指标都是能用数值表示的,没有不能用数值表示的统计指标。 其主要联系有:(1) 有许多统计指标的数值是从所属的总体单位的数量标志值汇总而来的。(2) 统计指标与数量标志之间存在着互换关系。11. 变量:可变的数量标志和统计指标。变量值:个体在变量上的具体表现, 包括标志值和指标数值 例如,固定资产是一个变量,各企业固定资产的具体数值是变量值。连续型变量:变量的取值在数轴上连续不断,无法一一列举,即在一个区间内可以取任意实数值。 例如,气象上的温度、湿度,零件的尺寸等。离散型变量:变量的取值是整数值,可以一一列举。 例如,企业数,职工人数等。12.数据的计量尺度: 定类尺度, 定序尺度, 定距尺度, 定比尺度(1)定类尺度:“名义型变量”,值只能用文字表述,计量层次最低,对事物进行平行的分类,地位平等,没有高低优劣之分,各类别可以指定数字代码表示,使用时必须符合类别穷尽和互斥的要求,数据表现为“类别”,具有=或¹的数学特性v 性别,民族,党派(2)定序尺度: “顺序型”变量,变量值只能用文字表述,对事物分类的同时给出各类别的顺序,比定类尺度精确,未测量出类别之间的准确差值,数据表现为“类别”,但有顺序性,具有>或<的数学特性v 优秀,良好,及格,不及格(3)定距变量:变量值为数值型,对事物的准确测度,比定序尺度精确,没有绝对零点,具有+或-的数学特性v 温度,公元纪年等极少数现象属于定距变量(4)定比变量:数据表现为“数值”,对事物的准确测度,与定距尺度处于同一层次,有绝对零点,具有 ´ 或 ¸ 的数学特性,可以进行任何形式的计算数据的分类数量数据:用数字能够表述的特征,数值型特征,如人的身高,体重等品质数据:不能用数字来表述的特征,如人的性别,民族,宗教信仰等数量数据总以数字形式表现,品质数据可是数值型,也可是非数值型只有数量数据可以进行数学运算第二章 统计调查1. 统计调查是按照统计任务的要求,运用科学的调查方法,有组织地向社会实际搜集资料的过程,它的基本任务是按照所确定的指标体系,通过具体的调查,取得反映社会经济总体全部数字资料为主体的信息。这些信息是总体各单位有关标志的表现,是尚待整理、进行系统化的原始资料。 v 所谓原始资料,是指向调查单位搜集的,需要由个体过渡到总体的统计资料。另外,在统计调查中,也必然会用到对次级资料的收集。v 所谓次级资料是指经过加工,由个体过渡到总体,能够在一定程度上说明总体现象的统计资料。2. 调查时间:指调查资料所属的时间。调查的是哪个时点哪个时间段上的数据。 调查期限: 指整个调查工作的起止时限。包括搜集资料或报送资料的整个工作所需的时间。3. 经常性调查:是连续性的调查一次性调查:是间隔相当长时间,如一年以上,它是对事物在一定时点上的状态进行登记。4. 统计报表:为了定期取得系统、全面的基本统计资料而采用的一种搜集资料的方式。是按照国家统一规定的表式,程序和时间,自上而下地统一布置,自下而上地逐级提供基本统计资料的一种统计调查方式.5. 专门调查:是为了研究某些问题,由进行调查的单位专门组织的调查。这种调查,多属一次性调查,如普查、重点调查、抽样调查、典型调查等。(1)普查:(2)重点调查.在调查对象中选择一部分单位所进行的调查(3)抽样调查.是一种非全面调查,按照随机原则.从总体中抽取一部分单位进行观察,用以推算数量特征的一种调查方式.(4)典型调查.根据调查的目的和任务,在对所研究的现象总体进行初步分析的基础上,有意识地选取若干具有代表性的单位 进行调查和研究,借以认识事物发展变化的规律.6. 统计调查所得统计数字与调查总体实际数量之间的差别称为统计调查误差。 任何统计调查方法都有可能出现登记误差。它是由于调查过程中各个环节上的工作不准确而引起的。 数据调查误差有登记性误差和代表性误差两类 登记性误差:由于调查者或被调查者的人为因素所造成的误差。理论上讲可以消除 代表性误差:用样本数据进行推断时所产生的误差。通常无法消除,但事先可以进行控制和计算 (当调查涉及全部总体单位时,不存在代表性误差问题) (只有抽样调查有代表性误差,所以代表性误差也叫抽样误差)7.统计调查的具体方法 (1)直接观察法 (2)采访法 (3)报告法 (4)通讯法第三章 统计整理1. 统计分组:是指根据事物内在的特点和统计研究的需要,将统计总体按照一定标志区分为若干组成部分的一种统计方法。对总体分 对个体合 反映组间本质的不同,突出组与组之间的差异,抽象与模糊组内各单位的差异。2. 统计分组的方法 (1)按品质标志分组法 按品质标志分组法分组就是选择反映事物属性差异的品质标志为分组标志,并在品质标志的变异范围内划定各组界限,将总体划分成为若干个性不同的组成部分。(2)按数量标志分组的办法 按数量标志分组就是按反映事物数量差异的数量标志为分组标志,并在数量标志的变异范围内,将总体划分为性质不同的若干组成部分。3. 变量数列:是依据数量标志分组所编制的分布数列。4. 单项式数列:按每个变量值分别列组,依次分组编制的变量数列叫做单项式变量数列。 组数与数量标志所包含的变量值数目相等,每个变量值作为一组。v 应用范围:离散变量;变量值变动范围较小。【例】己知某车间有24名工人,他们的日产量(件)分别是:20,23,20,24,23,21,22,25,26,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23.要求根据以上资料编制变量数列。5. 组距数列:依组距分组而编制的变量数列叫做组距数列。 组距数列中的每个组不是用一个具体的变量值表示,而是用变量值的一定变化范围即各组标志值变动的区间表示。每组标志值变动的区间长度称为组距。 组距是区分组与组的数量界限,为了保证变量的分组不致发生混乱,习惯上各组一般均包括本组下限变量值的单位,而不包括本组上限变量值的单位,即“上组限不在内”。6. 组中值是各组变量值的中间数值,通常根据各组上限、下限进行简单平均求得,公式为: 组中值= 用组中值代表组内变量值的一般水平有一个前提,即组内各单位变量值在本组内均匀分布或在组中值两侧呈对称分布。 ( 注意组距;开口组的组中值;上限不包括在内 )缺下限的开口组组中值=上限-邻组组距/2 缺上限的开口组组中值=下限+邻组组距/27. 组距数列中,各组变量值变动的界限称为组限,组内最大变量值称为上限,最小变量值称为下限。组距就是上限与下限之差,即:组距组上限组下限上述公式通常在由连续型组距数列计算组距时使用。而在离散型组距数列中,考虑到离散型组距数列的特点,其组距一般为后组下限与本组下限之差。即:组距后组下限本组下限 第四章 总量指标和相对指标1. 总量指标:反映社会经济现象的总规模、总水平或工作总量的统计指标.也称绝对数.2. 总量指标的种类 (1)按其反映现象的内容不同分总体单位总量:即总体单位总数 表示总体本身的规模大小总体标志总量:即总体各单位某一数量标志值总和 表示所研究现象的总水平(2)按其反映事物的时间状况的不同 时期指标:反应社会经济现象在一段时期内发展变化的总量,流量指标数值可以累计相加, 数值大小和时间长短有直接关系。 时点指标:反映现象在某一时刻(瞬间)状态上的水平,存量不同时间上的指标值不能相加,加起来没有意义,数值大小与时间间隔没有直接关3. 相对指标的含义:相对指标是由两个有联系的指标数值对比而成的。用来说明现象总体相对规模,相对水平和工作质量的指标.v 相对指标的表现形式 无名数 抽象掉分子和分母的计量单位,计量单位相同,得到的数值无量纲,抽象化 表现:百分数,千分数,倍数,系数 有名数 保留分子和分母的计量单位 表现:密度 根据研究的目的不同、对比的基础不同,分为结构相对指标反映现象的结构和分布比例相对指标反应现象内部比例关系比较相对指标评价不同单位的实力、优劣计划完成程度相对指标检查计划完成程度动态相对指标反应现象发展变化的状况强度相对指标反应现象强度、密度和普遍程度不同时期比较同一时期比较不同现象比较同类现象比较动态相对数强度相对数不同总体比较同一总体比较比较相对数部分与部分比部分与总体比实际与计划比比例相对数结构相对数计划完成相对数相对指标的具体形式 (一)结构相对指标资料进行分组的基础上,求出各组总量占总体总量的比重。把不同时间的结构相对指标进行对比分析,可以说明现象变化过程和规律结构相对数 = 【0,1】; 各部分比重和为1。 如:甲地职工男职工人数占职工人数的70%(二)比例相对指标(三个或三个以上的连比)同一总体中一部分数值与另一部分数值之比,表明总体范围内各个局部之间的比例关系和协调平衡状况。 比例相对数= 如:甲地职工男职工人数是女职工人数的2倍(三)比较相对指标 (横向比较,静态)同一时期,不同空间条件下,两个性质相同的总体之间不同数量表现的对比.反映现象发展水平的差别程度比较相对数 = 如:甲地职工平均收入是乙地职工平均收入的1.3倍(四)动态相对指标 (随时间发展的变化,动态)指某一指标不同时间上的数值对比而得到的相对数,用来反映现象的发展速度,并据以推测现象发展变化的趋势。 动态相对数 = 同一事物在不同时间上的数量对比 如: 某农场由原来噶100只鸡经过2年繁殖后变成了200只(五)强度相对指标 (有名数)是两种性质不同而又有联系的属于不同总体的总量指标间的对比,用于说明现象的强度,密度和普遍程度 强度相对数 = 两个性质不同但有一定联系的总量指标之比 如:人口密度人口总量指标/面积总量 指标总量指标和相对指标人均产值国民生产总值/人口数量例如,2000年第五次人口普查,我国有人口万人,国土面积为960万平方公里,则人口密度=/960=132(人/平方公里)(六)计划完成程度相对指标是各社会经济现象在某一段时间的实际完成数与计划数对比的结果,用于表明预期目的的实现程度。 计划完成程度相对数= 第五章 平均指标1.平均指标也成统计平均数,它是说明同质总体内某一数量标志在具体时间、地点条件下达到一般水平的综合指标。说明数据的集中趋势 集中趋势是指总体中个单位的次数分布从两边向中间集中的趋势,用平均指标来反映. 注:(1)劳动生产率是平均数,而不是相对数 劳动生产率=产值/职工人数 社会劳动生产率=社会总产值(GDP)/社会劳动者人数 平均每个劳动者创造的生产值 (2)人均GDP不是平均数,是强度相对数 人均GDP=社会总产值(GDP)/全部人口2.算术平均数与强度相对数的区别(例)v 强度相对数反映的是事物的强度、密度、普遍程度。v 算术平均数反映的是事物的一般水平。算术平均数:用于总量等于各分量加和的情形.简单算术平均;加权算术平均。变量值,权数,组距数列几何平均数:用于总量等于各分量乘积的情形。主要用于计算现象的平均比率或平均发展速度【例】某流水生产线有前后衔接的五道工序。某日各工序产品的合格率分别为95、92、90、85、80,求整个流水生产线产品的平均合格率。分析:设最初投产100A个单位 ,则第一道工序的合格品为100A×0.95;第二道工序的合格品为(100A×0.95)×0.92; 第五道工序的合格品为(100A×0.95×0.92×0.90×0.85)×0.80;因该流水线的最终合格品即为第五道工序的合格品,故该流水线总的合格品应为100A×0.95×0.92×0.90×0.85×0.80;则该流水线产品总的合格率为:即该流水线总合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算因该流水线的最终合格品即为第五道工序的合格品,故该流水线总的合格品应为 100A×0.95×0.92×0.90×0.85×0.80;则该流水线产品总的合格率为:即该流水线总合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算【例】一位投资者持有一只股票,1996、1997、1998和1999四年的收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在四年的平均收益率。三、算数平均数的数学性质 变量值与其算术平均数的离差之和衡等于零,即:4. 变量值与其算术平均数的离差平方和为最小,即: 134页课后16题.某市居民家庭收入资料如表第六章 变异指标1. 数据的特征和测度 (1)集中趋势(众数、中位数、均值) (2)离散程度(异众比率、四分位差、方差和标准差、离散系数) (3)分布的形状(偏态、峰态)异众比率(定类数据):非众数组的频数占总频数的比率四分位差(定序数据):上四分位数与下四分位数之差QD = QU - QL说明数据的离中趋势 总体方差和标准差的计算:方差:未分组数据: 组距分组数据:样本方差和标准差方差:未分组数据: 组据分组数据: 标准差:方差开平方后的数据2.偏态:偏态系数=0为对称分布;偏态系数> 0为右偏分布;偏态系数< 0为左偏分布 峰态:峰度系数=3,扁平程度适中,正态分布;偏态系数<3,扁平分布;偏态系数>3,尖峰分布3. 相关关系的类型(线性相关、非线性相关、完全相关、不相关)(小题计算、选择题中的计算) r=1 完全正相关 0< r <1 正相关 r=0 不相关 -1< r <0 负相关 r =-1 完全负相关159页课后17题.22题.第七章 抽样调查1. 抽样调查:非全面调查。它是按照随机原则从调查对象的总体中抽取部分单位进行调查,并根据这部分单位的调查结果推断总体的数量特征。 2. 抽样框:在实际进行抽样的总体范围内,包括全部抽样单位的名单框架称为抽样框. 编制抽样框是实施抽样的基础。 抽样框的主要形式有三种:名单抽样框 区域抽样框 时间表抽样框。 3. 抽样调查的基本概念 (1)总体:由被调查对象的全部单位所构成的集合体。总体单位数用N表示。 (2)样本总体,又叫子样,简称样本(sample)。它是从全及总体中随机抽取出来(具体是从抽样框中抽取出来的),用来代表全及总体的那部分单位构成的总体。样本总体的单位数称为样本容量:n (3)抽样总体:抽取出来调查观察的单位。 抽样总体的单位数用n表示。n 30 大样本 。n < 30 小样本。 (4)抽样估计效果好坏,关键是抽样平均误差的控制。抽样平均误差小,抽样效果从整体上看就是好的;否则,抽样效果就不理想。 (5)样本容量n与总体单位数N的比值(n/N)称为抽样比4. 样本可能数目是指抽样组织和抽样方法一定时,从总体N个单位中随机抽取一个容量为n的样本,该样本不同构成的可能数目,一般用m来表示。 (1) 重复抽样的样本可能数目(通常为考虑单位排列顺序) (2)不重复抽样的样本可能数目(通常未考虑单位排列顺序)5. 抽样误差的概念抽样调查过程中的误差根据其来源大体上可以归纳为两类:一类是登记性误差,另一类是代表性误差。代表性误差包括系统误差和随机误差两种。 6. 总体指标:根据全及总体所有单位的标志值计算出来的,反映总体的数量特征。 总体平均数: 总体比率: 总体方差: 总体标准差:7. 样本指标:由样本总体各个单位的标志值计算的综合指标称为样本指标。样本平均数: 样本比率: 样本方差:=, 样本标准差:考试中默认是重复抽样四、点估计与区间估计(一)点估计点估计也称定值估计,它是以样本指标的计算结果作为总体参数估计的结果,即用样本指标值直接作为全及总体指标的代表值。 用于点估计的估计量一般应满足优良估计量三个标准。(二)区间估计区间估计就是根据样本估计量以一定可靠程度推断总体参数所在的区间范围。 区间估计有三项基本要素:估计值,主要是样本的平均数、比率和方差;估计值的可能误差范围(或说允许误差范围),即抽样极限误差和 ;与误差范围相对应的概率保证程度参数估计的置信度。 总体平均数估计 (1)计算样本平均数 (2)计算样本标准差 s (3)计算抽样平均误差: (4)计算抽样极限误差:,时Z=1.96 (5)确定总体平均数的置信区间:步骤:例:某企业生产A产品的工人有1000人,某日采用不重复抽样从中随机抽取100人调查他们的当日产量,样本人均产量为35件,产量的样本标准差为4.5件。请以95.45%的置信度估计该日人均产量的置信区间。【例B】某乡水稻总面积20000亩,以不重置抽样方法从中随机抽取400亩实割实测求得样本平均亩产645公斤,标准差72.6公斤。要求极限误差不超过7.2公斤,试对该乡水稻的亩产和总产量作估计。总体比率估计(1)计算样本成数 (2)计算抽样平均误差: (3)计算抽样极限误差:,时Z=1.96 (4)确定总体成数的置信区间:【例B】若例A中工人日产量在118件以上者为完成生产定额任务,要求在95的概率保证程度下,估计该厂全部工人中完成定额的工人比重及完成定额的工人总数。213页13.一个电视台的主持人想了解观众对其节目的收视情况.按简单随机抽样方法抽取了500名观众,发现经常看他节目的观众有225人,试以95%的概率保证程度估计经常看这一节目人数比率的区间范围解: 置信水平为95%时:z=1.96 置信区间为:第九章 统计指数1. 统计指数的概念 :综合反映所研究社会经济现象总体数量变动的相对数 2. 指数分类:按总指数的计算方法不同分为:综合指数,平均指数 按所反映指标的性质不同分为:数量指标指数,质量指标指数3. 同度量因素:指把不同度量的现象过渡成可以同度量的媒介因素(一)综合指数的编制特点 两个价值总量指标对比形成的指数,将其中被研究因素以外的所有因素固定下来,仅观察被研究因素的变动情况。4. 指数体系: 由反映总体变动的指数以及总体中各因素指数所形成的相互联系的整体.如商品销售额指数体系 基本形式: 相对数形式:对象指数等于各个因素指数的连乘积 (利用已知的指数推算未知的指数) 绝对数形式:对象指数的增减额等于各因素指数影响的增减额之和 273页课后题8。第十章 时间序列分析1. 时间序列:是指将某种现象某一统计指标在不同时间上的各数值,按时间先后顺序排列而形成的序列.形式上由现象所属的时间和现象在不同时间上的观察值两部分组成,排列的时间可以是年份.季度.月份或其他任何时间形式2.动态数列的编制原则:时期长短应统一,总体范围应一致,指标的经济内容应相同,计算口径应统一。构成要素:指标数值,时间时间序列的分类(绝对数序列;相对数序列;平均数数列。绝对数序列又分为时期序列、时点序列)3. 时期序列: 由时期总量指标排列而成的时间序列 主要特点有:1)序列中的指标数值具有可加性。2)序列中每个指标数值的大小与其所反映的时期长短有直接联系。 3)序列中每个指标数值通常是通过连续不断登记汇总取得的。 4. 时点序列: 由时点总量指标排列而成的时间序列 主要特点有:1)序列中的指标数值不具可加性。2)序列中每个指标数值的大小与其间隔时间的长短没有直接联系。 3)序列中每个指标数值通常是通过定期的一次登记取得的。 5. 一般平均数和序时平均数的区别?(1)计算的依据不同:前者是根据变量数列计算的,后者则是根据时间数列计算的; (2)说明的内容不同:前者表明总体内部各单位的一般水平,后者则表明整个总体在不同时期内的一般水平6. 平均发展水平(序时平均数)的计算 (1) 根据绝对数时间数列计算的 <1> 根据时期数列计算的 <2> 根据时点数列计算的 据连续性时点数列计算的 间隔相等 间隔不等 根据间断性时点数列计算的 间隔相等 间隔不等(2) 根据相对数时间数列计算的 (3) 根据平均数时间数列计算的308页课后第九题7. 增长量:指现象在一定时期内增长的绝对数量。它等于报告期水平与基期水平之差。 增长量报告期水平基期水平逐期增长量报告期水平与前一期水平之差 计算形式为:i=Yi-Yi-1 (i =1,2,n)累积增长量报告期水平与某一固定时期水平之 差 计算形式为:i=Yi-Y0 (i=1,2,n)速度指标:发展速度 :报告期水平/基期水平 定基发展速度 环比发展速度 年距发展速度308页(课后题10)(一)平均发展速度各环比发展速度的平均数,说明现象每期变动的平均程度 307页.课后6 7 案例: 05年10年国内生产总值,从增长量、发展速度、增长速度、平均发展速度、平均增长速度,说明国内经济的发展情况。专心-专注-专业