《第2章-统计数据的收集与整理.ppt》由会员分享,可在线阅读,更多相关《第2章-统计数据的收集与整理.ppt(143页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、,第一节统计调查方案设计第二节统计数据收集第三节统计数据整理第四节统计数据表现形式第五节统计数据特征描述本章小节,主要内容,第一节统计调查方案设计,一、明确调查目的和任务明确调查目的和任务是设计统计调查方案最根本的问题,它决定着调查工作的内容、范围、方法和组织。二、确定调查对象和调查单位确定调查对象调查对象是指根据调查目的、任务确定的由那些性质上相同的众多调查单位所组成的总体。即统计总体。确定调查单位调查单位就是构成调查总体的每一个单位,调查总体中的个体,也就是在调查过程中应该登记其标志的那些具体单位。,第一节统计调查方案设计,三、确定调查项目、设计调查表或问卷确定调查项目调查项目是指对调查单
2、位所要调查的具体内容属性,这些属性在统计上又称标志。它是由调查对象的性质、调查目的和任务所决定的,包括一系列品质属性和数量属性。设计调查表或问卷调查项目一般采用调查表或调查问卷的形式。将调查项目科学地分类、排列,就构成调查表或调查问卷。(举例),第一节统计调查方案设计,四、确定调查时间、调查地点和调查方式方法调查时间调查时间是指调查资料所属的时点或时期。调查时间包括三方面内容:调查资料所属的时间、调查期限和调查工作进行的时间。调查地点调查地点是指调查单位的空间位置。确定调查地点,就是规定在什么地方进行调查。调查方式方法调查方式方法是指调查工作的组织方式方法,这主要取决于调查的目的、内容和调查的
3、对象。统计调查的方式多种多样。按其组织形式不同,可分为统计报表制度和专门组织的统计调查;专门组织的调查有普查、重点调查、典型调查和抽样调查等方式。统计调查的方法有直接观测法、实验法、报告法、采访法和网上调查法等。,五、制定调查的组织实施计划调查的组织计划,是指为确保实施调查的具体工作计划。调查的组织实施计划应包括以下内容:建立调查工作的组织领导机构,做好人员的配备与分工;做好调查前的准备工作。如宣传教育、人员培训、文件资料的印发、方案的传达布置、经费的筹措等;制定调查工作的检查、监督方法;调查成果的公布及工作后的总结等。,第一节统计调查方案设计,第二节统计数据收集,一、收集资科的方式取得统计数
4、据有多种途径,但概括起来不外乎是直接方式和间接方式。(一)统计资料的直接收集直接获取第一手统计资料的主要方法包括:统计调查和试验设计。统计调查的方式主要有普查抽样调查重点调查统计报表制度。,普查普查是专门组织的一次性的全面调查,用来调查属于定时点上或时期内的社会经济现象的总量。抽样调查抽样调查是一种非全面调查,它是按照随机的原则,从总体中抽取一部分单位作为样本来进行观测研究,以抽样样本的指标去推算总体指标的一种调查。重点调查重点调查的组织方式有两种:一种是专门组织的一次性调查;另一种是利用定期统计报表经常性地对一些重点单位进行调查。统计报表制度统计报表制度是根据国家有关统计法的规定,依据自上而
5、下统一规定的表格形式、项目及其指标、报送时间与程序布置调查要求和任务,自下而上逐级汇总上报的统计报表制度。,(一)统计资料的直接收集,试验设计科学试验是进行科学研究的重要手段,在许多学科中几乎都起着积极的作用。统计中的试验设计是科学试验研究的组成部分之一。试验设计,包括五个相互关联的环节,分别是:方案设计方案实施数据采集数据分析优化生产,(一)统计资料的直接收集,凡不是通过直接的统计调查和试验,而是从其他各种渠道搜集的第二手资料,我们把它总称为统计资料的间接收集。间接资料的来源大体包括:统计年鉴、统计摘要、统计资料汇编、统计台账、统计公告、报纸、杂志、网上资料等。,(一)统计资料的间接收集,统
6、计年鉴示例,二、收集资料的方法,数据资料的收集方法可以分为初级资料收集方法和次级资料收集方法或称文案资料。初级资料收集方法,搜集资料的方法,观测法,报告法,访问法,二、收集资料的方法,访问法访问法是按所拟调查事项,有计划地通过访谈询问方式向被调查者提出问题,通过他们的回答来获得有关信息资料的方法。按访问内容的传递方式不同,可分为:面谈调查、电话调查、邮寄调查、留置调查、日记调查和网上调查等方法。,二、收集资料的方法,观测法观测法是指调查者通过直接观测、跟踪和记录被调查者的情况来收集资料的一种调查方法。举例:试销新产品报告法报告法是由报告单位根据原始记录和核算资料,按照统计机关颁发的统一的表格和
7、要求,按一定的报送程序提供资料的方法。,次级资料的收集方法,1、根究研究项目的内容判别所需资料的类型2、寻找资料的来源3、对次级资料的查找4、对查找的资料进行清理、补充,统计的整个工作过程就是对数据的加工过程,从原始数据的收集开始,经过整理、显示、样本信息的获取到总体数量规律性的科学推断,都有一个减少误差、提高数据质量的问题。也就是说,统计数据的质量控制问题是贯穿于统计全过程的重要问题,因此,加强统计数据质量的管理要体现在统计研究的全过程。统计数据质量的最大特征在于它的相对性。,三、统计数据的质量问题,统计数据的分类,统计数据的分类,数据的计量尺度,计量尺度计量或测度的程度按照对事物计量的精确
8、程度,可分定类尺度(列名尺度)-按照事物的某种属性进行平行的分类或分组定序尺度(顺序尺度)-对事物之间等级差或顺序差别的测度定距尺度(间隔尺度)-度量事物类别或次序之间的间距定比尺度(比率尺度)-计算两个测度值之间的比值,统计数据的分类(按计量尺度分),分类数据(categoricaldata)对事物进行分类的结果数据表现为类别,用文字来表述例如,人口按性别分为男、女两类顺序数据(rankdata)对事物类别顺序的测度数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等数值型数据(metricdata)对事物的精确测度结果表现为具体的数值例如:身高为175cm、168cm、
9、183cm,统计数据的分类(按收集方法分),观测的数据(observationaldata)通过调查或观测而收集到的数据在没有对事物人为控制的条件下而得到的有关社会经济现象的统计数据几乎都是观测数据试验的数据(experimentaldata)在试验中控制试验对象而收集到的数据比如,对一种新药疗效的试验,对一种新的农作物品种的试验等自然科学领域的数据大多数都为试验数据,统计数据的分类(按时间状况分),截面数据(cross-sectionaldata)在相同或近似相同的时间点上收集的数据描述现象在某一时刻的变化情况比如,2002年我国各地区的国内生产总值数据时间序列数据(timeseriesda
10、ta)在不同时间上收集到的数据描述现象随时间变化的情况比如,1996年至2002年国内生产总值数据,主要任务,资料审核、分组、汇总、制表、制图等。,分组,频数分布,统计表,统计图,第三节统计数据整理,录取中有无歧视?,某高校两个系(财经系、工程系)的报考及录取情况,录取比率:男生:350/800=44%女生:200/600=33%,男生成绩好?性别歧视?,两个系的报考及录取情况,工程系:男女录取比率50%,财经系:男女录取比率25%。,说明的问题:对数据1.要从不同的角度进行分析;2.要注意结构或是权数的影响。,统计整理的概念和作用,(一)统计分组统计分组是根据统计研究目的,将总体按一定标志区
11、分为不同类型或不同性质的组,使组与组之间有比较明显的差别,而在同一组内的单位具有相对的同质性,即同一组内各单位之间具有某些共同的特征。(一)统计分组原则根据统计研究的目的选择分组标志选择能够反映现象总体本质特征的标志考虑现象所处的具体时间、地点、条件来分组满足完备性、互斥性及一致性,分组,分组前,分组后,25,33,42,统计分组的作用,发现现象的特点与规律。(1)划分现象的类型。例如:将工业企业按生产要素组合特征划分为:资金密集型;技术密集型;劳动密集型。,(2)研究总体的结构。例如:按照年龄将人口总体分组,说明人口的年龄结构,以此判断人口总体属于增长型、稳定型还是减少型。,例:上海市按GD
12、P计算的三次产业结构(%)1980年1990年1996年1997年GDP100100100100第一产业3.24.32.52.3第二产业75.763.854.552.2第三产业21.131.943.045.5,(3)研究现象之间的依存关系。分组后,计算有关指标,来观察指标间的联系。,例:中国农民家庭按收入分组的恩格尔系数(1984年),按收入分组(元)2003004005006008001000恩格尔系数(%)64.960.256.754.450.549.943.6,(二)统计分组的方法按标志的特征分组总体单位的各个标志按分组标志的特征分组区分为品质标志和数量标志。,第三节统计数据整理,学生按
13、性别分组,按品质标志分组,按数量标志分组,某班学生按年龄频数分布,按分组标志数量分组统计分组按分组标志多少不同,可分为简单分组和复合分组。,简单分组简单分组是对研究对象按照一个标志进行的分组。例如某高校职工按照性别或者职称进行的分组,如表2.3.1、2.3.2所示。,第三节统计数据整理,复合分组复合分组是对研究对象按两个或两个以上的标志层叠起来进行的分组。即先按一个标志进行分组,然后再按另一个标志在已分好的各个组内划分成若干个小组。例如企业职工按性别分组后,在每组内再按年龄分组,如表2.3.3所示。,第三节统计数据整理,(三)统计分组体系统计分组体系有两种:平行分组体系和复合分组体系,如图2.
14、3.1、2.3.2所示。,(三)统计分组体系,二、分配数列,将统计总体按某一标志分组后,用来反映总体单位在各组中分配情况的数列叫分配数列。分配在各组的总体单位数叫次数或频数。各组次数与总次数的比值称为频率。(一)分布数列的分类根据分组标志的不同,分配数列可以分为品质分配数列和变量分配数列两种。,(一)分布数列的分类,品质数列按品质标志分组所形成的分配数列称品质分配数列或属性分配数列,简称品质数列。它是由总体各组名称及各组总体单位数(次数)组成,如表2.3.4所示。,(一)分布数列的分类,变量数列按数量标志分组形成的分配数列,称为变量分配数列,简称变量数列。它由各组变量值及各组总体单位数(次数)
15、组成。变量数列按照用以分组的变量的表现形式,可分为单项数列和组距数列两种。单项数列就是指以一个变量值代表一组而编制的变量数列,如表2.3.5所示。,组距数列的分类:等距分组异距分组等距分组即各组组距相等的分组。异距分组即各组组距不相等的分组。在标志值变动比较均匀的条件下,可采用等距分组。当标志值变动很不均匀,如急剧的增大、下降,变动幅度大时,可采用异距分组。,(二)分布数列的编制,等距分组步骤,1)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。一般情况下,组数不应少于5组,也不应多于15组。在实际分组时,可以按Sturges提出的经验公式来确定组数K(四舍五入取整),例如2-1的
16、数据:,2)确定各组的组距:组距(ClassWidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距(最大值-最小值)组数例2.1的数据,最大值为128,最小值为84,则组距(128-84)/67.3。组距宜取5或10的倍数;(近似值)在实践中,组数和组距要通过反复的实验确定,最终确定出最有意义的组数和组距的组合。,3)确定组限:组限是分组的数量界限,是表明每组界限的两头数值。下限(lowlimit):一个组的最小值上限(upperlimit):一个组的最大值组限的具体形式有:重合组限和间断组限;闭口组限和开口组限。确定组限的原则1:最小一组的下限必须包含
17、数列中最小变量值;最大组的上限必须包含数列中最大变量值。确定组限的原则2:遵循不重不漏的原则。“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现;“不漏”是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。,4)根据分组计算频数,整理成频数分布表:将原始数据按照各自的大小分配到各组中。,本例可以得到如下频数分布表,重合组限、闭口组限,对于重合组限的形式,为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于其一组上限的变量值不算在本组内,而计算在下一组内。重合组限既适用于连续型变量分组也适用于离散型变量分组,应用
18、非常广泛。,对于离散变量,可以采用相邻两组组限间断的办法(间断组限)解决“不重”的问题。,如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组或个别极端值被漏掉,第一组和最后一组可以采取“xx以下”及“xx以上”这样的开口组。开口组通常以相邻组的组距作为其组距。例如,在例21的30个数据中,假定将最小值改为64,最大值改为160,采用上面的分组就会出现“空白组”,这时可采用“开口组”,如80以下;130以上。,开口组限:缺少上限或者下限的组限设置。,开口组,编制频数分布表的步骤,在研究分析次数分布时,还需要计算:累计频数和累计频率,1.累计频数:将各类别的频数逐级累加。有两种方法
19、:一是可以从最小组一方向最大组的一方累加频数,称为向上累积;二是可以从最大组的一方向最小组的一方累加频数,称为向下累积。累计频率:将各类别的频率(百分比)逐级累加,例:累计频数和累计频率的计算,在根据组距数列进行统计计算时,需要确定组中值,作为各组变量值的代表值。组中值(classmidpoint):下限与上限之间的中点值。,概念:组中值,组中值这种代表有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组距中值两侧呈对称分布。如实际数据的分布不符合这一假定,用组中值作为一组数据的代表值会有一定的误差。,例:组中值计算,在开口组中,组中值的计算以邻近组组距为依据,可见,开口组的组中值既假定变
20、量值是均匀分布或对称分布,又假定组距与邻近组组距相等。,例:组中值计算,第四节统计数据表现形式,第四节统计数据表现形式,一、统计表,(一)统计表的结构,从形式上看,统计表的结构是由表题、横行标题、纵栏标题和指标数值等要素构成,统计表结构的一般形式如图2.4.1所示。,(一)统计表的结构,例:2001年我国工业增加值的一个统计表示如表2.4.1所示。,按照统计表的主词是否分组和分组的程度,分为简单表,分组表和复合表三种。简单表简单表是统计表的主词未经任何分组的统计表。分组表分组表指统计表的主词按某一标志进行分组。复合表复合表指统计表的主词按两个或两个以上标志进行复合分组,(二)统计表的种类,科学
21、、实用、简练、美观首先,要合理安排统计表的结构。其次,表头一般应包括表号、总标题和表中数据的单位等内容。再次,表中的上下两条横线一般用粗线,中间的其他线要用细线,这样使人看起来清楚,醒目。最后,在实用统计表时,必要时可在表的下方加上注释,特别要注意注明资料来源,备读者查询使用。,(三)统计表的设计要求,(四)不良统计表的修改举例,二、统计图,条形图(Barchart)条形图常用于描述离散型数据的情况,是我们经常见到的一种图形,它是用宽度相等而高度为频数(率)来表示各类数据的大小。,例2.4.1某高校2005年各院教师在国内核心杂志上发表论文情况,如表2.4.2所示,条形图(Barchart),
22、解:由表2.4.2中的数据应用Excel软件中的“插入”功能中的“图表”功能绘成的条形图如图2.4.2所示。,直方图(Histogram),直方图表征数据的频数分布特征,它与条形图在形式上有类似之处,都是用条形来表示数据特征,但直方图中的条形之间是没有间隔的。,例2.4.2某连锁企业2005年度各分公司完成销售计划如表2.4.3所示,试绘制直方图。,直方图(Histogram),解:应用Spss软件中的“Gragh”功能绘制的直方图,如图2.4.3所示。,饼分图(Piechart),饼分图经常用来表示各成分在总体中所占的百分比。,例2.4.3某课题组为了科学评价某高校学科建设项目的绩效,对构建
23、的学科建设绩效评估指标权重进行了问卷调查,累计发放问卷调查表243份,回收有效问卷223份,其中,教授占65%,研究员占1%,副教授占12%,副研究员占1%,讲师占20%,助教占1%,则样本职称分布如图2.4.4所示。,洛伦茨曲线是20世纪初美国经济学家、统计学家洛伦兹(M.E.Lorentz)绘制成的描述收入和财富分配性质的曲线,洛伦兹曲线如图2.4.5所示。,洛伦茨曲线,洛伦茨曲线,为了更准确地反映收入分配的变化程度,20世纪初意大利经济学家基尼(Gini)根据洛伦茨曲线,提出了计算收入分配公平程度的统计指标,称为基尼系数。其公式为:,联合国有关组织规定:G小于0.2表示收入绝对平均,在0
24、.20.3之间表示比较平均,在0.30.4之间表示相对合理,在0.40.5之间表示收入差距较大,大于0.6表示收入差距悬殊。基尼系数0.4为国际警戒线,超过了0.4则应采取措施缩小收入差距。,箱形图也称箱线图,是由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制的一个箱子和两条线段的图形。如图2.4.6所示。,箱形图(Boxplot),箱形图(Boxplot),不同箱形形状可反映出不同的分布特征,如图2.4.7所示。,箱形图举例,K线图分析K线的形状:,例2.4.42005年度某高校经济管理学科共有10篇博士学位论文需要评审,分别请该领域8位专家进行审稿,论文得分数据如表2.4.4
25、所示。,解:应用Spss软件中的“Gragh”功能绘制的各博士学位论文得分情况的箱形图,如图2.4.8所示。,图2.4.810篇博士学位论文得分的箱形图,一般地:当数据是一位和两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图。茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺序同行列出。,茎叶图,例甲、乙两篮球运动员在上赛季每场比赛的得分如下,试比较这两位运动员的得分水平,甲12,15,24,25,31,31,36,36,37,39,44,
26、49,50乙8,13,14,16,23,26,28,33,38,39,51,解:画出两人得分的茎叶图;从这个茎叶图可以看出甲运动员的得分大致对称,平均得分及中位数、众数都是多分;乙运动员的得分除一个外,也大致对称,平均得分及中位数、众数都是多分,因此甲运动员发挥比较稳定,总体得分情况比乙好,练习:,右面是甲、乙两名运动员某赛季一些场次得分的茎叶图,据图可知(),A,A甲运动员的成绩好于乙运动员B乙运动员的成绩好于甲运动员,C甲、乙两名运动员的成绩没有明显的差异D甲运动员的最低得分为0分,散点图,散点图:用点的密集程度和趋势表示两种现象间的相关关系。横轴:自变量X纵轴:应变量Y纵轴与横轴的起点可
27、根据资料的情况而定。,雷达图雷达图(radargraph)可比较多个单位不同指标的数据特征,如最大值、最小值等。例2-6为了反映医院管理的质量,某市抽样调查了几所医院的6项指标(指标值越大表示质量越高),其中三所医院的调查结果见图2-34,请绘制雷达图反映三所医院的管理质量。,气泡图气泡图可以反映三个变量之间的数量关系。例7某地采用直接测量方法,测得年龄在015周岁的不同性别儿童的身高、体重、体表面积等指标,从中随机挑选的18名儿童的测量值如图2-35所示。试对该数据采用气泡图反映身高、体重、体表面积3个指标间的关系。,第五节统计数据特征描述,一、总量指标总量指标是反映社会经济现象在一定时间、
28、地点、条件下的总规模或总水平的统计指标。总量指标也称为绝对指标或绝对数。(一)社会总产品社会总产品也称总产出。它是指一个国家或地区在一定时期(如一年)内全部生产活动的总成果,当以货币表现时,即为全部生产活动成果的价值总量。(二)增加值增加值是企业或部门在一定时期(如一年)内从事生产经营活动所增加的价值。它是总产出减去中间投入后的余额,因此,从价值构成看,它包括全部新创造的价值和物质消耗中本期固定资产折旧。,一、总量指标,(三)国内生产总值(GDP)国内生产总值是按市场价格计算的国内生产总值的简称。它是一个同家(或地区)所有常住单位在一定时期内生产活动的最终成果。国内生产总值有三种表现形态,即价
29、值形态、收入形态和产品形态。在实际核算中,国内生产总值的三种表现形态表现为三种计算方法,即生产法、收入法和支出法。生产法国内生产总值各部门增加值之和(2.5.1)增加值总产出一中间投入(2.5.2),一、总量指标,收入法增加值=固定资产折旧+劳动者报酬+生产税净额+营业盈余(2.5.3)支出法国内生产总值最终消费十资本形成总额十净出口(2.5.4)国民总收入国内生产总值十国外要素收人净额(2.5.5)国外要素收入净额=来自国外的劳动者报酬和财产收入国外从本国获得的劳动者报酬和财产收入(2.5.6),二、相对指标,相对指标又称相对数,它是两个有联系的指标数值对比的结果。用来对比的两个数,既可以是
30、绝对数,也可以是平均数和相对数。(一)计划完成相对指标,二、相对指标,例2.5.2设某工厂某年计划工业增加值为600万元,实际完成660万元,求增加值计划完成相对数。,1根据总量指标计算计划完成相对指标,二、相对指标,2根据平均指标计算计划完成相对指标根据平均指标计算计划完成相对数的计算公式为:,二、相对指标,例2.5.3某企业生产某产品,本年度计划单位成本降低9%,实际降低12%,求成本降低率计划完成相对数。,例2.5.4某企业某月生产某产品,计划每人每日平均产量为36件,实际每人每日平均产量为39件,求劳动生产率计划完成相对数。,(二)结构相对指标,总体是在同一性质基础上由各种有差异的部分
31、所组成的。结构相对指标就是利用分组法,将总体区分为不同性质(即差异)的各部分,以部分数值与总体数值对比而得出比重或比率,来反映总体内部组成状况的综合指标。其计算公式为,例2.5.5某公司男职工为员工总数的60,女职工为员工总数的40%,它反映了该公司在男女性别上的构成情况。,(三)比较相对指标,比较相对致也称类比相对数,是将两个同类指标做静态对比得出的综合指标,表明同类现象在不同条件(如在各国、各地、各单位)下的数量对比关系。其计算公式为:,例2.5.6某年有甲、乙两企业同时生产一种性能相同的产品,甲企业工人劳动生产率为21776元,乙企业为30994元,求两企业劳动生产率比较相对数。,解:两
32、企业劳动生产率比较相对指标=,(四)比例相对指标,比例相对指标是将总体内某一部分数值与另一部分数值对比所得到的相对数,常用系数或倍数表示。计算公式为,例2.5.7我国2003年国内生产总值为116898.4亿元,其中第产业为17092.1亿元,第二产业为61131.3亿元,第三产业为38675.0亿元,则第产业生产总值:第二产业生产总值:第三产业生产总值1:3.6:2.3,(五)强度相对指标,强度相对指标是两个性质不同,但有一定联系的总量指标对比的结果,用来表明现象的强度、密度和普通程度的综合指标。强度相对指标的计算,(五)强度相对指标,例2.5.8某地区占地10.2万平方公里,据统计2005
33、年初和2005年底的人口分别为4216万人和4372万人,2005年国民收入总额为9768亿元,求2005年的人口密度、平均人口数、人均国民收入。,(五)强度相对指标,强度相对指标的正逆指标,强度相对数是两个有联系的不同事物的总量指标数值的对比,因此,分子和分母可以互换,这就产生了有些强度相对数有正指标和逆指标两种,例2.5.9某城市人口620万人,有大学66所,求大学密度正指标与大学密度负指标。,动态相对指标是同类指标在不同时期上的对比,其计算公式为,(五)动态相对指标,式(2.5.16)中,作为对比标准的时期叫做基期,而同基期比较的时期叫做报告期,有时也称为计算期。动态相对数的计算结果用百
34、分数或倍数表示。,三、平均指标,(一)算术平均数,简单算术平均数,(一)算术平均数,加权算术平均数,加权算术平均数的简略形式为:,加权均值(例题分析),根据不分组的公式计算均值=103.5。相差0.83件,加权算术平均数受两因数的影响:变量值大小的影响。次数多少的影响。次数大的标志值对影响大;反之,影响小。,而简单算术平均数只反映变量值大小这一因素的影响。,加权算术平均数与简单算术平均数不同在于:,(二)调和平均数,调和平均数也称“倒数平均数”,它是对变量的倒数求平均,然后再取倒数而得到的平均数,(三)几何平均数,简单几何平均数,例2.5.14某高校自2001-2005年学生人数如表2.5.3
35、所示,求该校平均发展速度。,解:,(三)几何平均数,加权几何平均数,(三)几何平均数,例2.5.15某银行在过去15年中的年利率资料如表2.5.4所示,求15年的平均年利率。,解:用几何平均法求15年平均利率,(四)中位数,中位数是将总体中各单位标志值按大小顺序排列,居于中间位置的那个标志值就是中位数,用表示。,未分组资料中位数的确定,例2.5.167名工人的日产量依次从小到大排列为16件、18件、22件、23件、26件、29件、31件;8名工人的日产量依次从小到大排列为16件、18件、22件、24件、26件、29件、31件、33件,分别求其中位数。解:7名工人的日产量的中位数位次(用)为,(
36、四)中位数,8名工人的日产量的中位数位次为,分组资料中位数的确定下限公式(向上累计时)为,(四)中位数,上限公式(向下累计时),例2.5.17某车间共有工人130名,生产某种产品按日产量分组资料如表2.5.5所示,试确定该车间工人日产量的中位数。,例2.5.18某高校某学院学生体重的数据资料如表2.5.6所示,计算该学院学生体重的中位数。,(四)中位数,按下限公式计算:,按上限公式计算:,例2.5.18计算,1.概念:在总体中出现次数最多的那个标志值就是众数。,从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。例如:集市上某种蔬菜的成交价格(元)为:0
37、.8,0.9,0.9,1.0,1.2,1.2,1.2,1.2,1.5,1.5,1.61.2元出现次数最多,就是众数,(五)众数,(五)众数,按单项数列确定众数只须观测标志值出现的次数,把次数最多的组定为众数组,该组的标志值即为众数。按组距数列确定众数的方法,下限公式:,上限公式:,(五)众数,(六)四分位数(quartile),四分位数是通过三个点将全部数据等分为四部分,其中每部分包含25%的数据。,很显然,中间的四分位数就是中位数。排序后处于25%和75%位置上的值,即通常说的第一个四分位数(下四分位数);第三个四分位数(上四分位数)。,未分组四分位数,原始数据:(未分组),当四分位数的位置
38、不在某一个数值上,按比例分摊位置两侧数值的差值。,先排序;然后确定四分位数的位置,例:数量数据的四分位数(9个数据的算例),【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,QL和QU之间包含了50%的数据,可以说有一半的家庭人均收入在815到1565元之间。,例如:数量数据的四分位数(10个数据的算例),【例】:10个家庭的人均月收入数据排序:66075078085096010801250150016302000位置:12345678910,
39、QL和QU之间包含了50%的数据,可以说有一半的家庭人均收入在772.5到1532.5元之间。,(七)各种平均数的适用范围及其相互关系,不同平均指标的适用范围算术平均数易受极端变量值影响,使的代表性变小;当组距数列为开口组时,由于组中值不易确定,使的代表性变得不可靠。几何平均数适用于各个变量值的连乘积等于其发展总速度时,求算其平均数;求等比数列的平均数。众数适用于总体的单位数较多,各标志值的次数分配又有明显的集中趋势的的情况。中位数属于位置平均数,它与众数一样,都是从数据位置的角度来反映数据的代表水平,中位数不受极端值的影响,各个变量值相对其中位数的绝对离差之和为最小。,(六)各种平均数的适用
40、范围及其相互关系,算术平均数、中位数和众数三者的关系,四、变异指标,标志变异指标是评价平均数代表性的依据,标志变异指标愈大,平均数代表性愈小;标志变异指标愈小,则平均数代表性愈大。极差(range)极差也称全距,是指总体分布中最大标志值与最小标志值之差,用以说明标志值变动范围的大小,通常用来表示,其计算公式为,极差(range),例2.5.20某商场连续11天销售某品牌手机的数量分别为:22、36、43、12、31、52、42、20、35、26、33,求极差。解:将销售数量由大到小排序为:12、20、22、26、31、33、35、36、42、43、52,则极差为:,标准差(standardde
41、viation)和方差(variance),由未分组数据资料计算标准差是总体各单位标志值与平均数离差平方平均数的平方根,标准差的平方即为方差。设从某个总体中抽取的数据为,则称,为样本标准差,为样本方差,标准差(standarddeviation)和方差(variance),若某总体的全部元素就是,则称,为该总体的标准差,为该总体的方差,标准差(standarddeviation)和方差(variance),由分组资料计算,例2.5.22以例2.5.18中学生体重的样本资料,计算学生体重的方差与平均差。,例2.5.23某高校经济管理学院中的0401和0402两个班各有9名学生选修了管理预测与决策
42、方法课程,考试成绩如表2.5.7所示,试计算各班管理预测与决策方法成绩的平均值和标准差。,解:根据表2.5.7的数据资料计算得,变异系数(coefficientofvariation),离散系数是消除平均数影响后的标志变异指标,用来对两组数据的差异程度进行相对比较,其形式为相对数,因此,也称为标志变异相对数指标。常见的离散系数是标准差系数。,变异系数(coefficientofvariation),例2.5.24某电器公司中的两个车间生产不同的产品,其中一车间生产手机,二车间生产MP3,某月两个车间产量的平均数和标准差资料如表2.5.8所示,试分析两者标志的变异程度。,解:,五、偏度与峰度,偏
43、度(Skewness)偏度是用于衡量分布的不对称程度或偏斜程度的指标,峰度(Kurtosis),五、偏度与峰度,例2.5.26根据例2.5.18中学生体重的样本资料,计算学生体重的峰度。,案例:成都市居民理财行为调查,提高居民的财产性收入成为经济发展目标成都居民理财情况具有代表性的调研目的商业银行个人理财产品的市场定位制定提高居民财产性收入的政策,调查实施,调查对象:成都市区居民调查方式:问卷调查方式样本:问卷2500份,实际回收2044份,有效率为81.76,年龄分布20岁以下(9)20-30岁(48)30-40岁(28)40-50岁(9)50岁(6)月收入1000元以下(25)1000-2000元(36)2000-3000元(24%)3000-4000(6)4000-5000(4)5000以上(5)职业公司职员(25)服务业人员(15)个体(14)教师(11)公务员(7)其他职业(28),样本特征,成都居民对理财的了解情况,表:居民理财方式,居民对理财产品投资期限的偏好,居民对自己目前理财规划的满意度,问题:,问题如何度量?需要调查那些数据?数据类型是什么?统计调查方法?数据的收集方式?如何进行资料的质量分析?数据结果的表示?,当前中国居民理财状况?,
限制150内