《统计与统计学含义.doc》由会员分享,可在线阅读,更多相关《统计与统计学含义.doc(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、优质文本统计与统计学的含义学习统计学,首先应该明确什么是“统计。 “统计一词有三种含义:统计数据 反映客观现象数量方面的数据资料统计工作 收集、整理、分析统计数据的实践活动统计学 收集、分析、表述和解释数据的科学(不列颠百科全书的定义)统计学:收集、处理、分析、解释数据并从数据中得出结论的科学 1. 收集数据:取得数据 2. 处理数据:整理与图表展示 3 分析数据:利用统计方法分析数据 4数据解释:结果的说明 5得到结论:从数据分析中得出客观结论统计学与数学的区别1数学研究的是抽象的数量规律性,而统计学研究的是具体的、实实在在的数量规律性。数学研究的是没有量纲或单位的数,而统计学研究的是有具体
2、实物内容或计量单位的数据。2数学研究使用的是纯粹的演绎,而统计学是演绎与归纳相结合,且占主导地位的是归纳。 数学家可以端坐家中,凭借纸笔和聪明的大脑,从假设的命题出发而推导出漂亮的结果。而统计学家那么必须深入实际收集数据,才能有所作为,没有大量数据的归纳,统计学家就得不出任何有益的结论。统计研究的过程实际问题 收集数据 整理数据 分析数据 解释数据 实际问题统计学的分类数理统计学:是以概率论为根底,对统计数据数量关系的模式加以解释,对统计原理和方法给予数学的证明。应用统计学:是数理统计原理和方法在各个领域的应用。统计在商务和经济中的应用1会计2财务 3市场4生产 5经济1.1.2什么是教育统计
3、学教育统计学的概念:属于应用统计学类别,是运用数理统计的原理和方法研究教育问题的一门应用科学。主要任务: 研究如何搜集、整理、分析由教育调查和教育实验等途径所获得的数字资料,并以此为依据,进行科学推断,从而揭示蕴含在教育现象中的客观规律。理解教育统计学的两个关键点:1教育调查和教育实验课题的提出、内容的界定、对象范围确实定、假设的建立、结论的得出以及分析不是教育统计学的研究任务。这些还需要依靠与研究内容有关的教育专业只是来解决2教育统计学只能提供各种统计方法的应用条件和统计计算结果的解释。1.1.3统计学与教育统计学的内容统计学的内容:描述统计,推断统计参数估计,假设检验,实验设计描述统计:对
4、已获得的数据进行整理、概括、显现其分布特征统计方法 内容:搜集数据,整理数据,展示数据,描述性分析目的:描述数据特征,找出数据的根本规律描述统计在教育统计学中的解释:通过教育调查和教育实验获得了大量的数据,用归组、编表、绘图等统计方法对之进行归纳、整理,以直观形象的形式反映其分布特征;通过计算各种特征量来反映他们分布上的数字特征。推断统计研究如何利用样本数据来推断总体特征的统计方法内容:参数估计,假设检验目的:对总体特征作出推断实验设计概念:实验者为了揭示试验中自变量与因变量的关系,在实验之前所设定的实验方案成为实验设计。内容:抽样方式;计算样本容量;确定实验对照形式;控制无关因素;选择统计方
5、法处理和分析实验结果 教育统计学以阐述描述统计和推断统计两局部内容为主,实验设计将作为独立课程进行教学1.2 统计中的几个根本概念1. 总体和总体单位个体总体是客观存在的、存在某种共同性质的许多个别事物组成的整体。具有大量性、同质性、变异性等特征。总体单位:构成总体的个体事物称总体单位。总体由总体单位构成,要认识总体必须从总体单位开始。统计总体与总体单位的相对性随着统计研究任务、目的及范围的变化,统计总体和总体单位可以相互转化。总体或总体单位的区分不是固定的,在一定条件下可以相互转化。1.研究1000名学生的学习成绩,那么总体是BA1 000名学生的学习成绩 B1 000名学生C每一名学生的学
6、习成绩 D每名学生2要了解300名学生的身体情况,那么总体单位是CA300名学生 B300名学生的身体情况C每名学生 D每一名学生的身体情况(三) 统计总体的种类有限总体l:指所包含的单位数目有限的总体对有限总体可以进行全面调查,也可以进行非全面调查;无限总体:指所包含的单位数目无限的总体对无限总体只能采取非全面调查 2. 样本样本:从总体中抽取的一局部元素的集合。样本量:构成样本的元素的数目。二、 参数和统计量参数:用来描述总体特征的概括性数字度量。平均数,标准差,比例)统计量:用来描述样本特征的概括性数字度量。平均数,标准差,比例)某研究部门准备在全市200万个家庭中抽取2000个家庭,推
7、断该城市所有职工家庭的年人均收入。这项研究的参数是D A. 2000个家庭 B. 200万个家庭 C. 2000个家庭的人均收入 D. 200万个家庭的人均收入 三、变量与标志1、变量分类变量:说明事物类别的一个名称顺序变量:说明事物有序类别的一个 名称数值型变量:离散型变量,连续型变量连续性变量的数值是连续不断的,任意两个变量值之间可以做无限分割。需要使用度量工具取值人的身高、体重、年龄,气象上的温度、湿度,零件的尺寸,电子元件的使用寿命等离散变量的取值可以按一定次序一一列举,变量值通常用整数表示。取值不需要用工具度量,用计数的方式即可 特定范围的人口数、汽车数量、企业数量、林木株数1以下变
8、量属于连续变量的是( D ) A学生人数 B工厂的设备台数 C某市的医院数 D零件的尺寸误差2商业企业的职工人数与商品销售额是( C ) A连续变量 B前者是连续变量,后者是离散变量 C离散变量 D前者是离散变量,后者是连续变量2、标志是说明总体单位特征的名称。品质标志说明总体单位的属性特征,在原始状态下无法量化 。数量标志说明总体单位的数量特征,在原始状态下能够量化。标志表现即标志特征在各单位的具体表现。标志表现有品质标志表现和数量标志表现之分。品质标志表现只能用文字表述,因此不能转化为统计指标,但对其对应的单位进行总计时就形成统计指标。数量标志表现是一具体数值,也称标志值。标志与标志表现例
9、如标志:(性别,民族,宗教信仰,所在省份)品质标志 年龄,身高,体重数量标志标志表现:男,汉,佛教,天津品质标志表现 31岁,175厘米,80公斤数量标志表现1. 某同学的统计学考试成绩为90分,那么90分是( B )A品质标志 B数量标志表现 C数量指标 D标志值2.以下标志属于品质标志的是( B )A工人的年龄 B工人的工种 C工人的工资 D工人的日产量 统计的概念统计的分类及内容统计中的几个根本概念一、统计数据是统计变量的具体表现统计数据的类型:1按计量尺度分类数据,顺序数据,数值型数据 2按收集方法(观测数据,实验数据) 3按时间状况(截面数据,时序数据)分类数据(categorica
10、l data)是对事物进行分类的结果,数据那么表现为类别,是用文字来表述的。如人口性别:男、女。可以用“1表示男性,“0表示女性它是用定类尺度计量形成的顺序数据(rank data)也是对事物进行分类的结果,但这些类别是有顺序的。产品等级:一等品、二等品、三等品、次品等考试成绩:优、良、中、及格、不及格等受教育的水平:小学、初中、高中、大学及以上一个人对事物的态度:非常同意、同意、保持中立、不同意、非常不同意等它是由定序尺度计量的形成的。数值型数据metric data是使用自然或度量单位对事物进行计量的结果。其结果表现为具体的数值。截面数据crosssectional data是在相同或近似
11、相同的时间点上收集的数据,它所描述的是现象在某时刻的变化情况,如2002年我国各地区的国内生产总值。截面数据又称静态数据时间序列数据time series data是在不同的时间上收集到的数据,它所描述的是现象随时间而变化的情况。如20022007年我国的国内生产总值。时间序列数据又称为动态数据。一名统计学专业的学生为了完成其统计作业,在?统计年鉴?中找到的2006年城镇家庭的人均收入数据,这一数据属于C A. 分类数据 B. 顺序数据C. 截面数据 D. 时间序列数据二、统计数据的来源数据来源:直接来源(实验,调查,观察;间接来源出版物或网上间接来源数据;1、查阅公开出版物;2、向政府统计机
12、构咨询;3、向其他机构咨询;4、网上查询。直接来源数据1、实验独立课程,本课程不讲授2、观察等同于调查3、调查重点讲授在教育统计中,直接数据来源教育实验和教育调查。 统计调查收集原始数据资料的统计活动过程原始数据资料指直接从各调查单位收集的用来反映个体特征的数据资料要求:准确、及时、全面、系统统计调查是整个统计认识活动的根底,决定着统计认识过程及其结果的成败 统计调查的种类按调查单位的范围大小分为全面调查,非全面调查按调查时间是否连续分为经常性调查,一次性调查按调查的组织方式不同分为统计报表,专门调查普查,重点调查,典型调查,抽样调查统计报表制度:指按照国家统一规定的各项要求,自下而上地定期向
13、国家和主管部门报送根本统计资料的一种报告制度优点:能保证统计资料的全面性和连续性能保证统计资料的统一性和及时性能满足各级部门对统计资料的需要局限:统计报表过多会增加基层负担有可能由于虚报瞒报而影响统计资料质量普查:指国家为详尽了解某项重要的国情国力而专门组织的一次性全面调查作用:可以为抽样调查提供抽样框,可以收集统计报表所不能提供的反映重大国情国力的根本统计信息局限:由于需要大量的人力、物力和财力,不宜经常进行重点调查:为了解总体根本情况,在调查对象中只选择一局部重点单位这些单位数目不多,但其标志值在总体标志总量中占有较大比重,能反映总体的根本情况 进行调查的一种非全面调查组织方式作用:能以较
14、少的投入和较快的速度取得总体根本情况及变动趋势的资料局限:只适用于客观存在着重点单位的情况典型调查:在对调查对象有一定了解的根底上,有意识地选择少数典型单位指在数量表现上具有普遍意义和代表性的总体单位,可以用来推断总体的数量 进行调查的一种非全面调查组织方式作用:一定条件下能估计总体指标数值可以补充全面调查的缺乏可以用来研究新生事物局限:不能确定推断的把握程度,无法计算和控制推断误差抽样调查:按照 随机原那么 指样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中时机从调查对象中抽取一局部样本单位进行调查,再用样本资料推断把握总体的数量特征的一种非全面调查组织方式特点
15、:按随机原那么抽取样本单位目的是推断总体的数量特征抽样误差可以事先计算并控制优点:能用较少的人力、物力和时间到达全面调查的目的。调查资料的准确性较高、受人为干扰的可能性较小以下哪些现象适宜采用非全面调查 A.企业经营管理中出现的新问题; B.某型号日光灯耐用时数检查; C.某地区居民储蓄存款; D.某地区森林的木材积蓄量。重点调查中的重点单位,是指( D ) A.处于较好状态的单位 B.规模较大的单位 C.表达当前工作重点的单位D.就调查标志而言在总体中占有很大比重的单位抽样调查的含义 :抽样调查是按照一定的程序随机原那么,从所研究对象的全体中抽取一局部单位进行调查,并在一定条件下对研究对象的
16、数量特征进行估计和推断。抽样调查包括概率抽样调查和非概率抽样调查两种。一概率抽样概率抽样也称随机抽样,它有以下特点:首先,抽样时是按一定的概率以随机原那么抽取样本。所谓随机原那么就是在抽取样本时排除主观上有意识地抽取调查单位,使每个单位都有一定的时机被抽中其次,每个单位被抽中的概率是的,或者是可以计算出来的。最后,当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。概率抽样的类型1简单随机抽样抽样框。进行概率抽样需要抽样框,抽样框通常是包括所有总体单位名单。如企业名录,学生名册,住户门牌号码等简单随机抽样就是从包括总体N个单位的抽样框中随机地、一个一个地抽取n个单位作为样本,每个
17、单位入样的概率是相等的。简单随机抽样是一种最根本的的抽样方法是其他抽样方法的根底。特点:简单、直观; 在抽样框完整时可直接从中抽取样本; 抽选概率相同;(2) 分层抽样分层抽样是将抽样单位按某种特征或某种规那么分为不同的层,然后从不同的层中独立、随机地抽取样本。将各层的样本结合起来对总体的目标量进行估计。(3) 整群抽样整群抽样是指将总体各单位划分成许多群,然后从中抽取局部,对中选群的所有单位逐个进行调查的一种抽样调查技术形式。整群抽样因为是对中选群的全面调查,所以调查单位很集中大大简便抽样工作,节省经费开支。4系统抽样将总体中的所有单位按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始
18、单位,然后按事先规定好的规那么确定其他样本单位。二非概率抽样技术非随机抽样是指在抽样时不按照随机原那么,而是由调查者根据调查目的和要求,主观设立某个标准从总体中抽选样本的抽样方式。非随机抽样主要有四种具体方式:方便抽样:是根据调查者的方便与否,以尽可能使调查对象对总体具有代表性为原那么的一种调查方法。判断抽样:是指市场调查者根据自己的主观判断经验和知识,从总体中选择具有典型代表性的单位作为样本的一种抽样方法。 配额抽样:它是先按照市场调查对象的某种特征,将总体分为假设干类,然后按一定的比例在各类中分配样本单位数额,并按各类数额在每类中任意或主观抽样。滚雪球抽样:是通过以一触十、 以十触百,类似
19、“滚雪球的方式抽取样本。运用这种方法的前提是样本单位之间具有一定的联系,是在不了解总体的情况下去了解总体的一种方式。三概率抽样与非概率抽样的比拟非概率抽样不是依据随机原那么抽选样本,样本统计量的分布是不确切的,因而无法使用样本的结果对总体相应的参数进行推断。但操作简便、时效快、本钱低,适合于探索性的研究,可从调查中发现问题。有时在一项研究工程中,也可以把概率抽样和非概率抽样相结合,发挥各自的特点,满足研究中的不同需求。以下哪种调查方式样本不是随机选取D A.分层抽样 B.系统抽样 C.整群抽样 D.判断抽样如果要搜集某一特定群体的有关资料,适宜采用的调查方式是B A.系统抽样 B.整群抽样 C
20、.滚雪球抽样 D.判断抽样搜集数据的根本方法一自填式自填式指在没有调查员协助的情况下,由被调查者自己填写,完成调查问卷。方式:邮寄、网络、媒体。要求:调查问卷结构严谨,有清楚的说明,应有制作详细、形象友好的说明。特点:本钱低,适用大范围调查,减少被调查者压力。返回率低,周期长,出错率高。二面访式调查员与被调查者面对面,提问答复。特点:数据质量高,可调节调查时间本钱高,存在调查员主观因素影响三 式 式是指调查人员通过打 的方式向被调查者实施调查。速度快、本钱低、容易控制。数据搜集方法的选择因素1、抽样框中的有关信息抽样框中有关信息是影响方法选择的一相因素。例如:抽样框中没有通讯地址,就不能将自填
21、式问卷寄给被调查者;没有计算机随机数字拨号系统,又没有 号码的抽样框, 调查的概率样本就难以产生。2、目标总体特征目标总体的特征也影响数据搜集的方法。例如:总体的识字率很低,就不宜使用自填式方法样本单位分布很广,地域跨度太大,进行面访式的调查,交通费用就会很高,且过程管理也难以控制。3、调查问题的内容对于比拟复杂的问题,面访调查比拟适合。如果调查问题涉及一些敏感性问题,也可以设置匿名的数据搜集方法,如自填式可能比拟适合。4、有形辅助物的使用如在调查期间显示产品、产品样本、广告、或促销演示等,有时还需要让被调查者试用产品,然后再接受调查。这对于面访问式比拟适合。5、实施调查的资源实施调查的资源会
22、对搜集数据方法产生重大影响。如经费预算、人员配备、调查设备和调查所需要的时间。如劳务费、交通费、礼品费是面访所必须的。6、管理与控制对调查员的控制, 调查就比面访调查容易控制。7、质量要求在面访和 调查中,调查员的水平和素质对调查质量的影响是显而易见的;有经验的调查员还可以对被访者答复的真实性做出判断,并采用适当的方法予以澄清。答复率也是影响质量的一个重要因素。一、统计数据的整理一数据整理概念和内容统计数据整理就是对搜集得到的初始数据进行审核、分组、汇总,使之条理化、系统化,变成能反映总体特征的综合数据的工作过程。它是统计由对个别现象的认识上升到对总表达象认识的重要阶段,在统计研究工作中起着承
23、前启后的作用,它既是数据搜集的继续和深化,又是数据分析的根底和前提。统计数据整理必须遵循目的性、联系性和简明性三原那么。统计数据整理的内容一般有五个方面:第一,确定指标分组;第二,对原始数据进行预处理;第三,计算出各组单位数、总体单位数以及各组或总体的有关标志值之和;第四,编制统计图表;第五,对统计数据进行系统积累。(二) 数据的预处理数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。1、数据审核数据审核是为了保证数据的质量,为进一步的整理与分析打下根底。对于通过直接调查取得的原始数据,应主要从完整性(应调查单位是否有遗漏,所有的调查工程或指标是否填写齐全)
24、和准确性(一是数据资料是否真实地反映了客观实际情况,内容是否符合实际;二是检查数据是否有错误,计算是否正确等)两个方面去审核审核数据准确性的方法:逻辑检查主要用于对分类的数据和顺序的数据的审核,它是从定性角度。计算检查主要用于对数值型数据的审核,它是检查调查表中的各项数据在计算结果和计算方法上有无错误。对于通过其他渠道取得的二手数据,除了对其完整性和准确性进行审核外,还应着重审核数据的时效性和适用性。数据审核中发现的错误应尽可能予以纠正。如果对数据中发现的错误无法纠正,就需要对数据进行筛选2、数据筛选数据筛选的形式:将某些不符合要求的数据或有明显错误的数据予以剔除;将符合某种特定条件的数据筛选
25、出来,而不符合特定条件的数据予以剔除。3、 数据排序数据排序是按一定顺序将数据排列,以便于研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。排序还有助于对数据检查纠错,以及为重新归类或分组提供方便。4、 数据透视表为了从复杂的数据中提取有用的信息,可以利用Excel提供的数据透视表工具。利用数据透视表可以对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图,形成一个符合需要的交叉表,又称列联表。在利用数据透视表时。数据源表中的首行必须有列标题。二、品质数据的整理与展示品质数据包括分类数据和顺序数据。对品质数据做分类整理,对数值型数据那么主要是做分组整理。1、 频数与频数分布落
26、在某一特定类别或组中的数据个数称为频数。数据在各类别或组中的分配,称为频数分布。我们把各个类别及其相应的频数全部列出,并用表格形式表现出来,就是频数分布。将频数分布用表格的形式表现出来就是频数分布表。2、比例一个总体或样本中各个局部的数值占全部数值的比重,通常用于反映总体的构成或结构。3、 百分比将比例乘以100就是百分比或百分数,它是将比照的基数抽象化为100而计算出来的,用%表示。4、比率比率是各不相同类别数值之间的比值。比方,国内生产总值中第一、二、三产业之比;比率也可以是同一现象在不同时间或空间上的数量之比。比方本年国内生产总值与上年国内生产总值进行比照,可以计算出经济增长率。不同地区
27、国内生产总值进行比照,反映两个地区的经济开展水平差异。(一)分类数据的图示1、条形图 1条形图是用宽度相同的条形的高度或长短来表示数据多少的图形 2 条形图可以纵置或横置。2、帕累托图帕累托图是以意大利经济学家V. Pareto的名字命名的。它是按各类别数据出现的频数多少排序后绘制的柱形图。容易看出哪类数据出现的多。3、饼图饼图是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本或总体中各组数据占全部数据的比例,对于研究结构性问题十分有用。(二) 顺序数据的整理与图示1、累积频数和累积频率累积频数就是将各有序类别或组的频数逐级累加起来。累积频率或累积百分比是将各有序类别或组的百
28、分比逐级累加起来。2、累积频数与累积频率的方法向上累积,从小到大或从低到高的方向把频数顺序累加。向下累积,从大到小或从高到低的方向把频数顺序累加。累积频率有向上累积和向下累积两种方法。1累积频数分布图根据累积频数或累积频率,可以绘制累积频数分布或频率图。 向上累积(2) 环形图环形图与饼图类似,但又有区别。环形图的圆心是空的,样本或总体中的每一局部数据用环中的一段表示。饼图只能显示一个样本或总体各局部所占的比例,而环形图可以同时绘制多个样本或总体的数据系列。有利于进行比拟研究。相同的地方都是用扇形圆心角的大小量度来表示数据。结构性比拟。三、数值型数据的整理与展示知识点回忆:数据预处理审核、筛选
29、、排序品质数据的整理与展示 分类数据:频数、频数分布、比例、比率 顺序数据:累积频数、累积频率品质数据:条形图,帕累托图,饼图(一)数据分组数据分组是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别。分组后的数据称为分组数据1、 分组方法单变量值分组:把每一个变量值作为一组。组距分组:将全部变量值依次划分为假设干个区间,并将这一区间的变量值作为一组。在组距分组中,一个组的最小值称为下限,一个组的最大值称为上限。单变量分组:把每一个变量值作为一组;适合离散变量且变量值较少组距分组:将全部变量值依次划分为假设干个区间上下限;适合连续变量或变量值较多的情况下数值型数据的整理根本问题1要弄清
30、所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的2对分类数据和顺序数据主要是做分类整理3对数值型数据那么主要是做分组整理4适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据单变量值分组要点1将一个变量值作为一组2适合于离散变量3适合于变量值较少的情况例某生产车间50名工人日加工零件数如下单位:个。试采用单变量值对数据进行分组117 122 124 129 139 107 117 130 122 125108 131 125 117 122 133 126 122 118 108110 118 123 126 133
31、 134 127 123 118 112112 134 127 123 119 113 120 123 127 135137 114 120 128 124 115 139 128 124 121组距分组要点将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况必须遵循“不重不漏的原那么可采用等距分组,也可采用不等距分组组距分组步骤1确定组数2确定各组的组距 :组距( 最大值 - 最小值 组数 3根据分组整理成频数分布表 组距分组几个概念1. 下 限:一个组的最小值2. 上 限:一个组的最大值3. 组 距:上限与下限之差4. 组中值:下限与上限之间的中点值组中值=下限值+上限值/2在组
32、距分组中,如果全部数据中的最大值和最小值与其他数据相差悬殊,为了防止出现空白组或者个别极端值被遗漏,所以将第一组和最后一组采用以下和以上的这样的开口组,注意的是开口组通常以相邻组的组距作为其组距的。 开口组组中值: 缺少下限组其组中值=该组上限邻组组距/ 2 缺少上限组其组中值=该组下限+邻组组距/ 2二数值型数据的图示1条形图、饼图、环形图及累积分布图都适用于数值型数据。2除此之外,还有直方图、茎叶图、箱线图、线图、散点图、气泡图、雷达图等。1、分组数据:直方图直方图是用于展示分组数据分布的一种图形,它是用矩形的宽度和高度来表示频数分布的。方法:利用平面直角坐标系,横轴表示分组,纵轴表示频数
33、或频率。直方图与条形图不同:面积长度连接分开展示数值数据展示分类数据直方图的宽度和长度都有意义2、 未分组数据:茎叶图和箱线图1茎叶图茎叶图是反映原始数据分布的图形。 叶末位同位数 茎除末位 外的高位数 茎在左,叶在右,横置。茎叶图既能给出数据的分布状况,又能给出每一个原始数值。茎叶图适用于小批量数据。左偏分布QL中位数中位数中位数 QU2箱线图左偏分布3、时间序列数据线图line plot 线图是在坐标平面坐标上用折线变现数据变化特征的图形。主要用于反映现象随时间变化的特征。绘制线图时,时间一般绘在横轴,观测值绘在纵轴。如数据与0点间距过大,可采取折断方法4、多变量数据的图示1散点图scat
34、ter diagram散点图是用二维坐标展示两个变量之间关系的一种图形。每组数据xi, yi用一个点表示,n组数据形成n个点,故称散点图。 小麦产量与降雨量散点图2气泡图气泡图能用于展示三个变量之间的关系。方法:一个变量放横轴,另一变量放纵轴,第三个变量那么用气泡的大小来表示。 小麦产量与降雨量和温度的气泡图3雷达图radar chart雷达图是显示多个变量的常用图示方法,也称为蜘蛛图。【例3. 10】2003年我国城乡居民家庭平均每人各项生活消费支出构成数据如下表所示。试绘制雷达图。二统计表的设计表头放在表的上方,它说明的是表的主要内容。行标题和列标题通常安排在统计表的第一列和第一行。它表示
35、所要研究问题的类别名称和变量名称。表外附加通常放在统计表的下方,如数据来源、变量注释和必要的说明。数字资料放在表的中心部位。概括为:科学、实用 、简练、美观。统计表的格式要求合理安排统计表的结构,如行标题、列标题和数字资料的位置安排要合理。表头一般应包括表号、总标题和表中数据的单位等内容。表中的上下两条横线一般用粗线,中间的其他线要用细线。通常统计表的左右两边不封口,列标题之间必要时可用竖线分开,而行标题之间通常不必用横线隔开。尽量少用横竖线。必要时在表的下方加上注释,特别要注意注明数据来源,备读者查阅使用。第四章 数据的概括性度量集中趋势指总体中各单位的次数分布从两边向中间集中的趋势,用平均
36、指标来反映平均指标的种类及计算方法1众数2中位数3四分位数4算术平均数5几何平均数1,2,3是位置平均数;4,5是数值平均数第一节 集中趋势的测度一. 分类数据:众数二. 顺序数据:中位数和分位数三. 数值型数据:均值四. 众数、中位数和均值的比拟集中趋势1一组数据向其中心值靠拢的倾向和程度2测度集中趋势就是寻找数据一般水平的代表值或中心值3不同类型的数据用不同的集中趋势测度值4低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据5选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定众数(概念要点)1集中趋势的测度值之一
37、2出现次数最多的变量值3不受极端值的影响4可能没有众数或有几个众数5主要用于分类数据,也可用于顺序数据和数值型数据无众数原始数据: 10 5 9 12 6 8一个众数原始数据: 6 5 9 8 5 5多于一个众数原始数据: 25 28 28 36 42 42分类数据的众数(算例)图略这里的变量为“广告类型,这是个分类变量,不同类型的广告就是分类数据我们看到,在所调查的200人当中,关注商品广告的人数最多,为112人,占总被调查人数的56%,因此众数为“商品广告这一类别,即 Mo商品广告数值型分组数据的众数(要点及计算公式)1. 众数的值与相邻两组频数的分布有关2. 相邻两组的频数相等时,众数组
38、的组中值即为众数3. 相邻两组的频数不相等时,众数采用以下近似公式计算4. 该公式假定众数组的频数在众数组内均匀分布众数确实定方法1单项数列出现次数最多或频率最大的那个变量值即为众数2组距数列 先根据各组次数确定众数所在的组,这时应注意各组组距是否相等,如不等那么要考虑组距对次数的影响,然后利用以下公式计算众数。下限公式:L:众数组的下限U:众数组的上限1 :众数组次数与下一组次数之差2 :众数组次数与上一组次数之差 i:众数组的组距上限公式:3众数的应用特点1众数不受极端数值和开口组的影响,而且计算方便。2众数确实定适用于总体单位数较多,并有明显的集中趋势。3有时分布数列中会出现双众数和多众
39、数,难以反映总体的一般水平。4由于众数的计算并不涉及每一个变量值,故其对变量值的变化反映不灵敏。中位数1集中趋势的测度值之一2排序后处于中间位置上的值3不受极端值的影响4主要用于顺序数据,也可用数值型数据,但不能用于分类数据中位数确实定方法1对于未分组的原始资料,首先必须将标志值按大小排序:未分组数据的中位数)中位数就可以按照下面的方式确定:原始数据: 24 22 21 26 20排序: 20 21 22 24 26位置: 1 2 3 4 5 , 中位数= 22原始数据: 10 5 9 12 6 8排 序: 5 6 8 9 10 12位 置: 1 2 3 4 5 6位置=6+1/2=3.5,中
40、位数=8+9/2=8.5数值型分组数据的中位数1根据位置公式确定中位数所在的组2采用近似公式计算3该公式假定中位数组的频数在该组内均匀分布1对于对于单项式变量数列资料:(2) 对于组距式变量数列 (3) 从变量数列的累计频数栏中找出第 个单位所在的组,即“中位数组。假定在中位数组内的各单位是均匀分布的,计算中位数的近似值:下限公式:上限公式:L和U:中位数组下限,上限Fm:中位数组频数i:中位数组组距Sm-1:中位数组上组累积次数Sm+1:中位数组下组累积次数3、中位数的应用特点(1)中位数处于频数分布的中点,总体中有一半单位的标志值大于中位数,另一半单位的标志值小于中位数。它不受极端值、开口
41、组的影响,所以当总体单位标志值分布十分偏斜时,用中位数或众数进行集中趋势分析较好。(2)中位数的测定要将变量值按大小顺序排列,如果资料不全时就无法确定。(3)中位数对分布数列中除中间一项或两项以外的其他数值的变化反映不出来。四分位数(概念要点)1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值3.不受极端值的影响4.主要用于顺序数据,也可用于数值型数据,但不能用于分类数据四分位数(位置确实定)下四分位数:QL位置=n/4上四分位数:QU位置=3n/4四分位数确实定:如果位置是整数,四分位数就是该位置对应的值;如果是在0.5的位置上,那么取该位置两侧值的平均数;如果是在0.25的位置上或0.75的位置上,那么四分位数等于该位置的下测值加上按比例分摊位置两侧数值的差值。顺序数据的四分位数(算例)图略解:下四分位数(QL)的位置为:QL位置(300)/475 上四分位数(QL)的位置为:QU位置(3300)/4225从累计频数看, QL在“不满意这一组别中; QU在“一般这一组别中。因此 QL 不满意, QU 一般数值型未分组数据的四分位数(7个数据的算例)原始数据: 23 21 30 32 28 25 26排 序: 21 23 25 26 28 30 32位 置: 1 2 3 4 5 6 7 QL位置=7/4=1.75 ,QL= 21+0.75(23-21)
限制150内