统计学数据的搜集整理与显示幻灯片.ppt
《统计学数据的搜集整理与显示幻灯片.ppt》由会员分享,可在线阅读,更多相关《统计学数据的搜集整理与显示幻灯片.ppt(134页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计学数据的搜集整理与显示第1页,共134页,编辑于2022年,星期二统计研究的过程收集数据收集数据(取得数据取得数据)整理数据整理数据(处理数据处理数据)解释数据解释数据(结果说明结果说明)分析数据分析数据(研究数据研究数据)实际问题实际问题第2页,共134页,编辑于2022年,星期二统计分析方法第3页,共134页,编辑于2022年,星期二描述统计(descriptive statistics)1.内容内容整理数据展示数据描述性分析2.目的目的描述数据特征找出数据的基本规律0 0 0252525505050Q1Q1Q1Q2Q2Q2Q3Q3Q3Q4Q4Q4¥x x=30 =30 s s2 22
2、=105=105第4页,共134页,编辑于2022年,星期二推断统计(inferential statistics)1.内容内容参数估计假设检验2.目的目的对总体特征作出推断样样本本总体总体第5页,共134页,编辑于2022年,星期二描述统计与推断统计的关系反映客观现反映客观现反映客观现反映客观现象的数据象的数据象的数据象的数据总体内在的总体内在的总体内在的总体内在的数量规律性数量规律性数量规律性数量规律性推断统计推断统计推断统计推断统计(利用样本信息和概率(利用样本信息和概率(利用样本信息和概率(利用样本信息和概率论对总体的数量特征进论对总体的数量特征进论对总体的数量特征进论对总体的数量特征
3、进行估计和检验等)行估计和检验等)行估计和检验等)行估计和检验等)概率论概率论概率论概率论(包括分布理论、大数定律(包括分布理论、大数定律(包括分布理论、大数定律(包括分布理论、大数定律和中心极限定理等)和中心极限定理等)和中心极限定理等)和中心极限定理等)描述统计描述统计描述统计描述统计(统计数据的搜集、整理、显(统计数据的搜集、整理、显(统计数据的搜集、整理、显(统计数据的搜集、整理、显示和分析等)示和分析等)示和分析等)示和分析等)总体数据总体数据样本数据样本数据第6页,共134页,编辑于2022年,星期二统计的应用领域统计学统计学经济学经济学管理学管理学医学医学工程学工程学社会学社会学
4、第7页,共134页,编辑于2022年,星期二统计数据的分类统计数据的分类统计数据的分类按计量层次按计量层次分分分分类类类类的的的的数数数数据据据据顺顺顺顺序序序序的的的的数数数数据据据据数数数数值值值值型型型型数数数数据据据据按时间状况按时间状况截截截截面面面面的的的的数数数数据据据据时时时时序序序序的的的的数数数数据据据据按收集方法按收集方法观观观观察察察察的的的的数数数数据据据据试试试试验验验验的的的的数数数数据据据据第8页,共134页,编辑于2022年,星期二统计数据的分类(按计量尺度分)1.分类数据分类数据(categorical data)对事物进行分类的结果数据表现为类别,用文字来
5、表述例如,人口按性别分为男、女两类 2.顺序数据顺序数据(rank data)对事物类别顺序的测度数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等 3.数值型数据数值型数据(metric data)对事物的精确测度结果表现为具体的数值例如:身高为175cm、168cm、183cm第9页,共134页,编辑于2022年,星期二统计数据的分类(按收集方法分)1.观测的数据观测的数据(observational data)通过调查或观测而收集到的数据在没有对事物人为控制的条件下而得到的有关社会经济现象的统计数据几乎都是观测数据2.试验的数据试验的数据(experimental
6、data)在试验中控制试验对象而收集到的数据比如,对一种新药疗效的试验,对一种新的农作物品种的试验等自然科学领域的数据大多数都为试验数据第10页,共134页,编辑于2022年,星期二统计数据的分类(按时间状况分)1.截面数据(cross-sectional data)在相同或近似相同的时间点上收集的数据描述现象在某一时刻的变化情况比如,2002年我国各地区的国内生产总值数据2.时间序列数据(time series data)在不同时间上收集到的数据描述现象随时间变化的情况比如,1996年至2002年国内生产总值数据第11页,共134页,编辑于2022年,星期二总体和样本1.总体总体(popul
7、ation)所研究的全部元素的集合,其中的每一个元素称为个体 分为有限总体和无限总体有限总体的范围能够明确确定,且元素的数目是有限的无限总体所包括的元素是无限的,不可数的2.样本样本(sample)从总体中抽取的一部分元素的集合构成样本的元素的数目称为样本容量 第12页,共134页,编辑于2022年,星期二参数和统计量1.参数参数(parameter)研究者想要了解的总体的某种特征值所关心的参数主要有总体均值()、标准差()、总体比例()等总体参数通常用希腊字母表示 2.统计量统计量(statistic)根据样本数据计算出来的一个量 所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比
8、例(p)等样本统计量通常用小写英文字母来表示 第13页,共134页,编辑于2022年,星期二变 量(Variable)1.说明现象某种特征的概念如商品销售额、受教育程度、产品的质量等级等变量的具体表现称为变量值,即数据2.变量可以分为分类变量(categorical variable):说明事物类别的一个名称顺序变量(rank variable):说明事物有序类别的一个名称数值型变量(metric variable):说明事物数字特征的一个名称 离散变量:取有限个值 连续变量:可以取无穷多个值 第14页,共134页,编辑于2022年,星期二统计中的几个基本概念平均数平均数平均数平均数标准差标准
9、差标准差标准差比例比例比例比例参数参数 统计量统计量 x xs sp p 总体总体总体总体 样本样本样本样本第15页,共134页,编辑于2022年,星期二几种常用的统计软件(Software)典型的统计软件典型的统计软件SASSPSSMINITABSTATISTICAS-PLUSRExcel第16页,共134页,编辑于2022年,星期二第17页,共134页,编辑于2022年,星期二 1 数据的搜集1.1 数据的来源数据的来源1.2 调查数据调查数据1.3 实验数据实验数据1.4 数据的误差数据的误差1.5 数据文件数据文件第18页,共134页,编辑于2022年,星期二学习目标1.数据的来源数据
10、的来源2.搜集数据的调查方法搜集数据的调查方法3.问卷设计问卷设计4.搜集数据的实验方法搜集数据的实验方法5.数据的误差数据的误差6.数据的质量要求数据的质量要求第19页,共134页,编辑于2022年,星期二系统外部的数据1.统计部门和政府部门公布的有关资料,如各类统计年鉴2.各类经济信息中心、信息咨询机构、专业调查机构等提供的数据3.各类专业期刊、报纸、书籍所提供的资料4.各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料5.从互联网或图书馆查阅到的相关资料 数据的间接来源1.1 数据的来源数据的来源第20页,共134页,编辑于2022年,星期二系统内部的数据1.业务资
11、料,如与业务经营活动有关的各种单据,记录2.经营活动过程中的各种统计报表3.各种财务,会计核算和分析资料等第21页,共134页,编辑于2022年,星期二二手数据的特点1.搜集容易,采集成本低2.作用广泛分析所要研究的问题提供研究问题的背景帮助研究者更好地定义问题检验和回答某些疑问和假设寻找研究问题的思路和途径3.搜集二手资料在研究中应优先考虑第22页,共134页,编辑于2022年,星期二二手数据的评估1.数据是谁搜集的?可信度评估2.为什么目的而搜集的?3.数据是怎样搜集的?4.什么时候搜集的?第23页,共134页,编辑于2022年,星期二数据的直接来源(原始数据)1.调查数据通过调查方法获得
12、的数据通常是对社会现象而言通常取自有限总体 2.实验数据通过实验方法得到的数据通常是对自然现象而言 也被广泛运用到社会科学中如心理学、教育学、社会学、经济学、管理学等 第24页,共134页,编辑于2022年,星期二抽样方法抽抽样方式方式概率抽概率抽样非概率抽非概率抽样简单随机抽样简单随机抽样分层抽样分层抽样整群抽样整群抽样系统抽样系统抽样多阶段抽样多阶段抽样方便抽样方便抽样判断抽样判断抽样自愿样本自愿样本滚雪球抽样滚雪球抽样配额抽样配额抽样1.2 调查数据第25页,共134页,编辑于2022年,星期二概率抽样与非概率抽样的比较1.概率抽样依据随机原则抽选样本样本统计量的理论分布存在可根据调查的
13、结果推断总体2.非概率抽样不是依据随机原则抽选样本样本统计量的分布是不确定的无法使用样本的结果推断总体第26页,共134页,编辑于2022年,星期二搜集数据的基本方法搜集数据的基本方法搜集数据的基本方法调查的数据的数据实验的数据实验的数据自填式自填式面面访式式电话式式第27页,共134页,编辑于2022年,星期二各调查方法的比较自填式 面访式电话式调查时间慢中等快捷调查费用低高低问卷难度要求容易可以复杂要求容易有形辅助物的使用中等利用充分利用无法利用调查过程控制简单复杂容易调查员作用的发挥无法发挥充分发挥一般发挥回答率最低较高一般第28页,共134页,编辑于2022年,星期二实验租和对照组1.
14、将研究对象分为两组:实验组和对照组2.实验组和随机组的产生应遵循随机原则,而且应该匹配匹配指对实验单位的背景材料进行分析比较,将情况类似的每对单位分别随机地分配到实验组和对照组1.3 实验数据实验数据第29页,共134页,编辑于2022年,星期二实验中的若干问题1.人的意愿研究的对象是人的时候,在划分实验组和对照组时的随机原则将面临挑战2.心理问题 人们对被研究非常敏感,这使得他们更加注意自我,从而走到事物的另一个极端 3.道德问题 当某种实验涉及道德问题时,人们会处于进退两难的尴尬境地 第30页,共134页,编辑于2022年,星期二实验中的统计1.实验设计本身就是一个统计问题2.确定进行实验
15、所需要的单位的个数,以保证实验可以达到统计显著的结果3.将统计的思想融入到实验设计中,使实验设计符合统计分析的标准4.对实验数据进行分析时,统计可以提供最恰当的分析方法 第31页,共134页,编辑于2022年,星期二1.4 数据的误差第32页,共134页,编辑于2022年,星期二抽样误差(sampling error)1.由于抽样的随机性所带来的误差 2.所有样本可能的结果与总体真值之间的平均性差异 3.影响抽样误差的大小的因素样本量的大小总体的变异性第33页,共134页,编辑于2022年,星期二非抽样误差(non-sampling error)1.相对抽样误差而言2.除抽样误差之外的,由于其
16、他原因造成的样本观察结果与总体真值之间的差异3.存在于所有的调查之中概率抽样,非概率抽样,全面性调查4.有抽样框误差、回答误差、无回答误差、调查员误差、测量误差第34页,共134页,编辑于2022年,星期二误差的控制1.抽样误差可计算和控制2.非抽样误差的控制调查员的挑选调查员的培训督导员的调查专业水平调查过程控制调查结果进行检验、评估现场调查人员进行奖惩的制度第35页,共134页,编辑于2022年,星期二统计数据的质量要求1.精精 度:度:最低的抽样误差或随机误差2.准准 确确 性:性:最小的非抽样误差或偏差3.关关 联联 性:性:满足用户决策、管理和研究的需要4.及及 时时 性:性:在最短
17、的时间里取得并公布数据5.一一 致致 性:性:保持时间序列的可比性6.最低成本:最低成本:以最经济的方式取得数据第36页,共134页,编辑于2022年,星期二 2 数据的整理与显示2.1 数据的预处理数据的预处理 2.2 分类和顺序数据的整理与显示分类和顺序数据的整理与显示2.3 数值型数据的整理与显示数值型数据的整理与显示2.4 统计表统计表第37页,共134页,编辑于2022年,星期二学习目标1.了解数据预处理的内容和目的了解数据预处理的内容和目的2.掌握分类和顺序数据的整理与显示方法掌握分类和顺序数据的整理与显示方法3.掌握数值型数据的整理与显示方法掌握数值型数据的整理与显示方法4.用用
18、R作频数分布表和形图作频数分布表和形图5.合理使用统计表合理使用统计表第38页,共134页,编辑于2022年,星期二1.数据的审核检查数据中的错误2.数据的筛选找出符合条件的数据3.数据排序升序和降序寻找数据的基本特征2.1 数据的预处理数据的预处理 第39页,共134页,编辑于2022年,星期二数据审核原始数据(raw data)审核的内容审核的内容1.完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全2.准确性审核检查数据是否真实反映客观实际情况,内容是否符合实际检查数据是否有错误,计算是否正确等第40页,共134页,编辑于2022年,星期二数据的审核原始数据(ra
19、w data)审核数据准确性的方法审核数据准确性的方法1.逻辑检查从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象主要用于对分类和顺序据的审核2.计算检查检查调查表中的各项数据在计算结果和计算方法上有无错误主要用于对数值型数据的审核第41页,共134页,编辑于2022年,星期二数据的审核二手数据(second hand data)1.适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料确定数据是否符合自己分析研究的需要2.时效性审核尽可能使用最新的数据3.确认是否必要做进一步的加工整理第42页,共134页,编辑于2022年,星期二数据筛选(data fil
20、ter)1.当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选2.数据筛选的内容包括将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除第43页,共134页,编辑于2022年,星期二1.要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的2.对分类数据和顺序数据主要是做分类整理3.对数值型数据则主要是做分组整理4.适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据2.2 分类和顺序数据的整理与显示分类和顺序数据的整
21、理与显示第44页,共134页,编辑于2022年,星期二分类数据的整理(基本过程)1.1.列出各类别2.计算各类别的频数3.3.制作频数分布表4.用图形显示数据分类频数比例百分比比率ABCDE第45页,共134页,编辑于2022年,星期二分类数据的整理(可计算的统计量)1.频数频数(frequency):落在各类别中的数据个数2.比例比例(proportion):某一类别数据占全部数据的比值3.百分比百分比(percentage):将对比的基数作为100而计算的比值,即比例比例X100%4.比率比率(ratio):不同类别数值的比值第46页,共134页,编辑于2022年,星期二分类数据整理频数分
22、布表(例题分析)【例例例例】一一家家市市场场调调查查公公司司为为研研究究不不同同品品牌牌饮饮料料的的市市场场占占有有率率,对对随随机机抽抽取取的的一一家家超超市市进进行行了了调调查查。调调查查员员在在某某天天对对5050名名顾顾客客购购买买饮饮料料的的品品牌牌进进行行了了记记录录,如如果果一一个个顾顾客客购购买买某某一一品品牌牌的的饮饮料料,就就将将这这一一饮饮料料的的品品牌牌名名字字记记录录一一次次 。右右边边就就是是记记录录的的原始数据原始数据用用R制作频数分布表制作频数分布表第47页,共134页,编辑于2022年,星期二例例1 读取某公司雇员数据(读取某公司雇员数据(SPSS数据文件)数
23、据文件),保存为保存为R数据数据文件,指定因子各水平的标签,分析性别、是否少数民族、文件,指定因子各水平的标签,分析性别、是否少数民族、工作类型、教育程度等频数分布。工作类型、教育程度等频数分布。y=read.spss(E:/R and Statistics/R Teaching/dataset/Employee data.sav,use.value.labels=F,to.data.frame=T,max.value.labels=Inf,trim.factor.names=FALSE)Names(y);1 ID GENDER BDATE EDUC JOBCAT SALARY 7 SALBE
24、GIN JOBTIME PREVEXP MINORITYyy$MINORITY=factor(y$MINORITY,levels=sort(unique(y$MINORITY),decreasing=T),labels=c(Yes,No),exclude=NA,order=F)第48页,共134页,编辑于2022年,星期二y$JOBCAT=factor(y$JOBCAT,levels=sort(unique(y$JOBCAT),decreasing=T),labels=c(经理,保管员,服务员),exclude=NA,order=F)Edata=y;save(Edata,file=E:/R/E
25、mployee data.Rdata)load(E:/R/Edata.Rdata);attach(Edata);table(Edata$JOBCAT)经理经理 保管员保管员 服务员服务员 84 27 363 第49页,共134页,编辑于2022年,星期二 table(Edata$GENDER)f m 216 258 table(Edata$MINORITY)Yes No 104 370 table(Edata$EDUC)8 12 14 15 16 17 18 19 20 21 53 190 6 116 59 11 9 27 2 1 第50页,共134页,编辑于2022年,星期二分类数据的图示条
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 数据 搜集 整理 显示 幻灯片
限制150内