学习如何应用R软件对数据进行整理与显示复习课程.ppt
《学习如何应用R软件对数据进行整理与显示复习课程.ppt》由会员分享,可在线阅读,更多相关《学习如何应用R软件对数据进行整理与显示复习课程.ppt(133页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、学习如何应用R软件对数据进行整理与显示统计分析方法描述统计(descriptive statistics)1.内容内容整理数据展示数据描述性分析2.目的目的描述数据特征找出数据的基本规律0 0 0252525505050Q1Q1Q1Q2Q2Q2Q3Q3Q3Q4Q4Q4¥x x x=30 =30 =30 s s s2 22=105=105=105推断统计(inferential statistics)1.内容内容参数估计假设检验2.目的目的对总体特征作出推断样样本本总体总体描述统计与推断统计的关系反映客观现反映客观现反映客观现反映客观现象的数据象的数据象的数据象的数据总体内在的总体内在的总体内在
2、的总体内在的数量规律性数量规律性数量规律性数量规律性推断统计推断统计推断统计推断统计(利用样本信息和概率(利用样本信息和概率(利用样本信息和概率(利用样本信息和概率论对总体的数量特征进论对总体的数量特征进论对总体的数量特征进论对总体的数量特征进行估计和检验等)行估计和检验等)行估计和检验等)行估计和检验等)概率论概率论概率论概率论(包括分布理论、大数定律(包括分布理论、大数定律(包括分布理论、大数定律(包括分布理论、大数定律和中心极限定理等)和中心极限定理等)和中心极限定理等)和中心极限定理等)描述统计描述统计描述统计描述统计(统计数据的搜集、整(统计数据的搜集、整(统计数据的搜集、整(统计数
3、据的搜集、整理、显示和分析等)理、显示和分析等)理、显示和分析等)理、显示和分析等)总体数据总体数据样本数据样本数据统计的应用领域统计学统计学经济学经济学管理学管理学医学医学工程学工程学社会学社会学统计数据的分类统计数据的分类统计数据的分类按计量层次按计量层次分分分分类类类类的的的的数数数数据据据据顺顺顺顺序序序序的的的的数数数数据据据据数数数数值值值值型型型型数数数数据据据据按时间状况按时间状况截截截截面面面面的的的的数数数数据据据据时时时时序序序序的的的的数数数数据据据据按收集方法按收集方法观观观观察察察察的的的的数数数数据据据据试试试试验验验验的的的的数数数数据据据据统计数据的分类(按计
4、量尺度分)1.分类数据分类数据(categorical data)对事物进行分类的结果数据表现为类别,用文字来表述例如,人口按性别分为男、女两类 2.顺序数据顺序数据(rank data)对事物类别顺序的测度数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等 3.数值型数据数值型数据(metric data)对事物的精确测度结果表现为具体的数值例如:身高为175cm、168cm、183cm统计数据的分类(按收集方法分)1.观测的数据观测的数据(observational data)通过调查或观测而收集到的数据在没有对事物人为控制的条件下而得到的有关社会经济现象的统计数据几
5、乎都是观测数据2.试验的数据试验的数据(experimental data)在试验中控制试验对象而收集到的数据比如,对一种新药疗效的试验,对一种新的农作物品种的试验等自然科学领域的数据大多数都为试验数据统计数据的分类(按时间状况分)1.截面数据(cross-sectional data)在相同或近似相同的时间点上收集的数据描述现象在某一时刻的变化情况比如,2002年我国各地区的国内生产总值数据2.时间序列数据(time series data)在不同时间上收集到的数据描述现象随时间变化的情况比如,1996年至2002年国内生产总值数据总体和样本1.总体总体(population)所研究的全部元
6、素的集合,其中的每一个元素称为个体 分为有限总体和无限总体有限总体的范围能够明确确定,且元素的数目是有限的无限总体所包括的元素是无限的,不可数的2.样本样本(sample)从总体中抽取的一部分元素的集合构成样本的元素的数目称为样本容量 参数和统计量1.参数参数(parameter)研究者想要了解的总体的某种特征值所关心的参数主要有总体均值()、标准差()、总体比例()等总体参数通常用希腊字母表示 2.统计量统计量(statistic)根据样本数据计算出来的一个量 所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等样本统计量通常用小写英文字母来表示 变 量(Variable)
7、1.说明现象某种特征的概念如商品销售额、受教育程度、产品的质量等级等变量的具体表现称为变量值,即数据2.变量可以分为分类变量(categorical variable):说明事物类别的一个名称顺序变量(rank variable):说明事物有序类别的一个名称数值型变量(metric variable):说明事物数字特征的一个名称 离散变量:取有限个值 连续变量:可以取无穷多个值 统计中的几个基本概念平均数平均数平均数平均数标准差标准差标准差标准差比例比例比例比例参数参数 统计量统计量 x xs sp p 总体总体总体总体 样本样本样本样本几种常用的统计软件(Software)典型的统计软件典型
8、的统计软件SASSPSSMINITABSTATISTICAS-PLUSRExcel 1 数据的搜集1.1 数据的来源数据的来源1.2 调查数据调查数据1.3 实验数据实验数据1.4 数据的误差数据的误差1.5 数据文件数据文件学习目标1.数据的来源数据的来源2.搜集数据的调查方法搜集数据的调查方法3.问卷设计问卷设计4.搜集数据的实验方法搜集数据的实验方法5.数据的误差数据的误差6.数据的质量要求数据的质量要求系统外部的数据1.统计部门和政府部门公布的有关资料,如各类统计年鉴2.各类经济信息中心、信息咨询机构、专业调查机构等提供的数据3.各类专业期刊、报纸、书籍所提供的资料4.各种会议,如博览
9、会、展销会、交易会及专业性、学术性研讨会上交流的有关资料5.从互联网或图书馆查阅到的相关资料 数据的间接来源1.1 数据的来源数据的来源系统内部的数据1.业务资料,如与业务经营活动有关的各种单据,记录2.经营活动过程中的各种统计报表3.各种财务,会计核算和分析资料等二手数据的特点1.搜集容易,采集成本低2.作用广泛分析所要研究的问题提供研究问题的背景帮助研究者更好地定义问题检验和回答某些疑问和假设寻找研究问题的思路和途径3.搜集二手资料在研究中应优先考虑二手数据的评估1.数据是谁搜集的?可信度评估2.为什么目的而搜集的?3.数据是怎样搜集的?4.什么时候搜集的?数据的直接来源(原始数据)1.调
10、查数据通过调查方法获得的数据通常是对社会现象而言通常取自有限总体 2.实验数据通过实验方法得到的数据通常是对自然现象而言 也被广泛运用到社会科学中如心理学、教育学、社会学、经济学、管理学等 抽样方法图表标题抽样方式抽样方式概率抽样概率抽样非概率抽样非概率抽样简单随机抽样简单随机抽样分层抽样分层抽样整群抽样整群抽样系统抽样系统抽样多阶段抽样多阶段抽样方便抽样方便抽样判断抽样判断抽样自愿样本自愿样本滚雪球抽样滚雪球抽样配额抽样配额抽样1.2 调查数据概率抽样与非概率抽样的比较1.概率抽样依据随机原则抽选样本样本统计量的理论分布存在可根据调查的结果推断总体2.非概率抽样不是依据随机原则抽选样本样本统
11、计量的分布是不确定的无法使用样本的结果推断总体搜集数据的基本方法搜集数据的基本方法搜集数据的基本方法调查的数据调查的数据实验的数据实验的数据自填式自填式面访式面访式电话式电话式各调查方法的比较自填式 面访式电话式调查时间慢慢中等中等快捷快捷调查费用低低高高低低问卷难度要求容易要求容易可以复杂可以复杂要求容易要求容易有形辅助物的使用中等利用中等利用充分利用充分利用无法利用无法利用调查过程控制简单简单复杂复杂容易容易调查员作用的发挥无法发挥无法发挥充分发挥充分发挥一般发挥一般发挥回答率最低最低较高较高一般一般实验租和对照组1.将研究对象分为两组:实验组和对照组2.实验组和随机组的产生应遵循随机原则
12、,而且应该匹配匹配指对实验单位的背景材料进行分析比较,将情况类似的每对单位分别随机地分配到实验组和对照组1.3 实验数据实验数据实验中的若干问题1.人的意愿研究的对象是人的时候,在划分实验组和对照组时的随机原则将面临挑战2.心理问题 人们对被研究非常敏感,这使得他们更加注意自我,从而走到事物的另一个极端 3.道德问题 当某种实验涉及道德问题时,人们会处于进退两难的尴尬境地 实验中的统计1.实验设计本身就是一个统计问题2.确定进行实验所需要的单位的个数,以保证实验可以达到统计显著的结果3.将统计的思想融入到实验设计中,使实验设计符合统计分析的标准4.对实验数据进行分析时,统计可以提供最恰当的分析
13、方法 1.4 数据的误差抽样误差(sampling error)1.由于抽样的随机性所带来的误差 2.所有样本可能的结果与总体真值之间的平均性差异 3.影响抽样误差的大小的因素样本量的大小总体的变异性非抽样误差(non-sampling error)1.相对抽样误差而言2.除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异3.存在于所有的调查之中概率抽样,非概率抽样,全面性调查4.有抽样框误差、回答误差、无回答误差、调查员误差、测量误差误差的控制1.抽样误差可计算和控制2.非抽样误差的控制调查员的挑选调查员的培训督导员的调查专业水平调查过程控制调查结果进行检验、评估现场调查人
14、员进行奖惩的制度统计数据的质量要求1.精精 度:度:最低的抽样误差或随机误差2.准准 确确 性:性:最小的非抽样误差或偏差3.关关 联联 性:性:满足用户决策、管理和研究的需要4.及及 时时 性:性:在最短的时间里取得并公布数据5.一一 致致 性:性:保持时间序列的可比性6.最低成本:最低成本:以最经济的方式取得数据 2 数据的整理与显示2.1 数据的预处理数据的预处理 2.2 分类和顺序数据的整理与显示分类和顺序数据的整理与显示2.3 数值型数据的整理与显示数值型数据的整理与显示2.4 统计表统计表学习目标1.了解数据预处理的内容和目的了解数据预处理的内容和目的2.掌握分类和顺序数据的整理与
15、显示方法掌握分类和顺序数据的整理与显示方法3.掌握数值型数据的整理与显示方法掌握数值型数据的整理与显示方法4.用用R作频数分布表和形图作频数分布表和形图5.合理使用统计表合理使用统计表1.数据的审核检查数据中的错误2.数据的筛选找出符合条件的数据3.数据排序升序和降序寻找数据的基本特征2.1 数据的预处理数据的预处理 数据审核原始数据(raw data)审核的内容审核的内容1.完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全2.准确性审核检查数据是否真实反映客观实际情况,内容是否符合实际检查数据是否有错误,计算是否正确等数据的审核原始数据(raw data)审核数据准
16、确性的方法审核数据准确性的方法1.逻辑检查从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象主要用于对分类和顺序据的审核2.计算检查检查调查表中的各项数据在计算结果和计算方法上有无错误主要用于对数值型数据的审核数据的审核二手数据(second hand data)1.适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料确定数据是否符合自己分析研究的需要2.时效性审核尽可能使用最新的数据3.确认是否必要做进一步的加工整理数据筛选(data filter)1.当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选2.数据筛选的
17、内容包括将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔1.要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的2.对分类数据和顺序数据主要是做分类整理3.对数值型数据则主要是做分组整理4.适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据2.2 分类和顺序数据的整理与显示分类和顺序数据的整理与显示分类数据的整理(基本过程)1.列出各类别 2.2.计算各类别的频数3.制作频数分布表4.用图形显示数据分类分类频数频数比例比例百分比百分比比率比率ABCDE
18、分类数据的整理(可计算的统计量)1.频数频数(frequency):落在各类别中的数据个数2.比例比例(proportion):某一类别数据占全部数据的比值3.百分比百分比(percentage):将对比的基数作为100而计算的比值4.比率比率(ratio):不同类别数值的比值分类数据整理频数分布表(例题分析)【例例例例】一一家家市市场场调调查查公公司司为为研研究究不不同同品品牌牌饮饮料料的的市市场场占占有有率率,对对随随机机抽抽取取的的一一家家超超市市进进行行了了调调查查。调调查查员员在在某某天天对对5050名名顾顾客客购购买买饮饮料料的的品品牌牌进进行行了了记记录录,如如果果一一个个顾顾客
19、客购购买买某某一一品品牌牌的的饮饮料料,就就将将这这一一饮饮料料的的品品牌牌名名字字记记录录一一次次 。右右边边就是就是记录记录的原始数据的原始数据用用R制作频数分布表制作频数分布表例例1 读取某公司雇员数据(读取某公司雇员数据(SPSS数据文件)数据文件),保存为保存为R数据文件,指定因子各水平的标签,分析性别、是否少数据文件,指定因子各水平的标签,分析性别、是否少数民族、工作类型、教育程度等频数分布。数民族、工作类型、教育程度等频数分布。y=read.spss(E:/R/Employee data.sav,use.value.labels=F,to.data.frame=T,max.val
20、ue.labels=Inf,trim.factor.names=FALSE)Names(y);1 ID GENDER BDATE EDUC JOBCAT SALARY 7 SALBEGIN JOBTIME PREVEXP MINORITYyy$MINORITY=factor(y$MINORITY,levels=sort(unique(y$MINORITY),decreasing=T),labels=c(Yes,No),exclude=NA,order=F)y$JOBCAT=factor(y$JOBCAT,levels=sort(unique(y$JOBCAT),decreasing=T),la
21、bels=c(经理,保管员,服务员),exclude=NA,order=F)Edata=y;save(Edata,file=E:/R/Employee data.Rdata)load(E:/R/Edata.Rdata);attach(Edata);table(Edata$JOBCAT)经理经理 保管员保管员 服务员服务员 84 27 363 table(Edata$GENDER)f m 216 258 table(Edata$MINORITY)Yes No 104 370 table(Edata$EDUC)8 12 14 15 16 17 18 19 20 21 53 190 6 116 59
22、 11 9 27 2 1 分类数据的图示条形图(bar Chart)1.用宽度相同的条形的高度或长短来表示各类别数据的图形2.有单式条形图、复式条形图等形式3.主要用于反映分类数据的频数分布4.绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图分类数据的图示条形图(例题分析)例例2 对公司雇员数据,做出性别、工作类型、对公司雇员数据,做出性别、工作类型、教育程度等条形图。教育程度等条形图。plot(Edata$GENDER)plot(Edata$JOBCAT)hist(Edata$EDUC)分类数据的图示饼图(pie Chart)1.也称圆形图,是用圆形及圆内扇形的角度来表示数
23、值大小的图形2.主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用3.绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形角度表示,这些扇形的中心角度,是按各部分数据百分比占3600的相应比例确定的分类数据的图示饼图(例题分析)例例3 对公司雇员数据,做出性别、工作类型、对公司雇员数据,做出性别、工作类型、教育程度等饼图。教育程度等饼图。pie(table(Edata$GENDER)pie(table(Edata$JOBCAT)pie(table(Edata$EDUC)顺序数据的整理(可计算的指标)1.累累积积频频数数(cumulative frequencies):各
24、类别频数的逐级累加2.累累积积频频率率(cumulative percentages):各类别频率(百分比)的逐级累加顺序数据的频数分布表(例题分析)【例例例例】在在一一项项城城市市住住房房问问题题的的研研究究中中,研研究究人人员员在在甲甲乙乙两两个个城城市市各各抽抽样样调调查查300300户户,其其中中的的一一个个问问题题是是:“您您对对您您家家庭庭目目前前的的住住房房状状况是否满意?况是否满意?1 1 非非 常常 不不满满意意;2 2不不满满意意;3 3一一般般;4 4满满意;意;5 5非常满意。非常满意。甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别
25、甲城市甲城市户数户数(户户)百分比百分比(%)向上累积向上累积 向下累积向下累积 户数户数(户户)百分比百分比(%)户数户数(户户)百分比百分比(%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合计合计300100.0顺序数据的频数分布表(例题分析)乙城市家庭对住房状况评价的频数分布乙城市家庭对住房状况评价的频数分布回答类别回答类别乙城市乙城市户数户数(户户)百分比百分比(%)向上累积向上累积 向下累积向下累
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 学习 如何 应用 软件 数据 进行 整理 显示 复习 课程
限制150内