学习如何应用R软件对数据进行整理与显示复习课程.ppt
学习如何应用R软件对数据进行整理与显示统计分析方法描述统计(descriptive statistics)1.内容内容整理数据展示数据描述性分析2.目的目的描述数据特征找出数据的基本规律0 0 0252525505050Q1Q1Q1Q2Q2Q2Q3Q3Q3Q4Q4Q4¥x x x=30 =30 =30 s s s2 22=105=105=105推断统计(inferential statistics)1.内容内容参数估计假设检验2.目的目的对总体特征作出推断样样本本总体总体描述统计与推断统计的关系反映客观现反映客观现反映客观现反映客观现象的数据象的数据象的数据象的数据总体内在的总体内在的总体内在的总体内在的数量规律性数量规律性数量规律性数量规律性推断统计推断统计推断统计推断统计(利用样本信息和概率(利用样本信息和概率(利用样本信息和概率(利用样本信息和概率论对总体的数量特征进论对总体的数量特征进论对总体的数量特征进论对总体的数量特征进行估计和检验等)行估计和检验等)行估计和检验等)行估计和检验等)概率论概率论概率论概率论(包括分布理论、大数定律(包括分布理论、大数定律(包括分布理论、大数定律(包括分布理论、大数定律和中心极限定理等)和中心极限定理等)和中心极限定理等)和中心极限定理等)描述统计描述统计描述统计描述统计(统计数据的搜集、整(统计数据的搜集、整(统计数据的搜集、整(统计数据的搜集、整理、显示和分析等)理、显示和分析等)理、显示和分析等)理、显示和分析等)总体数据总体数据样本数据样本数据统计的应用领域统计学统计学经济学经济学管理学管理学医学医学工程学工程学社会学社会学统计数据的分类统计数据的分类统计数据的分类按计量层次按计量层次分分分分类类类类的的的的数数数数据据据据顺顺顺顺序序序序的的的的数数数数据据据据数数数数值值值值型型型型数数数数据据据据按时间状况按时间状况截截截截面面面面的的的的数数数数据据据据时时时时序序序序的的的的数数数数据据据据按收集方法按收集方法观观观观察察察察的的的的数数数数据据据据试试试试验验验验的的的的数数数数据据据据统计数据的分类(按计量尺度分)1.分类数据分类数据(categorical data)对事物进行分类的结果数据表现为类别,用文字来表述例如,人口按性别分为男、女两类 2.顺序数据顺序数据(rank data)对事物类别顺序的测度数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等 3.数值型数据数值型数据(metric data)对事物的精确测度结果表现为具体的数值例如:身高为175cm、168cm、183cm统计数据的分类(按收集方法分)1.观测的数据观测的数据(observational data)通过调查或观测而收集到的数据在没有对事物人为控制的条件下而得到的有关社会经济现象的统计数据几乎都是观测数据2.试验的数据试验的数据(experimental data)在试验中控制试验对象而收集到的数据比如,对一种新药疗效的试验,对一种新的农作物品种的试验等自然科学领域的数据大多数都为试验数据统计数据的分类(按时间状况分)1.截面数据(cross-sectional data)在相同或近似相同的时间点上收集的数据描述现象在某一时刻的变化情况比如,2002年我国各地区的国内生产总值数据2.时间序列数据(time series data)在不同时间上收集到的数据描述现象随时间变化的情况比如,1996年至2002年国内生产总值数据总体和样本1.总体总体(population)所研究的全部元素的集合,其中的每一个元素称为个体 分为有限总体和无限总体有限总体的范围能够明确确定,且元素的数目是有限的无限总体所包括的元素是无限的,不可数的2.样本样本(sample)从总体中抽取的一部分元素的集合构成样本的元素的数目称为样本容量 参数和统计量1.参数参数(parameter)研究者想要了解的总体的某种特征值所关心的参数主要有总体均值()、标准差()、总体比例()等总体参数通常用希腊字母表示 2.统计量统计量(statistic)根据样本数据计算出来的一个量 所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等样本统计量通常用小写英文字母来表示 变 量(Variable)1.说明现象某种特征的概念如商品销售额、受教育程度、产品的质量等级等变量的具体表现称为变量值,即数据2.变量可以分为分类变量(categorical variable):说明事物类别的一个名称顺序变量(rank variable):说明事物有序类别的一个名称数值型变量(metric variable):说明事物数字特征的一个名称 离散变量:取有限个值 连续变量:可以取无穷多个值 统计中的几个基本概念平均数平均数平均数平均数标准差标准差标准差标准差比例比例比例比例参数参数 统计量统计量 x xs sp p 总体总体总体总体 样本样本样本样本几种常用的统计软件(Software)典型的统计软件典型的统计软件SASSPSSMINITABSTATISTICAS-PLUSRExcel 1 数据的搜集1.1 数据的来源数据的来源1.2 调查数据调查数据1.3 实验数据实验数据1.4 数据的误差数据的误差1.5 数据文件数据文件学习目标1.数据的来源数据的来源2.搜集数据的调查方法搜集数据的调查方法3.问卷设计问卷设计4.搜集数据的实验方法搜集数据的实验方法5.数据的误差数据的误差6.数据的质量要求数据的质量要求系统外部的数据1.统计部门和政府部门公布的有关资料,如各类统计年鉴2.各类经济信息中心、信息咨询机构、专业调查机构等提供的数据3.各类专业期刊、报纸、书籍所提供的资料4.各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料5.从互联网或图书馆查阅到的相关资料 数据的间接来源1.1 数据的来源数据的来源系统内部的数据1.业务资料,如与业务经营活动有关的各种单据,记录2.经营活动过程中的各种统计报表3.各种财务,会计核算和分析资料等二手数据的特点1.搜集容易,采集成本低2.作用广泛分析所要研究的问题提供研究问题的背景帮助研究者更好地定义问题检验和回答某些疑问和假设寻找研究问题的思路和途径3.搜集二手资料在研究中应优先考虑二手数据的评估1.数据是谁搜集的?可信度评估2.为什么目的而搜集的?3.数据是怎样搜集的?4.什么时候搜集的?数据的直接来源(原始数据)1.调查数据通过调查方法获得的数据通常是对社会现象而言通常取自有限总体 2.实验数据通过实验方法得到的数据通常是对自然现象而言 也被广泛运用到社会科学中如心理学、教育学、社会学、经济学、管理学等 抽样方法图表标题抽样方式抽样方式概率抽样概率抽样非概率抽样非概率抽样简单随机抽样简单随机抽样分层抽样分层抽样整群抽样整群抽样系统抽样系统抽样多阶段抽样多阶段抽样方便抽样方便抽样判断抽样判断抽样自愿样本自愿样本滚雪球抽样滚雪球抽样配额抽样配额抽样1.2 调查数据概率抽样与非概率抽样的比较1.概率抽样依据随机原则抽选样本样本统计量的理论分布存在可根据调查的结果推断总体2.非概率抽样不是依据随机原则抽选样本样本统计量的分布是不确定的无法使用样本的结果推断总体搜集数据的基本方法搜集数据的基本方法搜集数据的基本方法调查的数据调查的数据实验的数据实验的数据自填式自填式面访式面访式电话式电话式各调查方法的比较自填式 面访式电话式调查时间慢慢中等中等快捷快捷调查费用低低高高低低问卷难度要求容易要求容易可以复杂可以复杂要求容易要求容易有形辅助物的使用中等利用中等利用充分利用充分利用无法利用无法利用调查过程控制简单简单复杂复杂容易容易调查员作用的发挥无法发挥无法发挥充分发挥充分发挥一般发挥一般发挥回答率最低最低较高较高一般一般实验租和对照组1.将研究对象分为两组:实验组和对照组2.实验组和随机组的产生应遵循随机原则,而且应该匹配匹配指对实验单位的背景材料进行分析比较,将情况类似的每对单位分别随机地分配到实验组和对照组1.3 实验数据实验数据实验中的若干问题1.人的意愿研究的对象是人的时候,在划分实验组和对照组时的随机原则将面临挑战2.心理问题 人们对被研究非常敏感,这使得他们更加注意自我,从而走到事物的另一个极端 3.道德问题 当某种实验涉及道德问题时,人们会处于进退两难的尴尬境地 实验中的统计1.实验设计本身就是一个统计问题2.确定进行实验所需要的单位的个数,以保证实验可以达到统计显著的结果3.将统计的思想融入到实验设计中,使实验设计符合统计分析的标准4.对实验数据进行分析时,统计可以提供最恰当的分析方法 1.4 数据的误差抽样误差(sampling error)1.由于抽样的随机性所带来的误差 2.所有样本可能的结果与总体真值之间的平均性差异 3.影响抽样误差的大小的因素样本量的大小总体的变异性非抽样误差(non-sampling error)1.相对抽样误差而言2.除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异3.存在于所有的调查之中概率抽样,非概率抽样,全面性调查4.有抽样框误差、回答误差、无回答误差、调查员误差、测量误差误差的控制1.抽样误差可计算和控制2.非抽样误差的控制调查员的挑选调查员的培训督导员的调查专业水平调查过程控制调查结果进行检验、评估现场调查人员进行奖惩的制度统计数据的质量要求1.精精 度:度:最低的抽样误差或随机误差2.准准 确确 性:性:最小的非抽样误差或偏差3.关关 联联 性:性:满足用户决策、管理和研究的需要4.及及 时时 性:性:在最短的时间里取得并公布数据5.一一 致致 性:性:保持时间序列的可比性6.最低成本:最低成本:以最经济的方式取得数据 2 数据的整理与显示2.1 数据的预处理数据的预处理 2.2 分类和顺序数据的整理与显示分类和顺序数据的整理与显示2.3 数值型数据的整理与显示数值型数据的整理与显示2.4 统计表统计表学习目标1.了解数据预处理的内容和目的了解数据预处理的内容和目的2.掌握分类和顺序数据的整理与显示方法掌握分类和顺序数据的整理与显示方法3.掌握数值型数据的整理与显示方法掌握数值型数据的整理与显示方法4.用用R作频数分布表和形图作频数分布表和形图5.合理使用统计表合理使用统计表1.数据的审核检查数据中的错误2.数据的筛选找出符合条件的数据3.数据排序升序和降序寻找数据的基本特征2.1 数据的预处理数据的预处理 数据审核原始数据(raw data)审核的内容审核的内容1.完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全2.准确性审核检查数据是否真实反映客观实际情况,内容是否符合实际检查数据是否有错误,计算是否正确等数据的审核原始数据(raw data)审核数据准确性的方法审核数据准确性的方法1.逻辑检查从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象主要用于对分类和顺序据的审核2.计算检查检查调查表中的各项数据在计算结果和计算方法上有无错误主要用于对数值型数据的审核数据的审核二手数据(second hand data)1.适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料确定数据是否符合自己分析研究的需要2.时效性审核尽可能使用最新的数据3.确认是否必要做进一步的加工整理数据筛选(data filter)1.当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选2.数据筛选的内容包括将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔1.要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的2.对分类数据和顺序数据主要是做分类整理3.对数值型数据则主要是做分组整理4.适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据2.2 分类和顺序数据的整理与显示分类和顺序数据的整理与显示分类数据的整理(基本过程)1.列出各类别 2.2.计算各类别的频数3.制作频数分布表4.用图形显示数据分类分类频数频数比例比例百分比百分比比率比率ABCDE分类数据的整理(可计算的统计量)1.频数频数(frequency):落在各类别中的数据个数2.比例比例(proportion):某一类别数据占全部数据的比值3.百分比百分比(percentage):将对比的基数作为100而计算的比值4.比率比率(ratio):不同类别数值的比值分类数据整理频数分布表(例题分析)【例例例例】一一家家市市场场调调查查公公司司为为研研究究不不同同品品牌牌饮饮料料的的市市场场占占有有率率,对对随随机机抽抽取取的的一一家家超超市市进进行行了了调调查查。调调查查员员在在某某天天对对5050名名顾顾客客购购买买饮饮料料的的品品牌牌进进行行了了记记录录,如如果果一一个个顾顾客客购购买买某某一一品品牌牌的的饮饮料料,就就将将这这一一饮饮料料的的品品牌牌名名字字记记录录一一次次 。右右边边就是就是记录记录的原始数据的原始数据用用R制作频数分布表制作频数分布表例例1 读取某公司雇员数据(读取某公司雇员数据(SPSS数据文件)数据文件),保存为保存为R数据文件,指定因子各水平的标签,分析性别、是否少数据文件,指定因子各水平的标签,分析性别、是否少数民族、工作类型、教育程度等频数分布。数民族、工作类型、教育程度等频数分布。y=read.spss(E:/R/Employee data.sav,use.value.labels=F,to.data.frame=T,max.value.labels=Inf,trim.factor.names=FALSE)Names(y);1 ID GENDER BDATE EDUC JOBCAT SALARY 7 SALBEGIN JOBTIME PREVEXP MINORITYyy$MINORITY=factor(y$MINORITY,levels=sort(unique(y$MINORITY),decreasing=T),labels=c(Yes,No),exclude=NA,order=F)y$JOBCAT=factor(y$JOBCAT,levels=sort(unique(y$JOBCAT),decreasing=T),labels=c(经理,保管员,服务员),exclude=NA,order=F)Edata=y;save(Edata,file=E:/R/Employee data.Rdata)load(E:/R/Edata.Rdata);attach(Edata);table(Edata$JOBCAT)经理经理 保管员保管员 服务员服务员 84 27 363 table(Edata$GENDER)f m 216 258 table(Edata$MINORITY)Yes No 104 370 table(Edata$EDUC)8 12 14 15 16 17 18 19 20 21 53 190 6 116 59 11 9 27 2 1 分类数据的图示条形图(bar Chart)1.用宽度相同的条形的高度或长短来表示各类别数据的图形2.有单式条形图、复式条形图等形式3.主要用于反映分类数据的频数分布4.绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图分类数据的图示条形图(例题分析)例例2 对公司雇员数据,做出性别、工作类型、对公司雇员数据,做出性别、工作类型、教育程度等条形图。教育程度等条形图。plot(Edata$GENDER)plot(Edata$JOBCAT)hist(Edata$EDUC)分类数据的图示饼图(pie Chart)1.也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形2.主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用3.绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形角度表示,这些扇形的中心角度,是按各部分数据百分比占3600的相应比例确定的分类数据的图示饼图(例题分析)例例3 对公司雇员数据,做出性别、工作类型、对公司雇员数据,做出性别、工作类型、教育程度等饼图。教育程度等饼图。pie(table(Edata$GENDER)pie(table(Edata$JOBCAT)pie(table(Edata$EDUC)顺序数据的整理(可计算的指标)1.累累积积频频数数(cumulative frequencies):各类别频数的逐级累加2.累累积积频频率率(cumulative percentages):各类别频率(百分比)的逐级累加顺序数据的频数分布表(例题分析)【例例例例】在在一一项项城城市市住住房房问问题题的的研研究究中中,研研究究人人员员在在甲甲乙乙两两个个城城市市各各抽抽样样调调查查300300户户,其其中中的的一一个个问问题题是是:“您您对对您您家家庭庭目目前前的的住住房房状状况是否满意?况是否满意?1 1 非非 常常 不不满满意意;2 2不不满满意意;3 3一一般般;4 4满满意;意;5 5非常满意。非常满意。甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数(户户)百分比百分比(%)向上累积向上累积 向下累积向下累积 户数户数(户户)百分比百分比(%)户数户数(户户)百分比百分比(%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合计合计300100.0顺序数据的频数分布表(例题分析)乙城市家庭对住房状况评价的频数分布乙城市家庭对住房状况评价的频数分布回答类别回答类别乙城市乙城市户数户数(户户)百分比百分比(%)向上累积向上累积 向下累积向下累积 户数户数(户户)百分比百分比(%)户数户数(户户)百分比百分比(%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.030027918010238100.093.060.034.012.7合计合计300100.0顺序数据的图示累计频数分布图(例题分析)243001322252700100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(a)向上累积向上累积27616830300750100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(b)向下累积向下累积甲城市家庭对住房状况评价的累积频数分布甲城市家庭对住房状况评价的累积频数分布甲城市家庭对住房状况评价的累积频数分布甲城市家庭对住房状况评价的累积频数分布环形图(annular chart)1.环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示2.环形图与圆形图类似,但又有区别圆形图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环3.环形图可用于结构比较研究 4.环形图主要用于展示分类和顺序数据环形图(例题分析)8%36%31%15%7%33%26%21%13%10%非常不满意 不满意 一般 满意 非常满意 甲乙两城市家庭对住房状况的评价甲乙两城市家庭对住房状况的评价等距分组等距分组异距分组异距分组2.3 数值型数据的整理与显示数值型数据的整理与显示单变量值分组(要点)1.将一个变量值作为一组2.适合于离散变量3.适合于变量值较少的情况组距分组(要点)1.将变量值的一个区间作为一组2.适合于连续变量3.适合于变量值较多的情况4.需要遵循“不重不漏”的原则5.可采用等距分组,也可采用不等距分组组距分组(步骤)1.确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按 Sturges 提出的经验公式来确定组数K2.2.确确定定组组距距:组组距距(Class(Class Width)Width)是是一一个个组组的的上上限限与与下下限限之之差差,可可根根据据全全部部数数据据的的最最大大值值和和最最小小值值及及所所分分的的组数来确定,即组数来确定,即 组距组距组距组距(最大值最大值最大值最大值 -最小值最小值最小值最小值)组数组数组数组数 3.3.统计出各组的频数并整理成频数分布表统计出各组的频数并整理成频数分布表 组距分组(几个概念)1.下限下限(low limit):一个组的最小值2.上限上限(upper limit):一个组的最大值3.组距组距(class width):上限与下限之差4.组中值组中值(class midpoint):下限与上限之间的中点值下限值下限值+上限值上限值2组中值组中值=频数分布表的编制(例题分析)【例例例例】某某电电脑脑公公司司20022002年年前前四四个个月月各各天天的的销销 售售 量量 数数 据据(单单位位:台台)。试试对对数数据据进进行行分组。分组。频数分布表的编制(步骤)1.确定组数:根据 Sturges 提出的经验公式得组数K为:2.确定各组的组距:组距组距(237-141)10=9.6 103.用用R制作频数分布表制作频数分布表 等距分组表(上下组限重叠)等距分组表(上下组限间断)等距分组表(使用开口组)组距分组与不等距分组(在表现频数分布上的差异)1.等距分组各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征2.不等距分组各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况分组数据直方图(histogram)1.用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面面积积来表示各组的频数分布2.在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图3.直方图下的总面积等于1数值型数据的图示分组数据的图示(直方图的绘制)140140 150150210210直方图下的面积之直方图下的面积之和等于和等于1?1?某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图190190 200200180180160160 170170频频频频频频数数数数数数(天天天天天天)25252020151510105 53030220220 230230240240例例4 对公司雇员数据,做出工资数据直方图。对公司雇员数据,做出工资数据直方图。hist(Edata$SALARY)hist(Edata$SALARY,labels=T)分组数据直方图(直方图与条形图的区别)1.条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的2.直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义3.直方图的各矩形通常是连续排列,条形图则是分开排列4.条形图主要用于展示分类数据,直方图则主要用于展示数值型数据分组数据折线图(frequency polygon)1.折线图也称频数多边形图2.是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉3.折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的分组数据的图示(折线图的绘制)折线图与直方图折线图与直方图下的面积相等!下的面积相等!140140 150150210210某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图190190 200200180180160160 170170220220 230230240240频频频频频频数数数数数数(天天天天天天)25252020151510105 53030未分组数据茎叶图(stem-and-leaf display)1.用于显示未分组的原始数据的分布2.由“茎”和“叶”两部分构成,其图形是由数字组成的3.以该组数据的高位数值作树茎,低位数字作树叶4.树叶上只保留一位数字5.对于n(20 n 300)个数据,茎叶图最大行数不超过 L=10 lg(n)6.茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息未分组数据茎叶图(例题分析)未分组数据茎叶图(扩展的茎叶图)未分组数据箱线图(box plot)1.用于显示未分组的原始数据的分布2.箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成3.其绘制方法是:首先找出一组数据的5个特征值,即最最大大值值、最最小小值值、中中位位数数Me 和两个四四分分位位数数(下四分位数QL和上四分位数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接 未分组数据单批数据箱线图(箱线图的构成)中位数中位数4 46 68 810101212QQU UUQQL LLX X最大值最大值最大值X X最小值最小值最小值简单箱线图简单箱线图简单箱线图简单箱线图未分组数据单批数据箱线图(例题分析)最小值最小值最小值141141141最大值最大值最大值237237237中位数中位数中位数182182182下四分位数下四分位数下四分位数170.25170.25170.25上四分位数上四分位数上四分位数197197197140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240某电脑公司销售量数据的箱线图某电脑公司销售量数据的箱线图某电脑公司销售量数据的箱线图某电脑公司销售量数据的箱线图分布的形状与箱线图 对称分布对称分布对称分布对称分布对称分布对称分布Q QQL LL中位数中位数中位数中位数中位数中位数 Q QQU UU左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布Q QQL LL中位数中位数中位数中位数中位数中位数 Q QQU UU右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布Q QQL LL 中位数中位数中位数中位数中位数中位数 Q QQU UU不同分布的箱线图不同分布的箱线图不同分布的箱线图不同分布的箱线图例例5 对公司雇员数据,做出工资数据箱线图。对公司雇员数据,做出工资数据箱线图。boxplot(Edata$SALARY,data=Edata,col=lightgray);未分组数据多批数据箱线图(例题分析)【例例例例】从从某某大大学学经经济济管管理理专专业业二二年年级级学学生生中中随随机机抽抽取取1111人人,对对 8 8门门 主主要要课课程程的的考考试试成成绩绩进进行行调调查查,所所得得结结果果如如表表。试试绘绘制制各各科科考考试试成成绩绩的的批批比比较较箱箱线线图图,并并分分析析各各科科考考试试成成绩绩的的分分布布特特征征11名学生各科的考试成绩数据名学生各科的考试成绩数据课程名称课程名称学生编号学生编号1234567891011英语英语经济数学经济数学西方经济学西方经济学市场营销学市场营销学财务管理财务管理基础会计学基础会计学统计学统计学计算机应用基础计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177未分组数据多批数据箱线图(例题分析)8 8门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图1111名学生名学生名学生名学生8 8门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图Min-Max25%-75%Median value455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11未分组数据多批数据箱线图(例题分析)例例6 对某公司雇员数据,分析性别与工作类型、对某公司雇员数据,分析性别与工作类型、性别与是否少数民族的特征,作出交叉频数分布表。性别与是否少数民族的特征,作出交叉频数分布表。ftable(Edatac(GENDER,JOBCAT)JOBCAT 经理经理 保管员保管员 服务员服务员 GENDER f 10 0 206m 74 27 157ftable(Edatac(GENDER,MINORITY)MINORITY Yes NoGENDER f 40 176 m 64 194例例7 对某公司雇员数据,分析不同性别、工作类对某公司雇员数据,分析不同性别、工作类型、少数民族的收入差异,型、少数民族的收入差异,作出多批数据箱线作出多批数据箱线图图。boxplot(splitEdata$SALARYEdata$GENDER,data=Edata,col=lightgray);boxplot(Edata$SALARYEdata$JOBCAT,data=Edata,col=lightgray);boxplot(Edata$SALARYEdata$MINORITY,data=Edata,col=lightgray);例例8 对某公司雇员数据,分析不同性别、工作类对某公司雇员数据,分析不同性别、工作类型之间的收入差异,型之间的收入差异,作出多批数据箱线图作出多批数据箱线图。boxplot(split(Edata$SALARY,list(Edata$JOBCAT,Edata$GENDER),col=lightgray);boxplot(split(Edata$SALARY,list(Edata$GENDER,Edata$JOBCAT),col=lightgray);不同性别在不同工作类型上的当前工资比较。与不同性别在不同工作类型上的当前工资比较。与工资增长率不同,性别差异在工资水平上的差异工资增长率不同,性别差异在工资水平上的差异十分明显,男性的工资水平无论在十分明显,男性的工资水平无论在Clerical还是还是Manager上都比女性的平均工资水平高。上都比女性的平均工资水平高。split package:base R Documentation Divide into GroupsDescription:split divides the data in the vector x into the groups defined by f.The assignment forms replace values corresponding to such a division.Unsplit reverses the effect of split.Usage:split(x,f,drop=FALSE,.)split(x,f,drop=FALSE,.)-value unsplit(value,f,drop=FALSE)Arguments:x:vector or data frame containing values to be divided into groups.f:a factor in the sense that as.factor(f)defines the grouping,or a list of such factors in which case their interaction is used for the grouping.drop:logical indicating if levels that do not occur should be dropped(if f is a factor or a list).value:a list of vectors or data frames compatible with a splitting of x.Recycling applies if the lengths do not match.:further potential arguments passed to methods.Details:split and split-are generic functions with default and data.frame methods.f is recycled as necessary and if the length of x is not a multiple of the length of f a warning is printed.unsplit works only with lists of vectors.The data frame method can also be used to split a matrix into a list of matrices,and the assignment form likewise,provided they are invoked explicitly.Any missing values in f are dropped together with the corresponding values of x.Value:The value returned from split is a list of vectors containing the values for the groups.The components of the list are named by the _used_ factor levels given by f.(If f is longer than x then some of the components will be of zero length.)The assignment forms return their right hand side.unsplit returns a vector for which split(x,f)equals valueReferences:Becker,R.A.,Chambers,J.M.and Wilks,A.R.(1988)_The New S Language_.Wadsworth&Brooks/Cole.See Also:cutExamples:require(stats)n-10;nn-100;g-factor(round(n*runif(n*nn)x-rnorm(n*nn)+sqrt(as.numeric(g);xg-split(x,g);boxplot(xg,col=lavender,notch=TRUE,varwidth=TRUE);sapply(xg,length);sapply(xg,mean)#Calculate z-scores by group z-unsplit(lapply(split(x,g),scale),g)tapply(z,g,mean)#or z-x;split(z,g)-lapply(split(x,g),scale);tapply(z,g,sd)#Split a matrix into a list by columns ma-cbind(x=1:10,y=(