第六章-变量的统计描述与..优秀PPT.ppt
变量及数据描述变量及数据描述n个体个体:搜集数据的实体。n变量变量:统计学中因观测所得数据具有变异性的特点而称为变量。简言之,变量是具有变异性的数据。n观测值:观测值:对某一特定个体得到的测量值集合为一个观测值。几个概念:26家公司的财务状况 个体变量24家饭馆的状况变量个体观测值Company Logo themegallery 一、变一、变 量量n理解变量的意义和作用n变量是形成理论框架的基础。Company Logo themegallery (一)什么是变量(一)什么是变量n变量是指任何具有不同数值的事物。n变量是概念的一种类型,是通过对概念的具体化而转换来的。n变量在不同的状况下有不同的状态或者属性,这反映了概念的可变动性,说明白现象在规模、重量、密度、速度等方面的变更状况,或者现象在程度差异上的变更方式。n如产量、矿工率、动机、性别、年龄等Company Logo themegallery n产量 生产部门的某一位工人,每分钟生产一个小机械,而另一个工人每分钟做出两个,第三位工人每分钟生产三个,另外,也有可能同意个工人,这一分钟生产三个,下一分钟就生产四个,因此小机械的产量会有不同的数值,因此称为变量。Company Logo themegallery n旷课率n今日可能有三位同学没来上课,下次可能就有六位,再下次可能一位也没有,因此,理论上旷课率变量的范围为0-1Company Logo themegallery n动机n学生在课堂上的学习动机不同,有高有低。等级如何测量,可能从高究竟的不同程度。这也是变量。Company Logo themegallery 举例举例n你的年龄 n收入n家庭人口n学历n业余读书时间n是否考研等v公司规模公司规模v工资水平工资水平v产品质量产品质量v销售收入销售收入v职工满足度职工满足度v广告投放成本广告投放成本等等v血压血压v体温体温v身高身高v体重体重v血色素水平血色素水平世界上任何事物都是可以测量的,只要你能找到合适的量尺。世界上任何事物都是可以测量的,只要你能找到合适的量尺。Company Logo themegallery (二)变量的数学类型(二)变量的数学类型n四种(变量在运算中的作用)n(一)因变量n(二)自变量n(三)中介变量n(四)插入变量Company Logo themegallery 1、因变量、因变量n(1)什么是因变量(dependent variable)n是探讨者主要关切的变量。是主要变量。n举例:n一位管理者担忧已经过市场测试的销售量不如预期。n最近国家关切北京市房屋的空置率。n学生关切学习成果。n一位总裁担忧员工的忠诚度。n试问:n银行总裁希望提高银行职员的绩效表现。因变量?Company Logo themegallery 2、自变量、自变量n(1)什么是自变量(independent variable)n以正向或负向方式影响因变量的变量。n举例n自变量和因变量同时存在,自变量每增加一个单位,因变量也会随之增加或者削减。n 新产品成功 公司股价n 广告投放量 利润Company Logo themegallery (三)变量的测量尺度 n变量是可以视察和量度(测量)的。n概念转换为变量形式之后就可以进入科学探讨的领域。测量尺度n定类尺度n定序尺度n定距尺度n定比尺度依据不同的测量尺度(量尺):依据不同的测量尺度(量尺):Company Logo themegallery n定类尺度是一种探讨者可将对象或时间分派到确定种类或全体的量尺。如性别、国籍n举例:您的性别n 您的国别n 您的血型n 您的专业等n编码:man(1),women(2)1、定类尺度、定类尺度Company Logo themegallery 2、定序尺度、定序尺度n定序尺度不仅具有分类功能,而且可以标注出不同类别的差异,可以将这些类别加以排序。(划分等级)请将下列五种工作特性依据您所认为的重要性加以排序。最重要的项目威,此重要的为2,依次类推,将重要性按1-5加以排列工作特性工作特性1.与他人沟通与他人沟通2.运用不同技术运用不同技术3.从头到尾完成任务从头到尾完成任务4.服务他人服务他人5.工作独立性工作独立性重要等级重要等级Company Logo themegallery n再举例:n您选择学校的指标进行排序:n(1)学校名气n(2)专业设置n (3)学校的位置n (4)学校所在城市n (5)学费的凹凸n (6)就业率等Company Logo themegallery 3、定距尺度、定距尺度n定距尺度(间隔尺度)能够衡量尺度中两点之间的距离。Company Logo themegallery 当以个题项来测量一个变量时,便可接受五点尺度,然后可将各项目的评分加总。如下面的李克特量表。请依据下面的量尺,回答每一项叙述,并圈选最能表述您感觉的数字 非常不同意 1不同意2一般3同意4非常同意5(1)上学时期谈恋爱有助于学习12345(2)上学期间谈恋爱可以节约开支1234512345Company Logo themegallery 4、定比尺度不仅可以测量量表中点与点之间的差距,也能评估差异之间的比重。n如年龄、收入、体重、身高等 4、定比尺度、定比尺度Company Logo themegallery (四)变量的类型(四)变量的类型 与与 数学运算类型数学运算类型类型实例适用的运算类型定类 Category Scale性别、血型频数、百分比、众数定序 Ordinal Scale学历频数、百分比、众数排序、中位数定距 Interval Scale温度频数、百分比、众数、排序、中位数、加减、平均数、标准差、相关系数、参数统计定比 Ratio Scale销售额频数、百分比、众数、排序、中位数、加减、乘除、平均数、标准差、相关系数、参数统计二、数据n数据是为描述和说明搜集、分析和汇总的事实和数字。数据是变量的表达方式。n用于特定探讨而搜集的全部数据成为探讨的数据集。如表1:25家公司的数据集。(五)分类型数据与数量型数据n分类型数据(离散数据)分类型数据(离散数据):归属于某一类别的归属于某一类别的数据数据n可以用名义尺度度量也可以用依次尺度度量可以用名义尺度度量也可以用依次尺度度量n分类数据的统计方法是有限的分类数据的统计方法是有限的.n数量型数据(连续数据):运用数量表示大小数量型数据(连续数据):运用数量表示大小或多少的数据或多少的数据n数量数据的统计方法可选择数量数据的统计方法可选择 较多较多.(六)截面数据与时间序列数据n截面数据(面板数据):在相同或者近似相同的时间点上搜集的数据.n时间序列数据:在不同时期搜集的数据.CD在18个月内的销售状况练习n1、n这个数据文件哪是个体,有多少个个体?n这个数据文件哪是变量,有多少变量?n哪些是分类变量,哪些是数量变量?n每个变量运用的是那些测量尺度?2、人民日报的订户调查征询了46个有关订户的特征和爱好问题,指出下列每一个问题供应的是分类数据还是数量数据,并指每一个变量的测量尺度。您的年龄您的性别您什么时候第一次读人民日报?中学、高校、职业生涯初期、职业生涯末期您在 现在的工作或者职位上工作多久了您下一次准备购买何种类型的车,有9个选项:轿车、跑车、SUV等等(二)数据分布的特征及分布形态(二)数据分布的特征及分布形态n利用图表展示数据,可以对数据的形态和分布特征个有个大致的了解。n但要全面地了解数据分布的特征,还要找数据分布特征的各个代表值。n 统计描述的指标统计描述指标体系 汽车重量的直方图数据分布特征从三个方面进行测度和描述:n第一,分布的集中趋势,反映各数据向中心靠拢或聚集的程度。n其次,分布的离散程度,反应各数据远离其中心值的趋势。n第三,分布形态,反应数据的偏态和峰态。1、集中趋势的度量nA1.众数mode;nA2.中位数median、分位数nA3.均数mean;nA4.几何平均数geometric mean;A1.分类数据:众数n一组数据中出现次数最多的变量值,用M0n 表示。一般状况下只有数据量较大时,众数才有意义。n主要用于测度分类数据,有时也会用来测度有序和数值型数据n 举例:以某类产品品牌为例n众数是位置代表值,具有明显的集中趋势点众数示意图(c)双众数(d)无众数(a)M0(b)M0A2.有序数据:中位数和分位数n中位数:一组数据中处于中间位置的数,用Me表示n中位数适宜于测量有序数据和数值型数据,但不适合测量分类数据中位数的计算n对全部数据进行排序,当数据量为奇数时,取中间数为中位数,当数据量为偶数时,取最中间两位数的平均数为中位数。数据量为100,是偶数,所以应取排序后第50位数和第51位数的平均值作为中位数。第50位数是3,第51位数也是3,所以中位数为3。n中位数的位置=,其中n为数据个数 n+1 2举例n在某城市中随机抽取9个家庭,调查得到每个家庭的人均收入数据如下:请计算人均收入的中位数:n 1500 750 780 1080 850 960 2000 1250 1630n660 750 780 850 960 1080 1250 1500 1630 2000说明n中位数是一个位置的代表值,其特点是不受极端值的影响,在探讨收入安排是很有用四分位数n中位数是从中间点将全部数据等分为两部分,与中位数类似的还有四分位数、特别位数和百分位数等,他们分别是用3个点、9个点 和99个点将数据4等分、10等分和100等分后各分位点上的值。n四份位数也称四分位点,它是一组数据排序后处于25%和75%位置上的点。QL 25%QU 75%四分位数位置的确定nQL位置=nQU位置=4 n 4 3n假如位置是整数,就是该位置对应的值;假如是在假如位置是整数,就是该位置对应的值;假如是在0.5的位置,则取该位置两侧数的平均数。的位置,则取该位置两侧数的平均数。举例n9个家庭的收入状况如下:750 780 850 960 1080 1250 1500 1630 2000,计算人均收入的四分位数n解:依据上面的计算方法nQL位置=2.25 nQL=780+(850-780)X0.25=797.5(元)nQU位置=?nQU=?n 49 4A3.数值型数据:平均数n均值是一组数据相加后除以数据的个数得到的结果.n是集中趋势的最重要的测度值,主要适宜数值型数据。不适用于定类数据和有序数据.n均值是依据全部标记值得到的,有些极其极端的值要么剔除,要么不用算术平均.n均数:简洁平均数、加权平均数、几何平均数.计算公式众数、中位数、均值的比较(1)n众数众数是一组数据分布的峰值,它是一种位置的代表值,不受极端值的影响。n缺点是不唯一 n众数主要适合于作为分类数据的集中趋势测度值。众数、中位数、均值的比较(2)n中位数是一组数据中间位置上的代表值中位数是一组数据中间位置上的代表值n不受极端值的影响不受极端值的影响n主要是用于依次数据的集中趋势测度值主要是用于依次数据的集中趋势测度值众数、中位数、均值的比较(3)n均值是利用了全部数据信息,它具有优良的数学性质,均值是利用了全部数据信息,它具有优良的数学性质,是实际中应用最广泛的集中趋势测度值。是实际中应用最广泛的集中趋势测度值。n缺点是受极端值的影响,对于偏态分布的数据,均值缺点是受极端值的影响,对于偏态分布的数据,均值得代表性极差。得代表性极差。n只适合于数值型数据只适合于数值型数据n总结:对于分类数据,只适合计算众数,不适合中位总结:对于分类数据,只适合计算众数,不适合中位数和均值;而依次数据,只适合计算众数和中位数,数和均值;而依次数据,只适合计算众数和中位数,不能计算均值;而数值型数据适合用均值,也可用众不能计算均值;而数值型数据适合用均值,也可用众数、中位数。数、中位数。2、离散趋势的度量、离散趋势的度量n数据远离其中心值的程度nA1:极差或全距Range、四分位差 nA2:方差Variance、标准差std.deviationnA3:离散系数coefficient of variationA1:极差与四分位差(1)n极差:一组数据的最大与最小值之差,用R表示 n计算公式:R=最大值-最小值n极差是描述数据离散程度的最简洁的测度值n因为只用了一组数据,不能精确地描述出数据的分散程度A1:极差与四分位差(2)n四分位差,也称内距,它是上四分位数与下四分位数之差,用Qd表示n计算公式:Qd=QU-QLn四分位差反映了其中50%的数据的离散程度,其数值越小说明数据越集中,反之越分散。n主要用于依次数据的离散程度,不适合分类数据,可以计算数值型数据A2:方差与标准差n方差是各变量值与其均值离差平方的平均数,它是测度数值型数据离散程度的最主要方法。n标准差又叫均方差,是总体各单位标记值对平均数离差的算术平均的平方根,标准差是进行离散趋势分析时用的最多、最重要的指标,它对现象的稳定程度有敏感的反应力。总体方差与标准差计算公式(1)未分组的总体方差、标准差(平方根):)未分组的总体方差、标准差(平方根):(2)分组的总体方差、标准差(平方根)分组的总体方差、标准差(平方根):样本方差与标准差计算公式n未分组数据的标准差、方差(标准差两边乘方)计算n分组数据的标准差、方差(标准差两边乘方)的计算-1nxxn-1xxs=-=2)(fi自由度自由度fiA3:离散系数(coefficient of variation)n极差、方差、标准差因为变量水平凹凸与计量单位不同,对离散程度测度值有影响 n须要计算离散系数(变异系数),是一组数据的标准差与其相应的均值之比,是测度数据离散程度的相对指标。n公式:离散系数=标准差/平均值n离散系数值与离散程度成正比。3、分布形态:偏态和峰态的测度、分布形态:偏态和峰态的测度n测量数据分布的形态是否对称、偏斜程度及分布的扁平程度等偏态及测度当当SK=0时,分布对称时,分布对称当当SK 0,正偏或右偏,正偏或右偏当当SK0,负偏或左偏,负偏或左偏组中值组中值3峰态及测度峰态及测度n测度峰态的统计量叫峰态系数,计作Kn是对数据分布是平峰或尖峰的测度。n当K=3时,是标准的正态分布,峰态系数(K 3)为尖峰分布。尖锋分布尖锋分布平锋分布平锋分布本章总结集中趋势众 数中位数平均数 离散趋势异众比率 四分位差 极差 平均差 方差标准差 离散系数 分布形态偏态系数 峰态系数 数据分布特征演 示与练习n用数据库:cars.savn练习一:对10名成年人和10名幼儿的身高进行抽样调查,结果如下:成年组166169172177180170172174168173幼儿组68696870717372737475要求:要求:(1)假如比较成年组和幼年组的身高差异,你会接受什么)假如比较成年组和幼年组的身高差异,你会接受什么统计量?为什么?统计量?为什么?(2)比较分析哪一组的身高差异大?)比较分析哪一组的身高差异大?n练习二、一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:台)排序后如下:2 4 7 10 10 10 12 12 14 15n请问:n(1)计算汽车销量的众数、中位数和平均数n(2)依据定义公式计算四分位数n(3)计算销售量的标准差n(4)说明汽车销售量分布的特征n练习三、华尔街日报供应了消费者购买诸如独户住宅汽油互联网服务报税服务等方面的费用,典型样本数据如下:120230110115160130150105195155105360120120140100115180235255A计算平均数、中位数、众数B计算上四分数与下四分位数的位置及数值SPSS的相应功能n相应功能均集中在:Analyze Descriptive StatisticsFrequencies DescriptiveExploreRatio假如仅仅须要探讨变量的统计指标,可运假如仅仅须要探讨变量的统计指标,可运用用DescriptiveDescriptive过程进行计算,结果简洁过程进行计算,结果简洁明白。明白。Analyze Descriptive Statistics Descriptives描述性统计分析描述性统计分析选择须要计算统选择须要计算统计指标的变量计指标的变量是否将原始数据是否将原始数据的标准值作为变量的标准值作为变量保存(若选中,则保存(若选中,则会在数据文件中生会在数据文件中生成一个新的变量,成一个新的变量,变量名称为变量名称为Z+Z+原变原变量名)量名)OptionsOptions中可选择统计指标、变量中可选择统计指标、变量显示的依次等等。显示的依次等等。平均数平均数标准差标准差方差方差范围范围峰度峰度显示依次显示依次按变量列表依次按变量列表依次按字母依次按字母依次平均数递增平均数递增平均数递减平均数递减OptionsOptions:总和总和最小值最小值最大值最大值均值标准误差均值标准误差偏度偏度本内容后面跟着“练习题_描述性分析练习题”