《第六章-变量的统计描述与...ppt》由会员分享,可在线阅读,更多相关《第六章-变量的统计描述与...ppt(73页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、变量及数据描述变量及数据描述n个体个体:搜集数据的实体。n变量变量:统计学中因观测所得数据具有变异性的特点而称为变量。简言之,变量是具有变异性的数据。n观测值:观测值:对某一特定个体得到的测量值集合为一个观测值。几个概念:26家公司的财务状况 个体变量24家饭馆的状况变量个体观测值Company L一、变一、变 量量n理解变量的意义和作用n变量是形成理论框架的基础。Company L(一)什么是变量(一)什么是变量n变量是指任何具有不同数值的事物。n变量是概念的一种类型,是通过对概念的具体化而转换来的。n变量在不同的情况下有不同的状态或者属性,这反映了概念的可变动性,说明了现象在规模、重量、密
2、度、速度等方面的变化情况,或者现象在程度差异上的变化方式。n如产量、矿工率、动机、性别、年龄等Company Ln产量 生产部门的某一位工人,每分钟生产一个小机械,而另一个工人每分钟做出两个,第三位工人每分钟生产三个,另外,也有可能同意个工人,这一分钟生产三个,下一分钟就生产四个,因此小机械的产量会有不同的数值,因此称为变量。Company Ln旷课率n今天可能有三位同学没来上课,下次可能就有六位,再下次可能一位也没有,因此,理论上旷课率变量的范围为0-1Company Ln动机n学生在课堂上的学习动机不同,有高有低。等级如何测量,可能从高到底的不同程度。这也是变量。Company L举例举例
3、n你的年龄 n收入n家庭人口n学历n业余读书时间n是否考研等v公司规模公司规模v工资水平工资水平v产品质量产品质量v销售收入销售收入v职工满意度职工满意度v广告投放成本广告投放成本等等v血压血压v体温体温v身高身高v体重体重v血色素水平血色素水平世界上任何事物都是可以测量的,只要你能找到合适的量尺。世界上任何事物都是可以测量的,只要你能找到合适的量尺。Company L(二)变量的数学类型(二)变量的数学类型n四种(变量在运算中的作用)n(一)因变量n(二)自变量n(三)中介变量n(四)插入变量Company L1、因变量、因变量n(1)什么是因变量(dependent variable)n是
4、研究者主要关心的变量。是主要变量。n举例:n一位管理者担心已经过市场测试的销售量不如预期。n最近国家关心北京市房屋的空置率。n学生关心学习成绩。n一位总裁担心员工的忠诚度。n试问:n银行总裁希望提高银行职员的绩效表现。因变量?Company L2、自变量、自变量n(1)什么是自变量(independent variable)n以正向或负向方式影响因变量的变量。n举例n自变量和因变量同时存在,自变量每增加一个单位,因变量也会随之增加或者减少。新产品成功 公司股价 广告投放量 利润Company L(三)变量的测量尺度 n变量是可以观察和量度(测量)的。n概念转换为变量形式之后就可以进入科学研究的
5、领域。测量尺度n定类尺度n定序尺度n定距尺度n定比尺度根据不同的测量尺度(量尺):根据不同的测量尺度(量尺):Company Ln定类尺度是一种研究者可将对象或时间分派到确定种类或全体的量尺。如性别、国籍n举例:您的性别n 您的国别n 您的血型n 您的专业等n编码:man(1),women(2)1、定类尺度、定类尺度Company L2、定序尺度、定序尺度n定序尺度不仅具有分类功能,而且可以标注出不同类别的差异,可以将这些类别加以排序。(划分等级)请将下列五种工作特性依据您所认为的重要性加以排序。最重要的项目威,此重要的为2,依次类推,将重要性按1-5加以排列工作特性工作特性1.与他人交流2.
6、使用不同技术3.从头到尾完成任务4.服务他人5.工作独立性重要等级重要等级Company Ln再举例:n您选择学校的指标进行排序:n(1)学校名气n(2)专业设置n (3)学校的位置n (4)学校所在城市n (5)学费的高低n (6)就业率等Company L3、定距尺度、定距尺度n定距尺度(间隔尺度)能够衡量尺度中两点之间的距离。Company L 当以个题项来测量一个变量时,便可采用五点尺度,然后可将各项目的评分加总。如下面的李克特量表。请依据下面的量尺,回答每一项叙述,并圈选最能表述您感觉的数字 非常不同意 1不同意2一般3同意4非常同意5(1)上学时期谈恋爱有助于学习12345(2)上
7、学期间谈恋爱可以节约开支1234512345Company L4、定比尺度不仅可以测量量表中点与点之间的差距,也能评估差异之间的比重。n如年龄、收入、体重、身高等 4、定比尺度、定比尺度Company L(四)变量的类型(四)变量的类型 与与 数学运算类型数学运算类型类型实例适用的运算类型定类 Category Scale性别、血型频数、百分比、众数定序 Ordinal Scale学历频数、百分比、众数排序、中位数定距 Interval Scale温度频数、百分比、众数、排序、中位数、加减、平均数、标准差、相关系数、参数统计定比 Ratio Scale销售额频数、百分比、众数、排序、中位数、加
8、减、乘除、平均数、标准差、相关系数、参数统计二、数据n数据是为描述和解释搜集、分析和汇总的事实和数字。数据是变量的表达方式。n用于特定研究而搜集的所有数据成为研究的数据集。如表1:25家公司的数据集。(五)分类型数据与数量型数据n分类型数据(离散数据)分类型数据(离散数据):归属于某一类别的数据n可以用名义尺度度量也可以用顺序尺度度量n分类数据的统计方法是有限的.n数量型数据数量型数据(连续数据):使用数量表示大小或多少的数据n数量数据的统计方法可选择 较多.(六)截面数据与时间序列数据n截面数据(面板数据):在相同或者近似相同的时间点上搜集的数据.n时间序列数据:在不同时期搜集的数据.CD在
9、18个月内的销售情况练习n1、n这个数据文件哪是个体,有多少个个体?n这个数据文件哪是变量,有多少变量?n哪些是分类变量,哪些是数量变量?n每个变量使用的是那些测量尺度?2、人民日报的订户调查征询了46个有关订户的特征和兴趣问题,指出下列每一个问题提供的是分类数据还是数量数据,并指每一个变量的测量尺度。u您的年龄u您的性别u您什么时候第一次读人民日报?高中、大学、职业生涯初期、职业生涯末期u您在 现在的工作或者职位上工作多久了u您下一次打算购买何种类型的车,有9个选项:轿车、跑车、SUV等等(二)数据分布的特征及分布形状(二)数据分布的特征及分布形状n利用图表展示数据,可以对数据的形状和分布特
10、征个有个大致的了解。n但要全面地了解数据分布的特征,还要找数据分布特征的各个代表值。统计描述的指标统计描述指标体系 汽车重量的直方图数据分布特征从三个方面进行测度和描述:n第一,分布的集中趋势集中趋势,反映各数据向中心靠拢或聚集的程度。n第二,分布的离散程度离散程度,反应各数据远离其中心值的趋势。n第三,分布形状分布形状,反应数据的偏态和峰态。1、集中趋势的度量nA1.众数mode;nA2.中位数median、分位数nA3.均数mean;nA4.几何平均数geometric mean;A1.分类数据:众数n一组数据中出现次数最多的变量值,用M0 表示。一般情况下只有数据量较大时,众数才有意义。
11、n主要用于测度分类数据,有时也会用来测度有序和数值型数据 举例:以某类产品品牌为例n众数是位置代表值,具有明显的集中趋势点众数示意图(c)双众数(d)无众数(a)M0(b)M0A2.有序数据:中位数和分位数n中位数:一组数据中处于中间位置的数,用Me表示n中位数适宜于测量有序数据和数值型数据,但不适合测量分类数据中位数的计算n对所有数据进行排序,当数据量为奇数时,取中间数为中位数,当数据量为偶数时,取最中间两位数的平均数为中位数。数据量为100,是偶数,所以应取排序后第50位数和第51位数的平均值作为中位数。第50位数是3,第51位数也是3,所以中位数为3。n中位数的位置=,其中n为数据个数
12、n+1 2举例n在某城市中随机抽取9个家庭,调查得到每个家庭的人均收入数据如下:请计算人均收入的中位数:n 1500 750 780 1080 850 960 2000 1250 1630n660 750 780 850 960 1080 1250 1500 1630 2000说明n中位数是一个位置的代表值,其特点是不受极端值的影响,在研究收入分配是很有用四分位数n中位数是从中间点将全部数据等分为两部分,与中位数类似的还有四分位数、十分位数和百分位数等,他们分别是用3个点、9个点 和99个点将数据4等分、10等分和100等分后各分位点上的值。n四份位数也称四分位点,它是一组数据排序后处于25%
13、和75%位置上的点。QL 25%QU 75%四分位数位置的确定nQL位置=nQU位置=4 n 4 3n如果位置是整数,就是该位置对应的值;如果是在如果位置是整数,就是该位置对应的值;如果是在0.5的位置,则取该位置两侧数的平均数。的位置,则取该位置两侧数的平均数。举例n9个家庭的收入情况如下:750 780 850 960 1080 1250 1500 1630 2000,计算人均收入的四分位数n解:根据上面的计算方法nQL位置=2.25 nQL=780+(850-780)X0.25=797.5(元)nQU位置=?nQU=?n 49 4A3.数值型数据:平均数n均值是一组数据相加后除以数据的个
14、数得到的结果.n是集中趋势的最重要的测度值,主要适宜数值型数据。不适用于定类数据和有序数据.n均值是根据全部标志值得到的,有些极其极端的值要么剔除,要么不用算术平均.n均数:简单平均数、加权平均数、几何平均数.计算公式众数、中位数、均值的比较(1)n众数众数是一组数据分布的峰值,它是一种位置的代表值,不受极端值的影响。n缺点是不唯一 n众数主要适合于作为分类数据的集中趋势测度值。众数、中位数、均值的比较(2)n中位数中位数是一组数据中间位置上的代表值n不受极端值的影响n主要是用于顺序数据的集中趋势测度值众数、中位数、均值的比较(3)n均值均值是利用了全部数据信息,它具有优良的数学性质,是实际中
15、应用最广泛的集中趋势测度值。n缺点是受极端值的影响,对于偏态分布的数据,均值得代表性极差。n只适合于数值型数据n总结:总结:对于分类数据,只适合计算众数,不适合中位数和均值;而顺序数据,只适合计算众数和中位数,不能计算均值;而数值型数据适合用均值,也可用众数、中位数。2、离散趋势的度量、离散趋势的度量n数据远离其中心值的程度nA1:极差或全距Range、四分位差 nA2:方差Variance、标准差std.deviationnA3:离散系数coefficient of variationA1:极差与四分位差(1)n极差:一组数据的最大与最小值之差,用R表示 n计算公式:R=最大值-最小值n极差
16、是描述数据离散程度的最简单的测度值n因为只用了一组数据,不能准确地描述出数据的分散程度A1:极差与四分位差(2)n四分位差,也称内距,它是上四分位数与下四分位数之差,用Qd表示n计算公式:Qd=QU-QLn四分位差反映了其中50%的数据的离散程度,其数值越小说明数据越集中,反之越分散。n主要用于顺序数据的离散程度,不适合分类数据,可以计算数值型数据A2:方差与标准差n方差是各变量值与其均值离差平方的平均数,它是测度数值型数据离散程度的最主要方法。n标准差又叫均方差,是总体各单位标志值对平均数离差的算术平均的平方根,标准差是进行离散趋势分析时用的最多、最重要的指标,它对现象的稳定程度有敏感的反应
17、力。总体方差与标准差计算公式(1)未分组的总体方差、标准差(平方根):)未分组的总体方差、标准差(平方根):(2)分组的总体方差、标准差(平方根)分组的总体方差、标准差(平方根):样本方差与标准差计算公式n未分组数据的标准差、方差(标准差两边乘方)计算n分组数据的标准差、方差(标准差两边乘方)的计算-1nxxn-1xxs=-=2)(fi自由度自由度fiA3:离散系数(coefficient of variation)n极差、方差、标准差因为变量水平高低与计量单位不同,对离散程度测度值有影响 n需要计算离散系数(变异系数),是一组数据的标准差与其相应的均值之比,是测度数据离散程度的相对指标。n公
18、式:离散系数=标准差/平均值n离散系数值与离散程度成正比。3、分布形状:偏态和峰态的测度、分布形状:偏态和峰态的测度n测量数据分布的形状是否对称、偏斜程度及分布的扁平程度等偏态及测度当当SK=0时,分布对称时,分布对称当当SK 0,正偏或右偏,正偏或右偏当当SK0,负偏或左偏,负偏或左偏组中值组中值3峰态及测度峰态及测度n测度峰态的统计量叫峰态系数,计作Kn是对数据分布是平峰或尖峰的测度。n当K=3时,是标准的正态分布,峰态系数(K 3)为尖峰分布。尖锋分布尖锋分布平锋分布平锋分布本章总结集中趋势众 数中位数平均数 离散趋势异众比率 四分位差 极差 平均差 方差标准差 离散系数 分布形状偏态系
19、数 峰态系数 数据分布特征演 示与练习n用数据库:cars.savn练习一:对10名成年人和10名幼儿的身高进行抽样调查,结果如下:成年组166169172177180170172174168173幼儿组68696870717372737475要求:要求:(1)如果比较成年组和幼年组的身高差异,你会采用什么)如果比较成年组和幼年组的身高差异,你会采用什么统计量?为什么?统计量?为什么?(2)比较分析哪一组的身高差异大?)比较分析哪一组的身高差异大?n练习二、一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:台)排序后如下:2 4 7 10 10 10 12 12 14 15n请问:(1
20、)计算汽车销量的众数、中位数和平均数(2)根据定义公式计算四分位数(3)计算销售量的标准差(4)说明汽车销售量分布的特征n练习三、华尔街日报提供了消费者购买诸如独户住宅汽油互联网服务报税服务等方面的费用,典型样本数据如下:120230110115160130150105195155105360120120140100115180235255A计算平均数、中位数、众数B计算上四分数与下四分位数的位置及数值SPSS的相应功能n相应功能均集中在:Analyze Descriptive StatisticsFrequencies DescriptiveExploreRatio如果仅仅需要研究变量的统计
21、指标,可使如果仅仅需要研究变量的统计指标,可使用用DescriptiveDescriptive过程进行计算,结果简洁过程进行计算,结果简洁明了。明了。Analyze Descriptive Statistics Descriptives描述性统计分析描述性统计分析选择需要计算统选择需要计算统计指标的变量计指标的变量是否将原始数据是否将原始数据的标准值作为变量的标准值作为变量保存(若选中,则保存(若选中,则会在数据文件中生会在数据文件中生成一个新的变量,成一个新的变量,变量名称为变量名称为Z+Z+原变原变量名)量名)OptionsOptions中可选择统计指标、变量中可选择统计指标、变量显示的顺序等等。显示的顺序等等。平均数平均数标准差标准差方差方差范围范围峰度峰度显示顺序显示顺序按变量列表顺序按变量列表顺序按字母顺序按字母顺序平均数递增平均数递增平均数递减平均数递减OptionsOptions:总和总和最小值最小值最大值最大值均值标准误差均值标准误差偏度偏度本内容后面跟着“练习题_描述性分析练习题”
限制150内