统计学之变量分布特征的描述.pptx
信息技术教研中心1本资料来源信息技术教研中心2第章第章 变量分布特征的描述变量分布特征的描述教师姓名:杨凡Email:手机:15908161946 QQ:546529654信息技术教研中心3第章第章 变量分布特征的描述变量分布特征的描述 重点节重点节: :第一节第一节 第一节集中趋势的描述第一节集中趋势的描述 第二节离中趋势的描述第二节离中趋势的描述第三节分布形状的描述第三节分布形状的描述信息技术教研中心4学习内容及要求学习内容及要求 理解变量分布三大特征及平均指标、离散指标的意义; 熟练掌握各种平均指标的计算方法及其相互之间的关系; 熟练掌握各种离散指标的计算方法; 掌握偏度和峰度系数的计算方法。信息技术教研中心5 集中趋势亦称为趋中性,是指变量分布以某一数值 为中心的倾向。作为中心的数值就称为中心值,它反映 变量分布中心点的位置所在。 变量分布的集中趋势要用平均指标来反映。平均指标 是将变量的各变量值差异抽象化、以反映变量值一般水平 或平均水平的指标,也就是反映变量分布中心值或代表值 的指标。 平均指标的具体表现称为平均数,平均数因计算方法 不同可分为数值平均数和位置平均数两类。 第一节第一节 集中趋势的描述集中趋势的描述重点:数值平均数 一、集中趋势与平均指标一、集中趋势与平均指标 信息技术教研中心6 是同质总体某标志值的一般水平是同质总体某标志值的一般水平 . (与强度相对数有别_两总体,性质不同,总量比总量)反映总体各单位变量分布的集中趋势反映总体各单位变量分布的集中趋势. (与变异指标有别 _ 反映离中趋势) (与序时平均数有别_用时间数列计算) 对某类现象作综合分析和评价时,若两者的总量差异过大,则可用平均数去对比。如:甲企业总产值800000元,职工1000人;乙企业总产值8000元,职工8人。 两个企业相比 因 总产值差异太大, (8000008000), 甲乙 故 用劳动生产率比较, (800v乙 平均数代表性弱, 稳定性,均衡性差V乙=2/100=0.02 v乙0时,表示变量分布是正偏;当 0,表示变量分布正偏;若 0,表示变量分布负偏;若 0,表示变量分布两边对称,无偏。 的绝绝对值越接近对值越接近0 0,表示变量分布的偏度越轻微,表示变量分布的偏度越轻微; 的绝对值越大于0,表示变量分布的偏度越严重;3m3m( 3 )33kmSs(3)kS(3)kS(3)kS(3)kS(3)kS3s信息技术教研中心83233(3)3323339001113(300()6939300152.09300()1348.1941348.1940.38152.09kxfxfxxfsfxxfmfmss某企业职工月收入分布的偏度系数计算:元)(元)(元)可见,该企业职工月收入分布为正偏(右偏态)分布,但偏度不大。信息技术教研中心84信息技术教研中心85 峰度的概念首先由统计学家皮尔逊于1905年提出,是对变量分布扁平性或尖陡性的测度,通常是指钟型分布的顶峰与标准正态分布相比偏扁平或偏尖陡的程度。它通常分为三种情况:标准正态峰度、尖顶峰度和平顶峰度。 如果变量分布的频数比较集中于众数附近,分布曲线比较尖陡,使分布曲线的顶部较标准正态曲线更为突起,则变量分布的峰度属于尖顶峰度;如果变量分布各组的频数比较接近,分布曲线比较扁平,使分布曲线的顶部低于标准正态曲线,则变量分布的峰度属于平顶峰度。 峰度的测定是通过计算峰度系来实现的,通常用K来表示。峰度系数的计算主要采用动差法,是4阶中心动差与标准差4次方 相比的结果,即: 峰度系数的标准值为峰度系数的标准值为3 3。当3时,变量分布的峰度为标准正态峰度;当3时,变量分布的峰变量分布的峰度为尖顶峰度。度为尖顶峰度。 三、峰度系数三、峰度系数4s44mKs信息技术教研中心86总体单位分布形状示意图总体单位分布形状示意图(峰度峰度)信息技术教研中心874444()116326605175350431613.05xxfmfmks4例表3-15:某企业职工月收入分布的峰度系数计算:(元)s(元)可见,该企业职工月收入分布的峰度为轻微的尖顶峰度。信息技术教研中心88计算和应用平均指标计算和应用平均指标应注意的问题应注意的问题1、应用平均指标的基本原则 总体同质性2、平均指标与统计分组相结合 组平均与总平均相结合3、平均指标与变异指标结合 集中与离中趋势结合返回信息技术教研中心89EXCEL统计函数应用统计函数应用1.描述集中趋势:描述集中趋势:算术平均数: AVERAGE中位数: MEDIAN众数: MODE几何平均数: GEOMEAN调和平均数: HARMEAN2.描述变异特征:描述变异特征:平均差: AVEDEV总体方差: VARP 样本方差: VAR总体标准差: STDEVP 样本标准差:STDEV峰度: KURT偏差: SKEW注意注意:操作时,各函数的数据区均选用原始数据区。如下页例题(某班学生统计学成绩),都选用(B2:B56)信息技术教研中心90例:某班学生统计学成绩 (分)75 90 68 73 75 86 68 89 87 6272 86 83 71 74 77 84 95 80 9051 66 62 79 75 83 81 53 60 6549 68 70 70 72 75 82 83 90 9185 89 77 75 63 86 82 80 81 8587 78 76 95信息技术教研中心91操作注意事项:操作注意事项:、输入公式时,要写作“=SUM(B2:B56)”,不要忘记写等号;统计函数要正确和对应;数据区间要包括完整。、方差和标准差是使用的样本方差和样本标准差。(总体方差和标准差是分别在两个词尾加“”,如“”)信息技术教研中心92信息技术教研中心93二、频数分析二、频数分析 例表2-7学生成绩累计次数操作注意事项: 1.确定各组的上限值,录入C列。(C2:C6) 2. 在E列录入各组人数-次数:必须先按“粘贴”图标; 再运用FREQUENCY统计函数。(插入函数 FREQUENCY); 在第一空格栏(Da-ar)填入原始数据区域(b2:b56); 在第二空格栏(Bi-ar)填入各组上限区域(c2:c6)。 同时按“ctrl-shift-enter”,这是特别针对矩阵运算的回车键。 3.累计运算方法: 频数:累计列G第一个数“=次数列第一个数”,(”=E4“); 累计列第二个数“=累计列第一个数+次数列第二个数”(”=G4+E5”); 累计列其余数(G6:G8)直接复制。将G5格右下角“+”符号直接下拖 即可。 频率:所在列F第一个数“=次数列第一个数/合计数单元格或合计数, (”=E4/E9或=E4/55“); 所在列F其余数(F3:F5)直接复制。将F2格右下角“+”符号直接 下拖即可。 *第13栏和D列(文字栏、成绩列)等是手工录入。信息技术教研中心94直方图直方图 例表2-6学生成绩 (直接运用“插入图表”)返回信息技术教研中心95信息技术教研中心96信息技术教研中心97本章小结本章小结 平均数按是否已知总体单位数的直接数据分为算术与调和平均数,按总体是否分组分为简单与加权平均数。 中位数需要先将标志值按序排列,再用累计次数定位(刚含f/2),最后定值。众数以本组次数定位(f值最大),最后定值。 变异指标反映标志值离中趋势,衡量平均数代表性和经济现象均衡性。变异指标值越大,则平均指标代表性越小;若两个数列平均水平不同或计量单位不同时,应用离散系数去测定。