《第四章数据分布特征的描述精选文档.ppt》由会员分享,可在线阅读,更多相关《第四章数据分布特征的描述精选文档.ppt(54页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章数据分布特征的描述本讲稿第一页,共五十四页第第 一一 节节 数据分布集中趋势的测定数据分布集中趋势的测定本讲稿第二页,共五十四页一、均值一、均值/平均数平均数/数值平均数数值平均数(mean)(一一)概念概念 是反映数据分布集中趋势十分重要的数据,代表总体代表总体单位某一标志值的一般水平单位某一标志值的一般水平(二二)特征特征 1.具有抽象性抽象性 2.具有代表性代表性 3.反映反映总体分布的集中趋势集中趋势*举例举例 1.某市中学生每周平均上网时间为2.8小时 2.某农贸市场2月份牛肉的平均价格为16元/千克 3.某地区“十五”期间经济平均增长率为9.6%本讲稿第三页,共五十四页(三)
2、(三)均值的均值的种类及计算种类及计算 1.1.算术平均数算术平均数*(1)(1)概念概念 算术平均数又称平均值,是用一组数据中所有值之和除以该组数据的个数 (2)(2)基本公式基本公式本讲稿第四页,共五十四页算术平均数的计算算术平均数的计算*简单算术平均数简单算术平均数:针对未分组资料未分组资料 总体平均数总体平均数 样本平均数样本平均数本讲稿第五页,共五十四页算术平均数的计算算术平均数的计算*加权算术平均数加权算术平均数 概念概念:是对每个数据每个数据都根据其在全组中的重要程度赋予一赋予一定权重定权重后得到的算术平均数 计算公式计算公式:未分组数据未分组数据 其中其中:w表示各组的标志总量
3、,而不是各组变量值出现的次数,总体和样本加权算术平均数的公式是相同 本讲稿第六页,共五十四页 例例4-24-2根据某公司根据某公司四个品牌数码相机的销售资四个品牌数码相机的销售资料计算平均利润率料计算平均利润率表4-1 四个品牌数码相机的利润率和销售额资料本讲稿第七页,共五十四页所以所以,四个品牌数码相机的平均销售利润率为 因为因为:本讲稿第八页,共五十四页*加权算术平均数加权算术平均数 分组的加权平均数分组的加权平均数:根据分组数据计算均值样本样本均值的计算公式:总体总体均值的计算公式:表示各组的变量值变量值(或组距式数列的组中值组中值)表示各组变量值出现的频数(即权数权数)本讲稿第九页,共
4、五十四页 例例4-34-3根据某电脑公司在各市场上销售量的分根据某电脑公司在各市场上销售量的分组数据,计算电脑销售量的均值。组数据,计算电脑销售量的均值。按按销销售量分售量分组组(台)(台)市市场场个数个数(fi)组组中中值值(Mi)Mi fi 1401501501601601701701801801901902002002102102202202302302404 91627201710 8 4 5145155165175185195205215225235 5801 3952 6404 7253 7003 3152 0501 720 9001 175合合计计fi 120 Mi fi 22
5、200本讲稿第十页,共五十四页2.2.调和平均数调和平均数 1.1.问题的由来问题的由来 思考题思考题:三种蔬菜单价分别为2、3和4元/千克,(1)各买一千克平均单价是多少?(2)各买一元的平均单价是多少?2.2.概念概念:调和平均数调和平均数又称倒数平均数倒数平均数,是各个变量值倒数的算术平均数的倒数 3.3.计算计算 (1)(1)简单调和平均数简单调和平均数:针对未分组资料未分组资料 计算公式为:算术平均算术平均调和平均调和平均本讲稿第十一页,共五十四页2.2.调和平均数调和平均数2.2.加权调和平均数加权调和平均数:针对分组资料分组资料 计算公式计算公式为:其中其中:是一种特殊权数,它不
6、是各组变量值出现的次数,表示各组标志总量 即本讲稿第十二页,共五十四页 例例4-44-4根据根据某商场职工月工资资料计算月平均某商场职工月工资资料计算月平均工资工资本讲稿第十三页,共五十四页课堂练习课堂练习 资料资料 甲乙企业职工的工资如下表:要求要求 分别计算甲乙企业职工月工资额的均值本讲稿第十四页,共五十四页算术平均数和调和平均数的关系算术平均数和调和平均数的关系*联系联系实质相同实质相同 调和平均数是算术平均数的变形调和平均数是算术平均数的变形,两者的基本公式均为:*区别区别适用的情况不同适用的情况不同 当已知已知平均指标的分母资料、未知分子资料分母资料、未知分子资料时,采用加权加权算术
7、平均算术平均法 当已知已知平均指标的分子资料、未知分母资料分子资料、未知分母资料时,采用加加权调和平均权调和平均法本讲稿第十五页,共五十四页3.3.几何平均数几何平均数(1)(1)概念概念:几何平均数(geometric mean)又称对称平均数,它是各变量值乘积的n次方根。(2)(2)计算计算 基本公式基本公式:对数公式对数公式:在实际工作中,由于变量个数较多,通常要应用对数来进行计算。即 本讲稿第十六页,共五十四页(3)(3)几何平均数的应用及特点几何平均数的应用及特点*应用条件应用条件应用条件应用条件 a.变量值是相对数据,如比率或发展速度 b.变量值的连乘积等于总比率或总发展速度*特点
8、特点 a.如果数列中有一个标志值等于零或负值,则无法计算 b.受极端值影响较小,故较稳健本讲稿第十七页,共五十四页 例例4-54-5 某电器销售公司20002005年销售量的环比增长率分别为:7.6%、2.5%、0.6、2.7%和2.2%。求这期间销售量的平均增长速度?表4-4 销售量平均发展速度计算表 几何平均数的计算示例几何平均数的计算示例本讲稿第十八页,共五十四页几何平均数的计算示例几何平均数的计算示例 1.1.采用基本公式采用基本公式计算的销售量平均发展速度为:2.2.采用对数公式采用对数公式计算的销售量平均发展速度为:所以,销售量的平均增长速度所以,销售量的平均增长速度=103.1%
9、-1=3.1%=103.1%-1=3.1%本讲稿第十九页,共五十四页二、位置平均数二、位置平均数(一)中位数(一)中位数(median)1.1.概念概念 中位数是将一组数据项按照数值大小升序或者降序排列后位于中间位置的那个数据中间位置的那个数据,符号为 2.2.中位数的计算方法中位数的计算方法 (1)(1)未分组数据的中位数未分组数据的中位数 将变量值按升序或降序排列,找中间位置的变量值 (2)(2)单项数列的中位数单项数列的中位数 计算各组的累计频数累计频数(向上累计向上累计或向下累计向下累计);根据中位数位置确定中位数本讲稿第二十页,共五十四页 例例4-64-6 计算某公司销售人员月销售冰
10、箱中位数 按月按月销销售冰箱分售冰箱分组组 (台台)销销售人售人员员数数(人人)向上累向上累计频计频数数向下累向下累计频计频数数25303234363931014271883132754728080776753268合合 计计80中位数的位置中位数的位置 即中位数中位数在累计频数为40的那一组内(向上累计或向下累计均可得出),则 本讲稿第二十一页,共五十四页2.2.中位数的计算方法中位数的计算方法(3 3)组距数列的中位数)组距数列的中位数:由下列公式近似计算 下限公式下限公式其中其中:为总体单位总数为中位数组的下限为中位数组以下的累计频数为中位数组的频数为中位数组的组距本讲稿第二十二页,共五
11、十四页 例例4-7 4-7 求以下组距数列的中位数求以下组距数列的中位数 按家庭收入分组(元)按家庭收入分组(元)家庭数(户)家庭数(户)向上累计频率向上累计频率5 000以下5 00010 00010 00015 00015 00020 00020 000以上214514662166808692合合 计计9292中位数的近似值为:某地区家庭收入分组表中位数的位置在第第46(92/2)位)位,应在第二第二组组本讲稿第二十三页,共五十四页中位数的特点中位数的特点 是一种位置平均数位置平均数,不受极端值及开口组的影响不受极端值及开口组的影响 对于分配不对称的数据分配不对称的数据,中位数比平均值更适
12、合当集中趋势的代表值 对某些不具有数字特征或不能用数字测定的现象,可用中位对某些不具有数字特征或不能用数字测定的现象,可用中位数表示其一般水平数表示其一般水平 例如,对众多的消费者购买数码相机时,分别对价格、外观、品质的注重程度排序后,可以求出消费者在乎的中位数因素 本讲稿第二十四页,共五十四页二、位置平均数二、位置平均数(二)(二)众数众数(mode)1.1.概念概念 众数(mode)是指在一组数中出现次数最多的那个数值,符号为 2.2.数据数列的众数分布情况数据数列的众数分布情况 无众数无众数 如数据数列:13 7 9 12 6 8 一个众数一个众数 如数据数列:6 5 9 8 6 6 多
13、个众数多个众数 如数据数列:22 35 27 35 27 36本讲稿第二十五页,共五十四页3.3.众数的计算方法众数的计算方法*品质变量的众数品质变量的众数观察次数,出现次数最多的变量值就是众数 例如:企业的所有制结构分布、人口的城乡分布*数值变量的众数数值变量的众数 未分组资料未分组资料观察次数,出现次数最多的数据就是众数 分组资料分组资料 (1)单项式数列直接观察,次数最多的组的变量值即为众数 本讲稿第二十六页,共五十四页 例例4-84-8单项式变量数列确定众数实例单项式变量数列确定众数实例 某市居民家庭按家庭人口数分组某市居民家庭按家庭人口数分组 由上表可以看出,家庭人口数为3人的家庭数
14、最多,因此本例中家庭人口数的众数为3人人 本讲稿第二十七页,共五十四页3.3.众数的计算方法众数的计算方法 组距数列组距数列计算众数:由下列公式近似计算 下限公式下限公式其中其中:为众数组与前一组频数之差为众数组的下限为众数组与后一组频数之差为众数组的组距本讲稿第二十八页,共五十四页 例例4-10 4-10 组距式数列计算众数示例组距式数列计算众数示例收入组别收入组别人均收入(元)人均收入(元)频数(人)频数(人)1234562 000元以下2 0004 000元4 0006 000元6 0008 000元8 00010 000元10 000以上234368322410合合 计计200200其
15、众数的近似值为:某某地区的人均月收入调查数据表地区的人均月收入调查数据表本讲稿第二十九页,共五十四页三、均值、中位数和众数的比较三、均值、中位数和众数的比较(一)均值、中位数和众数的数量关系(一)均值、中位数和众数的数量关系 1.当数据呈对称分布对称分布的,三者合而为一三者合而为一,如图(a)2.当数据呈左偏分布左偏分布时,说明数据存在极小值存在极小值,必然拉动均值向均值向极小值一方靠极小值一方靠,则从左至右依次是均值、中位数和众数均值、中位数和众数,如图(b)3.当数据呈右偏分布右偏分布时,说明数据存在极大值存在极大值,必然拉动均值向均值向极大值一方靠极大值一方靠,则从左至右依次是众数、中位
16、数和均值众数、中位数和均值,如图(c)本讲稿第三十页,共五十四页均值、中位数和众数的数量关系均值、中位数和众数的数量关系 1.当数据呈对称分布对称分布的,三者合而为一三者合而为一 本讲稿第三十一页,共五十四页均值、中位数和众数的数量关系均值、中位数和众数的数量关系 2.2.当数据呈左偏分布左偏分布时,从左至右依次是均值、中位数和众数均值、中位数和众数 本讲稿第三十二页,共五十四页均值、中位数和众数的数量关系均值、中位数和众数的数量关系 3.3.当数据呈右偏分布右偏分布时,从左至右从左至右依次是众数、中位数和均值众数、中位数和均值,如图c 本讲稿第三十三页,共五十四页三、均值、中位数和众数的比较
17、三、均值、中位数和众数的比较(二二)均值、众数和中位数的特点及应用场合均值、众数和中位数的特点及应用场合 *均值均值是对数值型数据计算对数值型数据计算的,利用了全部数据信息,具有优良的数学性质,是实际中应用最广泛应用最广泛的集中趋势测度值 *中位数中位数是一组数据中间位置上的代表值,其特点是不受不受数据极端值数据极端值的影响,主要适合于作为顺序数据的集中趋势测度值顺序数据的集中趋势测度值 *众数众数是一组数据分布的峰值数据分布的峰值,它也是一种位置代表值,不受极端值不受极端值的影响,主要适合于作为分类数据的集中趋势测分类数据的集中趋势测度值度值 本讲稿第三十四页,共五十四页第第 三三 节节 数
18、据分布离散程度的测定数据分布离散程度的测定本讲稿第三十五页,共五十四页一、极差一、极差/全距全距(一)概念:(一)概念:又称全距,是数据中最大值和最小值之差。记为 (二)计算(二)计算 1.1.未分组数据的极差为未分组数据的极差为:表示数据的最大值 表示数据的最小值 2.2.分组数据的极差分组数据的极差 极差最大组的上限最小组的下限极差最大组的上限最小组的下限 若存在开口组若存在开口组,则则:最大组的上限前一组的上限组距最大组的上限前一组的上限组距 最小组的下限下一组的下限组距最小组的下限下一组的下限组距其中其中:本讲稿第三十六页,共五十四页 例例4-11 4-11 对人均月收入分组如下:2
19、000元以下、2 0004 000元、8 00010 000元、10 000元以上,计算全距 分析分析:其最小组的下限为0 最大组的上限为:则全距为:极差极差/全距的计算示例全距的计算示例本讲稿第三十七页,共五十四页(三三)修正极差修正极差(modified range)(modified range)1.1.概念概念:是去掉极端值后的极差去掉极端值后的极差,又称四分位全距四分位全距(IQR,inter quartile range),是中间中间5050的数据的间距的数据的间距,即数据分布中第第2525个和第个和第7575个百分位数的间距个百分位数的间距,也即第第1 1个和第个和第3 3个四分
20、个四分位数的间距位数的间距 2.2.公式:公式:其中其中:Q3表示第3个四分位数,即第75个百分位数 Q1表示第1个四分位数,即第25百分位数 本讲稿第三十八页,共五十四页二、平均差(二、平均差(MAD)(一)概念:(一)概念:平均差(mean absolute deviation)是各数据对平均数的各数据对平均数的离差绝对值的平均数离差绝对值的平均数(二)样本平均差的计算公式为(二)样本平均差的计算公式为:1.1.未分组数据:未分组数据:2.2.分组数据:分组数据:本讲稿第三十九页,共五十四页三、方差和标准差三、方差和标准差(一一)概念概念 方差方差(variance)(variance)是
21、各变量值与其均值离差平方的平均数。标准差标准差(standard deviation)(standard deviation)是方差的平方根,又称“均均方差方差”(二二)比较与评价比较与评价 1.1.其内涵与平均差相似其内涵与平均差相似,均为各个数据对其平均数的平均离差。但平均差采用求绝对值消除正负离差,标准差采用平方法消除正负离差,在数学处理上标准差上比平在数学处理上标准差上比平均差更为科学合理均差更为科学合理 2.2.方差和标准差是测度数值型数据离散程度的最主要的指标方差和标准差是测度数值型数据离散程度的最主要的指标本讲稿第四十页,共五十四页(三)方差和标准差的计算(三)方差和标准差的计算
22、 1.1.总体方差和标准差总体方差和标准差 方方 差差标准差标准差未未分分组组数数据据分分组组数数据据本讲稿第四十一页,共五十四页 例例4-124-12某电脑公司销售量分组数据如下表,计算销售量的方差和标准差 总体方差和标准差计算示例总体方差和标准差计算示例某电脑公司销售量分组数据方差计算表本讲稿第四十二页,共五十四页总体方差和标准差计算示例总体方差和标准差计算示例 根据公式计算可知总体均值总体均值为:总体方差总体方差为:总体标准差总体标准差为:本讲稿第四十三页,共五十四页2.2.样本方差和标准差样本方差和标准差 说明说明:在大多数统计应用中,都针对样本数据来分析总体数量特征。因此通常用样本方
23、差来估计总体方差用样本方差来估计总体方差,用样本标准差来估用样本标准差来估计总体标准差计总体标准差 符号符号:样本容量样本容量用n n 表示 样本方差样本方差用S S2 2 表示 样本标准差样本标准差用S S 表示 本讲稿第四十四页,共五十四页(三)方差和标准差的计算(三)方差和标准差的计算 2.2.样本方差和标准差样本方差和标准差 方方 差差标准差标准差未未分分组组数数据据分分组组数数据据本讲稿第四十五页,共五十四页 例例4-134-13 根据以下样本数据,计算企业职工平均工资的标准差。(已知平均工资为=760元)某企业职工工资分组数据表本讲稿第四十六页,共五十四页样本方差和标准差计算示例样
24、本方差和标准差计算示例 样本方差样本方差为:样本标准差样本标准差为:本讲稿第四十七页,共五十四页四、离散系数四、离散系数/变异系数变异系数 (一一)概念:概念:离散系数(离散系数(coefficient of variationcoefficient of variation)是一组数据的离散指标的绝对数与其相应的均值之比离散指标的绝对数与其相应的均值之比。是离散指标的相对数形式(二)表现形式(二)表现形式 有全距系数全距系数、平均差系数平均差系数和标准差系数标准差系数。最常用的是标准差最常用的是标准差系数系数(三)计算公式(三)计算公式 总总体体标标准差系数准差系数 样样本本标标准差系数准差
25、系数本讲稿第四十八页,共五十四页四、离散系数四、离散系数/变异系数变异系数 (四四)应用:应用:用于比较不同总体数据分布的离散程度比较不同总体数据分布的离散程度 例题例题4-134-13 甲乙企业职工的年均收入分别为20 000元和50 000元,收入的标准差分别为3 000元和5 000元,问哪家企业职工的收入差距小一些?分析分析 不同企业的年均收入不同,不能直接比较标准差,只不同企业的年均收入不同,不能直接比较标准差,只能比较标准差系数能比较标准差系数 结论结论 乙企业职工收入差距小于甲企业乙企业职工收入差距小于甲企业甲企甲企业业标准差系数 乙企乙企业业标准差系数本讲稿第四十九页,共五十四
26、页第第 四四 节节 数据分布偏态与峰态的测定数据分布偏态与峰态的测定本讲稿第五十页,共五十四页一、偏态及其测定一、偏态及其测定w偏态偏态(skewness)是指数据分布的不对称性数据分布的不对称性,其度量值称为偏态系数偏态系数SKSKw计算计算 未分组数据未分组数据:分组数据分组数据:是样本标准差的三次方 本讲稿第五十一页,共五十四页一、偏态及其测定一、偏态及其测定w偏态系数大小的说明偏态系数大小的说明 偏态系数 SK SK 0 说明数据为对称分布对称分布偏态系数 SK SK 0 说明数据为偏态分布偏态分布其中其中 SK SK 0 说明数据为正偏(右偏)分布正偏(右偏)分布SK SK 0 说明
27、数据为负偏(左偏)分布负偏(左偏)分布本讲稿第五十二页,共五十四页二、峰态及其测定二、峰态及其测定 w峰态峰态(kurtosis)(kurtosis)是指正态分布数据正态分布数据的平峰平峰或尖峰尖峰程度,其度量值为峰态系数峰态系数w峰态峰态通常是与标准正态分布相比较与标准正态分布相比较而言的若数据服从标准正态分布标准正态分布,则峰态系数峰态系数0 0若数据服从非标准正态分布非标准正态分布,则峰态系数峰态系数00当峰态系数峰态系数0 0时为尖峰分布尖峰分布,即比正态分布更尖比正态分布更尖当峰态系数峰态系数0 0时为平峰分布平峰分布,即比正态分布偏平比正态分布偏平本讲稿第五十三页,共五十四页本章小结本章小结 1.1.数数据据集集中中趋趋势势的的测测定定介绍了各种均值、中位数、众数的概念和特点,比较了均值、中位数、众数的特点,重点介绍其计算方法和应用场合 2.2.数数据据离离散散程程度度的的测测定定介绍了极差、平均差、方差、标准差、离散系数的概念和计算方法。重点是方差、标准差及标准差系数的计算 3.3.数据偏态与峰态的测定数据偏态与峰态的测定简单介绍了偏态和峰态的基本概念及测定方法 本讲稿第五十四页,共五十四页
限制150内