最新十四章数值变量的统计描述精品课件.ppt
《最新十四章数值变量的统计描述精品课件.ppt》由会员分享,可在线阅读,更多相关《最新十四章数值变量的统计描述精品课件.ppt(84页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第十四章 数值变量的统计描述 第一节 数值变量资料的频数分布表与频数分布图 第二节 集中趋势的描述 第三节 离散趋势的描述 第四节 正态分布和医学参考值范围的估计正态分布正态分布( normal distribution )中间高、两边低、左右对称属于对称分布的一种中间高、两边低、左右对称属于对称分布的一种许多医学资料都属于这种分布,例如人体正常的生理生化指标许多医学资料都属于这种分布,例如人体正常的生理生化指标正态分布正态分布正偏态分布正偏态分布正偏态分布:正偏态分布:峰偏左,尾部向右侧延伸峰偏左,尾部向右侧延伸如:以儿童为主的传染病发病人数的分布如:以儿童为主的传染病发病人数的分布右偏态右
2、偏态负偏态分布:负偏态分布:峰偏右,尾部向左侧延伸峰偏右,尾部向左侧延伸如:以老年人为主的慢性病发病人数的分布如:以老年人为主的慢性病发病人数的分布左偏态左偏态负偏态分布负偏态分布(positive skewed)(negative skewed)四、频数分布图 绘制频数分布直方图 坐标轴 横坐标:变量值即研究指标,无需从横坐标:变量值即研究指标,无需从0开始,以单位尺度开始,以单位尺度划分。划分。 纵坐标:为频数纵坐标:为频数f,必须从,必须从0开始(开始(f为每一组段内的人数)为每一组段内的人数) 直条 直条的宽度:组距直条的宽度:组距 直条的高度:每一组段的频数直条的高度:每一组段的频数
3、 累计频数分布图图图14-1 某市某市150名名3岁女孩身高的频数分布岁女孩身高的频数分布第二节 集中趋势的描述 算术均数(arithmetic mean) 几何均数(geometric mean) 中位数和百分位数(median percentile)以上统称为平均数(average)常用于描述一组变量值的集中位置,代表其平均水平或是集中位置的特征值。某公司员工工资,请描述平均水平 1、1800,1900,1900,2000,2000,2000,2000,2100,2100,2200, 平均工资为2000. 2、1800,1900,1900,2000,2000,2000,2000,2100,
4、2100,10000 平均工资为2800,合理吗?请描述以下资料中变量的平均水平 1、8名某病患者血清抗体滴度为:1:2,1:4,1:8,1:16,1:32,1:64,1:128。 2、某医院收治某癌症患者6人,其生存时间(月)分别为10,8,19,6,20,25一、算术均数又简称为均数(mean) 定义:是反映一组观察值在数量上的平均水平。 总体均数用希腊字母总体均数用希腊字母 表示,样本均数用表示,样本均数用 表示表示 应用: 对称分布,特别是正态分布或近似正态分布的数值变量资料 计算方法: 直接法:直接法: 加权法:加权法:x(arithmetic mean)(arithmetic me
5、an)计算方法 直接法:即将所有观察值x1,x2,x3,xn直接相加再除以观察值的个数,写成公式nxnxxxxxn.321 为样本均数,为样本均数, n n为变量值个数,为变量值个数,表示求和表示求和x一、算术均数 例14.2 有10名3岁女孩身高(CM)分别为92.5,82.5,102.6,99.1,96.6,99.3,85.2,89.2,90.6,95.1,求算术均数。 (CM)27.93 /10) 1 .955 .82(92.5 x一、算术均数 计算方法 加权法(weighting method) 当资料中相同观察值的个数较多时,可将相同观察值的个数,当资料中相同观察值的个数较多时,可将
6、相同观察值的个数,即频数即频数f,乘以该观察值,乘以该观察值x,以代替相同观察值逐个相加。,以代替相同观察值逐个相加。 对于频数表资料,用各组段的频数作对于频数表资料,用各组段的频数作f,以相应的组中值,以相应的组中值(class mid-value)作)作x。组中值组中值=(下限(下限+上限)上限)/ 2 公式公式 f fi i为各组段的频数为各组段的频数x xi i为各组段的组中值为各组段的组中值fxfffffxfxfxfxfxiinnn.321332211一、算术均数2022-7-520表14-1 某市150名3岁女孩身高的频数分布组段fxfxfx28018181656182383249
7、206678488568057800861087870756908819891691150499902391209319046392269324182248749424952280216600961797164915995398109999098010100610160661206102210320621218104106110510511025合计150-139181294566组中值组中值= =(下限(下限+ +上限)上限)/ 2/ 21391892.79()150iif xxcmf一、算术均数 f1, f2,fk分别为各组段的频数,这里的f起到了“权数”的作用,它权衡了各组中值由于频数不
8、同对均数的影响。即频数多,权数大,作用也大;频数少,权数小,作用也小,故称为加权法。 92.7993.27cm用组中值,加用组中值,加权法计算出的权法计算出的均数是精确值均数是精确值吗?吗?一、算术均数二、几何均数 定义:有些医学资料,如抗体滴度、细菌计数等,其频数分布明显偏态,各观察值之间呈倍数变化(等比关系),此时宜用几何均数反映其平均增减倍数。 应用:等比资料或对数正态分布资料 计算方法: 直接法直接法 加权法加权法(geometric mean) 计算方法: 直接法:直接将n个观察值( x1,x2,x3,xn )的乘积开n次 公式公式 写成对数形式为写成对数形式为 nnxxxxG.,3
9、211121lglg.lglg()lglg()nxxxGnxn几何均数:几何均数:变量对数值变量对数值的算术均数的算术均数的反对数。的反对数。二、几何均数 例14-3 设有5人的血清抗体效价为1:10,1:100,1:1000,1:10000,1:100000,求平均抗体效价。本例先求抗体效价的倒数,再求几何均数本例先求抗体效价的倒数,再求几何均数1lg10lg100.lg100000lg10005G血清抗体的平均效价为血清抗体的平均效价为1 1:10001000二、几何均数计算方法: 加权法:当资料中相同观察值得个数f(即频数)较多时,如频数表资料 写成公式写成公式)lg(lg1fxfG二、
10、几何均数 注意事项等比资料,如:等比资料,如:抗体的平均滴度、药物的平均效价、卫生事业平抗体的平均滴度、药物的平均效价、卫生事业平均发展速度、人口的几何增长均发展速度、人口的几何增长对数正态分布:对数正态分布:是右偏态分布是右偏态分布观察值不能有观察值不能有0 0,因为因为0 0不能去对数,不能与任何其他数呈倍数不能去对数,不能与任何其他数呈倍数 关系。关系。观察值不能同时有正值和负值。观察值不能同时有正值和负值。若全是负值,计算是可以把负号若全是负值,计算是可以把负号去掉,得出结果后再加上负号。去掉,得出结果后再加上负号。同一组资料求得的几何均数小于算术均数。同一组资料求得的几何均数小于算术
11、均数。二、几何均数三、中位数 (一)中位数 定义:是将一组观察值从小到大按顺序排列,位次居定义:是将一组观察值从小到大按顺序排列,位次居中的中的观察值观察值就是中位数。就是中位数。 例:例:( (median) ) X X: 5 5,5 5, 6 6, 7 7, 2020, 位次:位次: 1 2 3 4 51 2 3 4 5中位数中位数(M): 6 66.56.523 23 6 6 计算方法:计算方法: 直接由原始数据计算中位数直接由原始数据计算中位数先将观察值按大小顺序排列,再按下面公式计算:先将观察值按大小顺序排列,再按下面公式计算:212221nnnXXMnXMn为偶数时:为奇数时:为为
12、相相应应为为此此上上的的观观察察值值位位次次为为有有序序数数列列中中观观察察值值的的12221)12()2()21(nnnxxxnnn、位次上的观察值位次上的观察值 例14-5 某病患者10人的潜伏期从小到大排列为1,3,8,9,15,19,20,23,25,30,求中位数。 解:n=10 为偶数122561211151917()22nnnMXXMXX为偶数时:天 请大家思考下:计算中位数和其他平均数有什么不同?请大家思考下:计算中位数和其他平均数有什么不同?特点:仅特点:仅利用了中利用了中间的间的1 12 2个数据个数据 计算方法:计算方法: 用频数表计算中位数,用频数表计算中位数,按所分组
13、段,由小到大计算累计频数和累计频率。按所分组段,由小到大计算累计频数和累计频率。再按下面公式计算为:再按下面公式计算为:50%LmiMLnff()下限值下限值L L上限值上限值U Ui; fm中位数中位数M M)%50(Lfn50%LmiMLnff()50%1212(181/2 30)23.52( )63LmnfML ihf 表14-4 181名食物中毒患者的潜伏期天数f累计频数累计频率%0303016.5712639351.38244714077.35362016088.40481217295.0360818099.4572841181100.00 反映了位次反映了位次居中的观察值的水平居中
14、的观察值的水平 优点:不受两端特大值和特小值影响优点:不受两端特大值和特小值影响 缺点:并非考虑到每个观测值缺点:并非考虑到每个观测值 适用于各种分布类型的资料,适用于各种分布类型的资料, 特别适合于:特别适合于:大样本明显偏态分布资料、分布不明的资料、大样本明显偏态分布资料、分布不明的资料、 或者一端或者一端/两端无确切数值的资料两端无确切数值的资料 3.中位数和算术均数在对称分布的资料中,理论上数值是相中位数和算术均数在对称分布的资料中,理论上数值是相 同的同的中位数的特征中位数的特征常用平均数的意义及其应用场合平平均均数数 意意义义 应应用用场场合合 均均数数 平平均均数数量量水水平平
15、应应用用甚甚广广,适适用用于于对对称称分分布布,特特别别是是正正态态分分布布 几几何何均均数数 平平均均增增(减减)倍倍数数 等等比比资资料料 ;对对数数正正态态分分布布 中中位位数数 位位次次居居中中的的观观察察值值水水平平 偏偏态态资资料料 ;分分布布不不明明 ;分分布布末末端端无无确确定定值值 小小 结结第三节 离散趋势的描述 平均水平的指标只是描述了一组数据的集中平均水平的指标只是描述了一组数据的集中趋势指标,可以作为总体的一个代表值,那么不趋势指标,可以作为总体的一个代表值,那么不同组观察值之间是否存在差异?描述差异的指标同组观察值之间是否存在差异?描述差异的指标有哪些呢?差异究竟有
16、多大?如何计算?有哪些呢?差异究竟有多大?如何计算? 例2-11 三组同龄男孩的身高值(cm) 甲组甲组 90 95 100 105 110 乙组乙组 96 98 100 102 104 丙组丙组 96 99 100 101 104 丙乙甲描述计量资料数据间离散程度的指标 变异指标。常用的指标:极差极差 四分位间距四分位间距方差方差标准差标准差变异系数。变异系数。第三节 离散趋势的描述一、极差 定义:亦称为全距,即一组观察值中最大值与最小值之差 计算方法: RXMaxXMin 意义: R值越大,表示该组数据的变异越大。 优点:计算简单,意义明了。 缺点: 数据利用不全,仅利用了两个极端值,部分
17、信息损失,结果不稳定。(Range) 例2-11 三组同龄男孩的身高值(cm) R 甲组甲组 90 95 100 105 110 100 20 乙组乙组 96 98 100 102 104 100 8 丙组丙组 96 99 100 101 104 100 8x二、百分位数二、百分位数v定义:定义:是一种位置指标,用是一种位置指标,用 P PX X 来表示。来表示。将将n n个变量值从小到大依次排列,再把它们的位次转换为百分位。个变量值从小到大依次排列,再把它们的位次转换为百分位。对应于对应于X%X%位次的数值即为第位次的数值即为第X X百分位数。百分位数。 变量值:变量值: 5 5 8 89
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 十四 数值 变量 统计 描述 精品 课件
限制150内