资料的描述性统计分析讲稿.ppt
《资料的描述性统计分析讲稿.ppt》由会员分享,可在线阅读,更多相关《资料的描述性统计分析讲稿.ppt(77页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于资料的描述性统计分析第一页,讲稿共七十七页哦总体与样本 总体(population):研究的全部对象。分为无限总体(infinite population)和有限总体(finite population)。个体(individual):构成总体的每个成员。样本(sample):总体的一部分。样本的含量(sample size):样本内包含的个体数目。第二页,讲稿共七十七页哦抽样 抽样(sample):从总体中获得样本的过程。目的:通过对样本的研究推断其总体 随机抽样(random sample)抽签、抓阄等。使用随机数字表。放回式抽样(sampling with replacement)非
2、放回式抽样(sampling without replacement)第三页,讲稿共七十七页哦42.1 数据预处理的原因 正确性(Correctness)一致性(Consistency)完整性(Completeness)可靠性(Reliability)数据质量的含义数据质量的含义 第四页,讲稿共七十七页哦现实世界的数据 不完整的 缺少属性值或某些感兴趣的属性,或仅包含聚集数据。含噪声的 包含错误或存在偏离期望的离群值。不一致的 采用的编码或表示不同,如属性名称不同 冗余的 如属性之间可以相互导出第五页,讲稿共七十七页哦6数据错误的不可避免性 数据输入和获得过程数据错误 数据集成所表现出来的错误
3、 数据传输过程所引入的错误 据统计有错误的数据占总数据的5%左右Redmen,Orr98第六页,讲稿共七十七页哦数据错误的危害性 高昂的操作费用 糟糕的决策制定 组织的不信任 分散管理的注意力第七页,讲稿共七十七页哦8数据预处理的形式 数据清理 补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致 数据集成 集成多个数据库、数据立方或文件 数据变换 规范化和聚集 数据归约 简化数据、但产生同样或相似的结果第八页,讲稿共七十七页哦数据预处理的形式第九页,讲稿共七十七页哦小结 现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性
4、能。高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。检测异常数据、尽早地调整数据并归约待分析的数据,将在决策过程中得到高回报。第十页,讲稿共七十七页哦2.2 描述性数据汇总 获得数据的总体印象对于成功的数据预处理是至关重要的。描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当视为噪声或离群点。动机:更好的理解数据。主要内容:度量数据的中心趋势和离散程度、描述数据汇总的图形显示。第十一页,讲稿共七十七页哦描述性统计数值指标包括:(1)集中位置的指标,用以描述观察值的平均水平。如算术均数、几何均数、中位数、众数、百分位数等。(2)资料变异的指标,用以描述观
5、察值间参差不齐的程度,即离散度或称变异度。如全距、标准差、方差、变异系数、四分位数间距等。第十二页,讲稿共七十七页哦数据类型及频数(率)分布 连续型数据(continuous data):又称度量数据(measurement data)离散型数据(discrete data):又称为计数数据(count data)变量的方法(method of variable):对连续型数据进行分析的方法。属性的方法(method of attribute):对离散型数据进行分析的方法。第十三页,讲稿共七十七页哦频数(率)表和频数(率)图离散型数据组值(class value):一般用组值编制频数(率)表(
6、frequency table)。柱形图(column diagram):一般用柱形图绘制频数(率)图。连续型数据组限(class limit):一般用组限编制频数(率)表。直方图(histogram)、多边形图(polygon)和累积频数图(cumulative frequency graph):一般用直方图、多边形图和累积频数图绘制频数(率)图。组界(class boundary):中值(midvalue):每一组的两个组限的平均值。频数分布(frequency distribution)(百分率分布 percentage distribution)把频数或频率按顺序排列起来。第十四页,讲
7、稿共七十七页哦第一节第一节 概述概述 描述性统计的表、图形式包括:(1)频数分布表 (2)条形图、直方图、茎叶图、盒形图第十五页,讲稿共七十七页哦设原始观察值共n例,为X1,X2,,Xn。和(SUM):X X1X2Xn。平方和,SS(SUM OF SQUARE):X2 X12X22Xn2 平方和又记为USS(UNCORRECTED SUM OF SQUARE)离均差平方和,记为CSS(CORRECTED SUM OF SQUARE):2)(xx2)(xx2)(xx2)(xx2)(xx21)(xx 22)(xx 2)(xxn 2)(xx21)(xx 22)(xx 2)(xxn 第十六页,讲稿共七
8、十七页哦第二节第二节 频数分布表频数分布表频数表的编制频数表的编制 编制步骤:1.1.求极差(即全距)求极差(即全距)R R;2.2.确定组数确定组数n n、组距、组距i i,并写出组段;,并写出组段;3.3.列表划记。列表划记。第十七页,讲稿共七十七页哦某市1995年110名7岁男童的身高资料(cm)114.4119.2124.7125.0115.0112.8120.2110.2120.9120.1125.5120.3122.3118.2116.7121.7116.8121.6115.2122.0121.7118.8121.8124.5121.7122.7116.3124.0119.0124
9、.5121.8124.9130.0123.5128.1119.7126.1131.3123.8114.7122.2122.8128.6122.0132.5122.0123.5116.3126.1119.2126.4118.4121.0119.1116.9131.1120.4115.2118.0122.4114.3116.9126.4114.2127.2118.3127.8123.0117.4123.2119.9122.1120.4124.8122.1114.4120.5115.0122.8116.8125.8120.1124.8122.7119.4128.2124.1127.2120.0122
10、.7118.3127.1122.5116.3125.1124.4112.3121.3127.0113.5118.8127.6125.2121.5122.5129.1122.6134.5118.3132.8第十八页,讲稿共七十七页哦 本例资料,最大值为本例资料,最大值为134.5cm134.5cm,最小值为,最小值为110.2cm110.2cm,故极,故极差差 R=134.5-110.2=24.3cmR=134.5-110.2=24.3cm 组数不宜太多,也不宜太少。一般根据样本量的多少组数不宜太多,也不宜太少。一般根据样本量的多少分成分成8-158-15组。组。本例假设分成本例假设分成1010
11、组。组。理论上组距等于极差除以组数。但不拘泥于计算结果,理论上组距等于极差除以组数。但不拘泥于计算结果,而常常取一个比较好处理的数。组距可以相等,也可以而常常取一个比较好处理的数。组距可以相等,也可以不等。不等。本例,组距本例,组距=24.3/10=2.43=24.3/10=2.43,我们取为,我们取为2cm2cm。组段:上限、下限组段:上限、下限 列表划记列表划记第十九页,讲稿共七十七页哦某市1995年110名7岁男童身高的频数分布表身高组段频数频率(%)累计频数累计频率(%)110 1 0.91 1 0.91112 3 2.73 4 3.64114 9 8.18 13 11.82116 9
12、 8.18 22 20.00118 15 13.64 37 33.64120 18 16.36 55 50.00122 21 19.09 76 69.09124 14 12.73 90 81.82126 10 9.09100 90.91128 4 3.64104 94.55130 3 2.73107 97.27132 2 1.82109 99.09134136 1 0.91110100.00合计110100.00第二十页,讲稿共七十七页哦 频数表的用途频数表的用途 根据频数表,进而可以绘制频数图。根据频数表,进而可以绘制频数图。揭示资料的分布特征和分布类型;揭示资料的分布特征和分布类型;资料的
13、分布范围、峰(单峰或多峰)和离资料的分布范围、峰(单峰或多峰)和离散情况。散情况。对于单峰分布资料,对于单峰分布资料,对称分布,其中一种特殊的分布叫做正态分布;对称分布,其中一种特殊的分布叫做正态分布;非对称分布,又称偏态分布。非对称分布,又称偏态分布。便于发现可疑值;便于发现可疑值;便于进一步计算指标和统计分析处理。便于进一步计算指标和统计分析处理。第二十一页,讲稿共七十七页哦第三节 集中位置的度量 一、算术平均数一、算术平均数(Arithmetic Mean)简称为均数(Mean),总体均数用希腊字母表示,样本均数用 表示。x=nxxxn+L21=鍈 nx/=适用于服从正态分布的资料。nx
14、nxxxxn+L21x第二十二页,讲稿共七十七页哦一、算术平均数一、算术平均数f=120ffxx/第二十三页,讲稿共七十七页哦一、算术平均数一、算术平均数 x为每个组段的组中值,f为相应组段的频数。原理:将落在某一组段内的观察值都视为 组中值。本例:=(4.04+4.25+5.83)/120 =595.8/120=4.965 如用原始观察值计算有 =(5.195+5.070+5.010)/120 =4.959xxxx第二十四页,讲稿共七十七页哦二、几何均数二、几何均数(Geometric Mean)几何均数用G表示,为观察值的总乘积开n 次方根,有nnnxxxxG/121)(L第二十五页,讲稿
15、共七十七页哦常用对数计算,公式如下:LogG=logX/n 再查反对数得出G。列成频数表时计算公式如下:LogG=flogX/f 适用条件:1.成倍数关系的资料。2.明显正偏态分布的资料。二、几何均数二、几何均数(Geometric Mean)第二十六页,讲稿共七十七页哦二、几何均数二、几何均数(Geometric Mean)例例3.3 6例钩端螺旋体病人的潜伏期分别为7,10,12,14,18,20天,求其平均潜伏期。解:解:或者lgG=(lg7+lg10+lg20)/6=1.1045 查反对数得G=12.7(天)7.12201814121076G71220181412107.6G第二十七页
16、,讲稿共七十七页哦二、几何均数二、几何均数(Geometric Mean)当为滴度资料时,如5名学龄儿童的麻疹血凝抑制抗体滴度为1:25,1:50,1:50,1:100,1:100,可先取其倒数,25,50,50,100,100,再求取几何均数为57.43,则平均抗体滴度为1:57。第二十八页,讲稿共七十七页哦三中位数三中位数(Median)中位数用M表示,它将总体或样本的全部观察 值分成两部分,每部分各有50%个观察值。计算方法为:先将原始观察值按由小到大顺序排列后,位次处于中间的那个观察值为中位数。观察值数为奇数时,处于中间的那个数为中位数。偶数时处于中间的两个数的均数为中位数。第二十九页
17、,讲稿共七十七页哦三中位数三中位数(Median)如求数列7,10,12,14,18,20的中位数。n=6,为偶数,取中间两个数的平均数,则 M=(12+14)/2=13(天)如求数列7,10,12,14,15,18,20的中位数。n=7,为奇数,取中间那个数为中位数。则 M=14(天)第三十页,讲稿共七十七页哦三中位数三中位数(Median)适用于表示任何分布资料的平均水平。但常用于非正态分布资料。由于中位数不受个别特大,特小数值的影响,因此它比均数稳健,常用于资料分布不明,或明显偏态,或分布的一端无确定值的情况。第三十一页,讲稿共七十七页哦四众数四众数(Mode)频数最大的变量值称为众数。
18、列成频数表的资料,频数最大的组段的组中值为众数。第三十二页,讲稿共七十七页哦集中趋势的测度第三十三页,讲稿共七十七页哦五百分位数五百分位数(Percentile)第X百分位数以Px表示,它将总体或样本的全部观察值分成二个部分,其中有x%个观察值小于Px,(100-x)%个观察值大于Px。用途:1.描述一组资料在各个百分位置上的水平,用一组百分位数如P5,P25,P50,P75,P95,可以描述总体或样本的分布特征,如集中位置、变异度等。第三十四页,讲稿共七十七页哦百分位数70%下侧30%上侧第70个百分位数值四分之一分位数=25%四分之二分位数=50%第三十五页,讲稿共七十七页哦五百分位数五百
19、分位数(Percentile)2.确定医学正常值范围。P25称为第1四分位数;记为Q1。P50称为第2四分位数;记为Q2,就是中位数M P75称为第3四分位数;记为Q3。计算百分位数时,特别是靠近两端的百分位数时,要求例数足够大,大于100例。第三十六页,讲稿共七十七页哦五百分位数五百分位数(Percentile)例:例:用直接法计算例3.2资料共120例的第5百分位数,用频数表法计算第95百分位数,解解:将原始观察值由小到大排列,得3.980,4.065,4.070,4.070,4.2150,4.250,4.260,4.290,5.850,5.875 先确定第x百分位数在第几位。用公式:(n
20、+1)x%第三十七页,讲稿共七十七页哦五百分位数五百分位数(Percentile)本例(120+1)5%=6.05,第5百分位数在第6.05位,即第6到第7位之间。简单的算法是取第6和第7位数的平均值,P5=(4.250+4.260)/2=4.255(1012/L)。第三十八页,讲稿共七十七页哦五百分位数五百分位数(Percentile)频数分布表计算百分位数:组限 频数f 累计频数 3.9 4 4 4.1 5 9 4.3 8 17 4.5 12 29 4.7 19 48 4.9 21 69 5.1 31 100 5.3 8 108 5.5 9 117 5.75.9 3 120 第三十九页,讲
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 资料 描述 统计分析 讲稿
限制150内