资料的描述性统计分析课件.ppt
《资料的描述性统计分析课件.ppt》由会员分享,可在线阅读,更多相关《资料的描述性统计分析课件.ppt(77页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于资料的描述性统计分析现在学习的是第1页,共77页总体与样本总体(population):研究的全部对象。分为无限总体(infinitepopulation)和有限总体(finitepopulation)。个体(individual):构成总体的每个成员。样本(sample):总体的一部分。样本的含量(samplesize):样本内包含的个体数目。现在学习的是第2页,共77页抽样抽样(sample):从总体中获得样本的过程。目的:通过对样本的研究推断其总体随机抽样(randomsample)抽签、抓阄等。使用随机数字表。放回式抽样(samplingwithreplacement)非放回式抽样
2、(samplingwithoutreplacement)现在学习的是第3页,共77页42.1 数据预处理的原因 正确性(Correctness)一致性(Consistency)完整性(Completeness)可靠性(Reliability)数据质量的含义数据质量的含义 现在学习的是第4页,共77页现实世界的数据不完整的缺少属性值或某些感兴趣的属性,或仅包含聚集数据。含噪声的包含错误或存在偏离期望的离群值。不一致的采用的编码或表示不同,如属性名称不同冗余的如属性之间可以相互导出现在学习的是第5页,共77页6数据错误的不可避免性数据输入和获得过程数据错误数据集成所表现出来的错误数据传输过程所引入
3、的错误 据统计有错误的数据占总数据的5%左右Redmen,Orr98现在学习的是第6页,共77页数据错误的危害性高昂的操作费用糟糕的决策制定组织的不信任分散管理的注意力现在学习的是第7页,共77页8数据预处理的形式数据清理补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致数据集成集成多个数据库、数据立方或文件数据变换规范化和聚集数据归约简化数据、但产生同样或相似的结果现在学习的是第8页,共77页数据预处理的形式现在学习的是第9页,共77页小结现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。高质量的决策必然依赖于高质
4、量的数据,因此数据预处理是知识发现过程的重要步骤。检测异常数据、尽早地调整数据并归约待分析的数据,将在决策过程中得到高回报。现在学习的是第10页,共77页2.2 描述性数据汇总获得数据的总体印象对于成功的数据预处理是至关重要的。描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当视为噪声或离群点。动机:更好的理解数据。主要内容:度量数据的中心趋势和离散程度、描述数据汇总的图形显示。现在学习的是第11页,共77页描述性统计数值指标包括:(1)集中位置的指标,用以描述观察值的平均水平。如算术均数、几何均数、中位数、众数、百分位数等。(2)资料变异的指标,用以描述观察值间参差不齐的程度,
5、即离散度或称变异度。如全距、标准差、方差、变异系数、四分位数间距等。现在学习的是第12页,共77页数据类型及频数(率)分布连续型数据(continuousdata):又称度量数据(measurementdata)离散型数据(discretedata):又称为计数数据(countdata)变量的方法(methodofvariable):对连续型数据进行分析的方法。属性的方法(methodofattribute):对离散型数据进行分析的方法。现在学习的是第13页,共77页频数(率)表和频数(率)图离散型数据组值(classvalue):一般用组值编制频数(率)表(frequencytable)。柱
6、形图(columndiagram):一般用柱形图绘制频数(率)图。连续型数据组限(classlimit):一般用组限编制频数(率)表。直方图(histogram)、多边形图(polygon)和累积频数图(cumulativefrequencygraph):一般用直方图、多边形图和累积频数图绘制频数(率)图。组界(classboundary):中值(midvalue):每一组的两个组限的平均值。频数分布(frequencydistribution)(百分率分布percentagedistribution)把频数或频率按顺序排列起来。现在学习的是第14页,共77页第一节第一节 概述概述 描述性统计
7、的表、图形式包括:(1)频数分布表(2)条形图、直方图、茎叶图、盒形图现在学习的是第15页,共77页设原始观察值共n例,为X1,X2,,Xn。和(SUM):XX1X2Xn。平方和,SS(SUMOFSQUARE):X2X12X22Xn2平方和又记为USS(UNCORRECTEDSUMOFSQUARE)离均差平方和,记为CSS(CORRECTEDSUMOFSQUARE):现在学习的是第16页,共77页第二节第二节 频数分布表频数分布表频数表的编制频数表的编制 编制步骤:1.1.求极差(即全距)求极差(即全距)R R;2.2.确定组数确定组数n n、组距、组距i i,并写出组段;,并写出组段;3.3
8、.列表划记。列表划记。现在学习的是第17页,共77页某市1995年110名7岁男童的身高资料(cm)114.4119.2124.7125.0115.0112.8120.2110.2120.9120.1125.5120.3122.3118.2116.7121.7116.8121.6115.2122.0121.7118.8121.8124.5121.7122.7116.3124.0119.0124.5121.8124.9130.0123.5128.1119.7126.1131.3123.8114.7122.2122.8128.6122.0132.5122.0123.5116.3126.1119.2
9、126.4118.4121.0119.1116.9131.1120.4115.2118.0122.4114.3116.9126.4114.2127.2118.3127.8123.0117.4123.2119.9122.1120.4124.8122.1114.4120.5115.0122.8116.8125.8120.1124.8122.7119.4128.2124.1127.2120.0122.7118.3127.1122.5116.3125.1124.4112.3121.3127.0113.5118.8127.6125.2121.5122.5129.1122.6134.5118.3132.8
10、现在学习的是第18页,共77页本例资料,最大值为本例资料,最大值为134.5cm134.5cm,最小值为,最小值为110.2cm110.2cm,故极,故极差差 R=134.5-110.2=24.3cmR=134.5-110.2=24.3cm组数不宜太多,也不宜太少。一般根据样本量的多少分组数不宜太多,也不宜太少。一般根据样本量的多少分成成8-158-15组。组。本例假设分成本例假设分成1010组。组。理论上组距等于极差除以组数。但不拘泥于计算结果,理论上组距等于极差除以组数。但不拘泥于计算结果,而常常取一个比较好处理的数。组距可以相等,也可以而常常取一个比较好处理的数。组距可以相等,也可以不等
11、。不等。本例,组距本例,组距=24.3/10=2.43=24.3/10=2.43,我们取为,我们取为2cm2cm。组段:上限、下限组段:上限、下限列表划记列表划记现在学习的是第19页,共77页某市1995年110名7岁男童身高的频数分布表身高组段频数频率(%)累计频数累计频率(%)11010.9110.9111232.7343.6411498.181311.8211698.182220.001181513.643733.641201816.365550.001222119.097669.091241412.739081.82126109.0910090.9112843.6410494.5513
12、032.7310797.2713221.8210999.0913413610.91110100.00合计110100.00现在学习的是第20页,共77页频数表的用途频数表的用途 根据频数表,进而可以绘制频数图。根据频数表,进而可以绘制频数图。揭示资料的分布特征和分布类型;揭示资料的分布特征和分布类型;资料的分布范围、峰(单峰或多峰)和离资料的分布范围、峰(单峰或多峰)和离散情况。散情况。对于单峰分布资料,对于单峰分布资料,对称分布,其中一种特殊的分布叫做正态分布;对称分布,其中一种特殊的分布叫做正态分布;非对称分布,又称偏态分布。非对称分布,又称偏态分布。便于发现可疑值;便于发现可疑值;便于进
13、一步计算指标和统计分析处理。便于进一步计算指标和统计分析处理。现在学习的是第21页,共77页第三节集中位置的度量 一、算术平均数一、算术平均数(Arithmetic Mean)简称为均数(Mean),总体均数用希腊字母表示,样本均数用表示。x=nxxxn+L21=鍈nx/适用于服从正态分布的资料。现在学习的是第22页,共77页一、算术平均数一、算术平均数=120现在学习的是第23页,共77页一、算术平均数一、算术平均数x为每个组段的组中值,f为相应组段的频数。原理:将落在某一组段内的观察值都视为组中值。本例:=(4.04+4.25+5.83)/120=595.8/120=4.965如用原始观察
14、值计算有=(5.195+5.070+5.010)/120=4.959现在学习的是第24页,共77页二、几何均数二、几何均数(Geometric Mean)几何均数用G表示,为观察值的总乘积开n次方根,有现在学习的是第25页,共77页常用对数计算,公式如下:LogG=logX/n再查反对数得出G。列成频数表时计算公式如下:LogG=flogX/f适用条件:1.成倍数关系的资料。2.明显正偏态分布的资料。二、几何均数二、几何均数(Geometric Mean)现在学习的是第26页,共77页二、几何均数二、几何均数(Geometric Mean)例例3.3 6例钩端螺旋体病人的潜伏期分别为7,10,
15、12,14,18,20天,求其平均潜伏期。解:解:或者lgG=(lg7+lg10+lg20)/6=1.1045查反对数得G=12.7(天)现在学习的是第27页,共77页二、几何均数二、几何均数(Geometric Mean)当为滴度资料时,如5名学龄儿童的麻疹血凝抑制抗体滴度为1:25,1:50,1:50,1:100,1:100,可先取其倒数,25,50,50,100,100,再求取几何均数为57.43,则平均抗体滴度为1:57。现在学习的是第28页,共77页三中位数三中位数(Median)中位数用M表示,它将总体或样本的全部观察值分成两部分,每部分各有50%个观察值。计算方法为:先将原始观察
16、值按由小到大顺序排列后,位次处于中间的那个观察值为中位数。观察值数为奇数时,处于中间的那个数为中位数。偶数时处于中间的两个数的均数为中位数。现在学习的是第29页,共77页三中位数三中位数(Median)如求数列7,10,12,14,18,20的中位数。n=6,为偶数,取中间两个数的平均数,则M=(12+14)/2=13(天)如求数列7,10,12,14,15,18,20的中位数。n=7,为奇数,取中间那个数为中位数。则M=14(天)现在学习的是第30页,共77页三中位数三中位数(Median)适用于表示任何分布资料的平均水平。但常用于非正态分布资料。由于中位数不受个别特大,特小数值的影响,因此
17、它比均数稳健,常用于资料分布不明,或明显偏态,或分布的一端无确定值的情况。现在学习的是第31页,共77页四众数四众数(Mode)频数最大的变量值称为众数。列成频数表的资料,频数最大的组段的组中值为众数。现在学习的是第32页,共77页集中趋势的测度现在学习的是第33页,共77页五百分位数五百分位数(Percentile)第X百分位数以Px表示,它将总体或样本的全部观察值分成二个部分,其中有x%个观察值小于Px,(100-x)%个观察值大于Px。用途:1.描述一组资料在各个百分位置上的水平,用一组百分位数如P5,P25,P50,P75,P95,可以描述总体或样本的分布特征,如集中位置、变异度等。现
18、在学习的是第34页,共77页百分位数70%下侧30%上侧第70个百分位数值四分之一分位数=25%四分之二分位数=50%现在学习的是第35页,共77页五百分位数五百分位数(Percentile)2.确定医学正常值范围。P25称为第1四分位数;记为Q1。P50称为第2四分位数;记为Q2,就是中位数MP75称为第3四分位数;记为Q3。计算百分位数时,特别是靠近两端的百分位数时,要求例数足够大,大于100例。现在学习的是第36页,共77页五百分位数五百分位数(Percentile)例:例:用直接法计算例3.2资料共120例的第5百分位数,用频数表法计算第95百分位数,解解:将原始观察值由小到大排列,得
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 资料 描述 统计分析 课件
限制150内