数据统计与分析方法.ppt
《数据统计与分析方法.ppt》由会员分享,可在线阅读,更多相关《数据统计与分析方法.ppt(122页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据统计与分析方法数据统计与分析方法1 1 1 1、数据统计的一般方法;、数据统计的一般方法;、数据统计的一般方法;、数据统计的一般方法;2 2 2 2、数据分析的一般方法;、数据分析的一般方法;、数据分析的一般方法;、数据分析的一般方法;3 3 3 3、了解数据统计和分析在实际案例中的应用;、了解数据统计和分析在实际案例中的应用;、了解数据统计和分析在实际案例中的应用;、了解数据统计和分析在实际案例中的应用;4 4 4 4、了解时间序列分析及相关软件应用;、了解时间序列分析及相关软件应用;、了解时间序列分析及相关软件应用;、了解时间序列分析及相关软件应用;培训主要内容:培训主要内容:瞎子王国
2、里,有一只眼精的人就是国王!心电图的由来17801780年有一天,年有一天,4343岁的意大利解剖学岁的意大利解剖学家伽伐尼家伽伐尼Galvani LuigiGalvani Luigi,1737-17981737-1798),),在实验室解剖青蛙,在用银质手术刀在实验室解剖青蛙,在用银质手术刀触碰放在铁盘上的青蛙的时候,无意触碰放在铁盘上的青蛙的时候,无意间发现青蛙腿部肌肉抽搐了一下,仿间发现青蛙腿部肌肉抽搐了一下,仿佛受到电流的刺激如果换用一种金佛受到电流的刺激如果换用一种金属器械去触动青蛙,就无此种反应。属器械去触动青蛙,就无此种反应。18321832年,一个晴朗的日子,还是意年,一个晴朗
3、的日子,还是意大利,还是青蛙,只是做实验的人大利,还是青蛙,只是做实验的人换成了马泰乌奇。换成了马泰乌奇。这一次,马泰乌奇探测到损伤和未这一次,马泰乌奇探测到损伤和未损伤的肌肉之间存在一种电流,他损伤的肌肉之间存在一种电流,他称之为称之为“肌肉电流肌肉电流”。他发现,包。他发现,包括心脏在内,一切正在收缩的肌肉括心脏在内,一切正在收缩的肌肉都会产生肌肉电流。都会产生肌肉电流。医学研究者通医学研究者通过大量的临床过大量的临床数据发现正常数据发现正常和非正常的心和非正常的心电图电图1、什么是数据?数据是指对客观事件进行记录并可以鉴别的数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、
4、状态以及相互关符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。合。它是可识别的、抽象的符号。数据表现形式数据表现形式表现形式一表现形式一数据列表数据表现形式二数据表现形式二描述性分析:数据分时段走势、差距变化情况以及描述性分析:数据分时段走势、差距变化情况以及 相应的时间背景相应的时间背景销售码洋趋势图销售码洋趋势图数据表现形式三数据表现形式三销售码洋结构比销售码洋结构比数据类型的分类数据类型的分类1、计量资料(measurement data)用仪器、工具等测量方法获得的数据,又称数值变量。
5、特点:有计量单位,如患者的身高(cm),体重(kg),血压(kPa)等.2、计数资料(count data)按某种属性分类计数后得到的数据,又称无序分类变量,有二分类和多分类两种情形.特点:无计量单位,如肤色(黑白)、血型(ABO)、职业(工农兵)、性别(男,女)等.3、等级资料(ordinal data)半定性或半定量的观察结果,有大小顺序,又称有序分类变量.如 癌症分期:早、中、晚。药物疗效:治愈、好转、无效、死亡。尿蛋白:,+,+及以上住院号住院号年龄年龄身高身高体重体重住院住院天数天数职业职业文化文化程度程度分娩分娩方式方式妊娠妊娠结局结局20256552716571.55无无中学中学
6、顺产顺产足月足月20256532216074.05无无小学小学助产助产足月足月20258302515868.06管理员管理员大学大学顺产顺产足月足月20225432316169.05无无中学中学剖宫产剖宫产足月足月20224662515962.011商业商业中学中学剖宫产剖宫产足月足月20245352715768.02无无小学小学顺产顺产早产早产20258342015866.04无无中学中学助产助产早产早产20194642415870.53无无中学中学助产助产足月足月20257832915457.07干部干部中学中学剖宫产剖宫产足月足月实例数据计量资料计数资料三类资料间关系三类资料间关系三类资
7、料间关系三类资料间关系 例:一组2040岁成年人的血压以12kPa为界分为正常与异常两组,统计每组例数 8 低血压 8 正常血压 12 轻度高血压 15 中度高血压 17 重度高血压计量资料等级资料计数资料第一部第一部 数据统计概述数据统计概述什么是统计方法什么是统计方法统计方法统计方法是指有关收集、整理、是指有关收集、整理、分析和解释统计分析和解释统计数据数据,并对其所,并对其所反映的问题作出一定结论的方法。反映的问题作出一定结论的方法。统计方法统计方法是一种从微观结构上来是一种从微观结构上来研究物质的宏观性质及其规律的研究物质的宏观性质及其规律的独特的方法。独特的方法。一般统计方法根据数据
8、的类型可以分为以下三种统计方法根据数据的类型可以分为以下三种统计方法1、计量资料的统计方法、计量资料的统计方法*2、计数资料的统计方法、计数资料的统计方法3、等级资料的统计方法、等级资料的统计方法运用统计方法应遵循的原则&坚持用数据说话的基本观点。&有目的地收集数据。&掌握数据的来源。&认真整理数据。统计分析流程统计分析流程确定问题确定分析目标采用科学方法收集数据考察数据时效性整理数据统计分析出具分析报告,提出解决意或建议计量资料的统计描述计量资料的统计描述1 1、频数分布、频数分布 (frequency distribution)(frequency distribution)为了了解数据的
9、分布情况,可以编制频数表(frequency table).(1)求极差(range):即最大值与最小值之差,又称为全距。(2)数据分组:由样本容量n确定组数、通常分10-15个组;一般采取等距分组,组距=极差/组数。(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。l 频数表的编制步骤编号编号血清甘油三脂血清甘油三脂编号编号血清甘油三脂血清甘油三脂1 10.510.512 20.520.521531531.651.653 30.590.591541541.661.664 40.61
10、0.611551551.671.675 50.610.611561561.671.676 60.620.621571571.691.697 70.630.631581581.71.78 80.640.641591591.711.711601601.771.77 表2-1:160名正常成年女子的血清甘油三酯(mmol/L)组段组段 (1)划划 记记(2)频数,频数,f(3)组中值,组中值,X(4)fX(5)=(3)(4)0.5 30.551.650.6正正90.655.850.7正正正正120.759.000.8正正正正130.8511.050.9正正正正正正170.9516.151.0正正正正
11、正正181.0518.901.1正正正正正正正正201.1523.001.2正正正正正正181.2522.501.3正正正正正正171.3522.951.4正正正正131.4518.851.5正正91.5512.401.6正正 81.6514.851.71.8 合计合计 31.755.25160182.30编制频数表,绘制频数分布图对称分布:以频数最多组段为中心左右大体对称.右(正)偏态分布:频数最多组段右侧组段数多.(skewed to the right distribution)左(负)偏态分布:频数最多组段左侧组段数多.(skewed to the right distribution
12、)2、集中趋势的描述 统计上使用平均数(average)来反映计量资料的集中趋势(central tendency).常用平均数有:1.算术均数(arithmetic mean),简称均数(mean)2.几何均数(geometric mean)3.中位数(median)4.百分位数(percentile)3、离散趋势的描述 反映数据的离散度(Dispersion),即个体观察值的变异(variation)程度,常用的统计指标有:1.极差(Range)(全距)2.四分位数间距(Quartile range)3.方差(Variance)4.标准差(Standard Deviation)5.变异系数
13、(Coefficient of Variation)四分位间距:QRP75 P25三、SPSS实现计量资料的统计描述下面是下面是SPSSSPSS软件中绘制频数图的步骤软件中绘制频数图的步骤四、计数资料的统计描述住院号住院号年龄年龄职业职业文化程度文化程度分娩方式分娩方式妊娠结局妊娠结局202565527无无中学中学顺产顺产足月足月202565322无无小学小学助产助产足月足月202583025管理人员管理人员大学大学顺产顺产足月足月202567724知识分子知识分子中学中学顺产顺产早产早产202564730管理人员管理人员大学大学顺产顺产足月足月202584832无无小学小学剖宫产剖宫产足月足
14、月201991527无无中学中学顺产顺产死产死产202586129无无大学大学剖宫产剖宫产足月足月202460125农民农民中学中学顺产顺产足月足月200038626无无小学小学顺产顺产足月足月1 1、计数资料数据的整理、计数资料数据的整理按年龄(按年龄(2 2岁一组)与职业整理岁一组)与职业整理年龄年龄工人工人管理人员管理人员农民农民商业服务商业服务无无知识分子知识分子总计总计1818 2 2 0 0 0 0 0 0 3 3 0 0 5 52020 9 9 2 2 6 61010 1818 0 0 454522222828 7 710102424 7070111115015024245050
15、343428285252153153444436136126265050434325254545133133707036636628283434353510103434 7878575724824830301111141411112222 3939171711411432321414 2 2 3 31414 2424 3 3 60603434 4 4 2 2 5 5 3 3 1212 2 2 28283636 2 2 1 1 1 1 4 4 5 5 1 1 14143838 3 3 1 1 1 1 0 0 2 2 1 1 8 84040 0 0 0 0 2 2 0 0 0 0 0 0 2 2合
16、计合计 207207 141141102102208208537537206206140114012、常用相对数指标 计数资料常用的数据形式是绝对数,如某病的出院人数,治愈人数等.但绝对数不具可比性,需要计算相对数.l率(rate):说明某现象或某事物发生的频率或强度。率=(实际发生数/可能发生总数)比例基数 比例基数:100%、1000、10000/万、100000(1/10万)等 如:发病率、死亡率、发生率、阳性率、患病率等l构成比(proportion):说明某一事物内部,各组成部分所占的比重,也叫百分比。构成比=(某部分观察单位数/各组成部分观察单位总数)100%如:教研室20人中高级
17、职称有5人,占25。l相对比(relative ratio):是A、B两个有关指标之比,说明A是B的若干倍或百分之几,通常用倍数或分数表示。如:男:女、医生:护士、教师:学生 年龄组年龄组 受检人数受检人数白内障白内障例数例数 患者年龄患者年龄构成比(构成比(%)患病率(患病率(%)=(3)/(2)4050607080合计合计560441296149 2268129135 97 1915.1828.7930.1321.65 4.2412.1429.2545.6165.1086.36 1468448100.0030.52例例:率与构成比率与构成比(1)不能以构成比代替率。(2)计算相对数的分母不
18、宜过小,小则直接叙述。(3)进行率的对比分析时,应注意资料可比性。如比较疗效时,比较组间应病情轻重相同,性别影响,应按性别分组后再作比较。(4)正确求平均率。例:若P1=x1/n1 P2=x2/n2 P3=x3/n3 P(x1+x2+x3)/n1+n2+n3)(正确)P(P1+P2+P3)/3 (错误)3、相对数应用注意事项计数资料和等级资料的SPSS表示五、统计表与统计图 统计表(statistical table)数据代替文字描述,便于统计结果的精确、简洁的表达和对比分析.统计图(statistical chart)用图形代替数据,获得直观、形象的效果.定义:将统计分析的事物及指标用表格列
19、出.特点:避免长篇文字叙述,便于阅读和对比分析;数据具体.定义:用点的位置,线段的升降,直条的长短或面积的大小等形式表达统计资料.特点:直观,醒目,常给人以深刻印象.统计表由以下几个部分组成:标题、标目、线条、数字、备注表2-9 某省某工厂 1994、1998年四项检测指标异常检出率检测检测指标指标1994年年1998年年受检人数受检人数 异常人数异常人数 检出率检出率(%)受检人数受检人数异常人数异常人数检出率检出率(%)血压血压 心率心率 TTT GPT 5195195195195544362010.16 0.48 6.94 3.85582582582582383923166.526.70
20、3.952.75 :TTTTTT(麝香草酚浊度试验),(麝香草酚浊度试验),:GPTGPT(谷丙转氨酶)。(谷丙转氨酶)。(丁建生等丁建生等.中国卫生统计中国卫生统计 1999;16(3):166)1999;16(3):166)1、统计表的结构.纵 标 目总 标 目(单位).合 计 .横 标 目纵 标 目纵 标 目纵 标 目总 标 目横标目的总 标 目备注:表号 标题(包括何时、何地、何事)2、三线表 根据分组标目的复杂程度,统计表可大致分为简单表根据分组标目的复杂程度,统计表可大致分为简单表和复合表。和复合表。简单表简单表(simple table)(simple table):只按一个特征
21、或标志分组。:只按一个特征或标志分组。如表如表2-8 2-8。复合表复合表(combinative table)(combinative table):按两个或两个以上特:按两个或两个以上特征或标志结合起来分组。如表征或标志结合起来分组。如表2-92-9。3、统计表的分类3、不良统计表的修改 统计图(statistical chart 或statistical graph)是用点、线、面等几何图形,直观形象地表达、描述数据或结果。3、统计图 SPSS绘制基本图形SPSS绘制基本图形条形图(Bar Chart)用途:用等宽直条的长短来表示相互独立的各统计指标的数值大小,也叫直条图.分单式和复式两
22、种.单式条形图复式条形图圆图(Pie Chart)用途:以圆的半径将圆面分割成多个大小不等的扇形,以扇形面积来表达构成比的图形。线图(Line Chart)用途:适用于连续变量资料,说明某事物因时间、条件推移而变迁的趋势。直方图(Histogram)用途:直方图是以面积表示数量,适用于表达连续性资料的频数或频率分布。第二部第二部 数据分析概述数据分析概述什么是数据分析请牢记:所有的分析要从“结果结果”出发,没有结论的数字罗列并不是分析;“结果结果”:发现问题和解决问题。数据分析不是一门复杂的科学数据分析不是一门复杂的科学;而是一些简单的“common sense”;复杂的运算通常只是令分析结果
23、更差而不是更好;绝大多数是简单的想法和简单的沟通数据分析有时候是一门艺术数据分析有时候是一门艺术同样的数据会有不同的解读优秀和平庸的差异,有时候差在一种灵感数据分析目的让数据说话;行动的向导;杜绝浪费;提供决策的依据。数据分析误区数据分析误区误区一误区一:展示元素不宜大于展示元素不宜大于3 3个个数据分析误区数据分析误区误区二误区二:时间序列数据最好使用折线图,而不宜使时间序列数据最好使用折线图,而不宜使用柱状图等用柱状图等误区三:研究用数据最好不使用三维立体图研究用数据最好不使用三维立体图数据分析误区数据分析误区误区四:为避免图表的欺骗性,图线最好占据误区四:为避免图表的欺骗性,图线最好占据
24、2/3 2/3 至至3/43/4的高度(调整的高度(调整Y Y轴刻度)轴刻度)数据分析误区数据分析误区 常用的数据分析方法常用的数据分析方法1 1、抽样法、抽样法*2 2、聚类分析(、聚类分析(Cluster AnalysisCluster Analysis)*3 3、因子分析(、因子分析(Factor AnalysisFactor Analysis)4 4、相关分析、相关分析(Correlation Analysis)(Correlation Analysis)5 5、对应分析对应分析(Correspondence Correspondence AnalysisAnalysis)6 6、回归
25、分析(、回归分析(regression analysis)regression analysis)7 7、方差分析、方差分析(ANOVA/Analysis of(ANOVA/Analysis of Variance)Variance)8 8、时间序列分析、时间序列分析*总体总体总体总体:总体、个体总体、个体个体个体个体个体:总体又叫母体,是研究对象的全体。总体又叫母体,是研究对象的全体。出版商一个批次到货出版商一个批次到货的全部都可以称为总体。的全部都可以称为总体。构成总体的基本单位,称为个体。构成总体的基本单位,称为个体。每册书都是一个个体。每册书都是一个个体。来货检验常用抽样方法进行,即从
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 统计 分析 方法
限制150内