统计处理的原则与方法幻灯片.ppt
统计处理的原则与方法第1页,共33页,编辑于2022年,星期二2医学统医学统计计 学学研究研究设计设计数据数据处理处理观察性研究观察性研究实验性研究实验性研究统计描述统计描述统计推论统计推论假设检验假设检验参数估计参数估计(调查调查)2023/4/14第2页,共33页,编辑于2022年,星期二3实验设计实验设计随机化随机化基本原则基本原则对对 照照重重 复复(样本含量样本含量)设置设置原则:均衡可比原则:均衡可比 类型:配对、组间类型:配对、组间 1-1-、空白空白实验实验安慰剂安慰剂标准标准相互相互2023/4/14第3页,共33页,编辑于2022年,星期二4统计结果的表达统计描述统计描述统计表统计表制表原则制表原则制表要求制表要求 简单明了简单明了主语在左、宾语在右主语在左、宾语在右一张表表达一个中心内容一张表表达一个中心内容备注备注数字数字 线条线条 标目标目标题标题2023/4/14第4页,共33页,编辑于2022年,星期二5统计描述统计描述统计图统计图制图原则制图原则制图要求制图要求 连续性资料:连续性资料:间断性资料:间断性资料:图例图例刻度刻度 纵轴、横轴纵轴、横轴 标目标目标题标题 条图、圆图、百分比条图条图、圆图、百分比条图 线图、直方图、散点图线图、直方图、散点图2023/4/14第5页,共33页,编辑于2022年,星期二6统计描述统计描述 统计统计指标指标计量资料计量资料(单变量单变量)中心中心位置位置 正态:正态:非正态:非正态:对数正态:对数正态:离散离散 程度程度 个体值个体值 样本均数:样本均数:正态正态非正态非正态:量纲相同量纲相同:量纲不同量纲不同:计量资料计量资料(双变量双变量)离散程度:离散程度:r、b2023/4/14第6页,共33页,编辑于2022年,星期二7统计描述统计描述等级等级资料资料统计统计指标指标计数资料计数资料绝对数、率、构成比、绝对数、率、构成比、相对比相对比 、RR(OR)离散程度:离散程度:标准误标准误离散程度:离散程度:秩号、秩和秩号、秩和秩和的标准误秩和的标准误单变量单变量双变量:双变量:rs2023/4/14第7页,共33页,编辑于2022年,星期二8统计描述统计描述参参 考考 值值 范围估计范围估计正态正态偏态偏态或或双侧:双侧:单侧:单侧:双侧:双侧:单侧:单侧:或或2023/4/14第8页,共33页,编辑于2022年,星期二92023/4/14第9页,共33页,编辑于2022年,星期二10统计推论统计推论假设假设检验检验步骤步骤1.进行检验假设进行检验假设 假设样本来自某一特定总体假设样本来自某一特定总体2.确定检验水准确定检验水准 确定最大允许误差确定最大允许误差3.选定检验方法计算检验统计量选定检验方法计算检验统计量 计算样本与总体的偏离程度计算样本与总体的偏离程度4.根据一特定分布计算与检验统计根据一特定分布计算与检验统计 量对应的量对应的P值值5.作出结论作出结论 根据小概率反证法思想作出推断根据小概率反证法思想作出推断2023/4/14第10页,共33页,编辑于2022年,星期二11统计推论统计推论比较比较差别:差别:2、t、u、F、q、log-rank 、秩和检验等秩和检验等联系:相关、回归分析联系:相关、回归分析分类:聚类、回归分析分类:聚类、回归分析鉴别:判别分析鉴别:判别分析推测:回归分析推测:回归分析筛选影响因素:回归分析筛选影响因素:回归分析综合变量信息:主成分分析综合变量信息:主成分分析寻找潜在支配因素:因子分析寻找潜在支配因素:因子分析假设假设检验检验方法方法2023/4/14第11页,共33页,编辑于2022年,星期二12标识变量标识变量分析变量分析变量解释变量解释变量反应变量反应变量2023/4/14第12页,共33页,编辑于2022年,星期二131.有应变量的多元分析有应变量的多元分析五、多变量资料五、多变量资料2023/4/14第13页,共33页,编辑于2022年,星期二141.有应变量的多元分析有应变量的多元分析 Y为计量资料且服从正态分布为计量资料且服从正态分布 自变量服从多元正态分布自变量服从多元正态分布 多元线性回归或多元逐步回归分析多元线性回归或多元逐步回归分析五、多变量资料五、多变量资料2023/4/14第14页,共33页,编辑于2022年,星期二151.有应变量的多元分析有应变量的多元分析 Y为判别分类变量为判别分类变量 自变量服从多元正态分布自变量服从多元正态分布 判别分析或逐步判别分析判别分析或逐步判别分析五、多变量资料五、多变量资料2023/4/14第15页,共33页,编辑于2022年,星期二161.有应变量的多元分析有应变量的多元分析 Y为二分类或多分类变量为二分类或多分类变量 以分析危险因素为主要目的以分析危险因素为主要目的 条件或非条件条件或非条件Logistic回归分析回归分析五、多变量资料五、多变量资料2023/4/14第16页,共33页,编辑于2022年,星期二171.有应变量的多元分析有应变量的多元分析 Y为生存时间且含有截尾数据为生存时间且含有截尾数据 Cox比例风险回归分析比例风险回归分析五、多变量资料五、多变量资料2023/4/14第17页,共33页,编辑于2022年,星期二检验统计量与检验统计量与P值值验证原假设(H0)成立与否(检验统计学意义)例如以0.05为界:v如果P0.05,表示否定假设出错的几率大于0.05。2023/4/1418第18页,共33页,编辑于2022年,星期二可信区间(CI):按照一定的概率去估计总体参数所在的范围。95%可信区间的意义为,假如进行100次同样的试验,每次得到的试验组与对照组疗效的差值,会有95次落到该区间中,其意义与显著性水平为5%相当。2023/4/1419第19页,共33页,编辑于2022年,星期二 样本含量估计充分反映科研设计中样本含量估计充分反映科研设计中“重复重复”的原则,过大过的原则,过大过小都有些弊端。样本量过大导致浪费(人力、时间、物力)、小都有些弊端。样本量过大导致浪费(人力、时间、物力)、引入更多混杂因素,对研究结果造成不良影响。样本量过小,导引入更多混杂因素,对研究结果造成不良影响。样本量过小,导致检验效能过低,出现致检验效能过低,出现“假阴性假阴性”结果。结果。样本含量样本含量(sample size)(sample size)是临床科学研究中一个非常是临床科学研究中一个非常重要的组成部分。重要的组成部分。2023/4/1420第20页,共33页,编辑于2022年,星期二 1 1、第一类错误的概率、第一类错误的概率,即检验水准,一般取,即检验水准,一般取0.050.05。2 2、检检验验效效能能(1-1-)或或第第二二类类错错误误的的概概率率 ,是是说说明明备备择择假假设设H H1 1 正正确确的的能能力力,一一般般取取 =0.1=0.1 或或 =0.2=0.2,值值越越大大,检检验验效效能能越越低低,样样本数量也越小。本数量也越小。3 3、总总体体参参数数间间的的差差值值或或误误差差 ,可可通通过过预预试试验验估估计计,或或根根据据需需要要与科研要求由试验者规定。与科研要求由试验者规定。4 4、总总体体标标准准差差 或或总总体体概概率率,一一般般未未知知,多多由由预预试试验验、查查阅阅文文献、经验估计获得,也可作合理的假设。献、经验估计获得,也可作合理的假设。2023/4/1421第21页,共33页,编辑于2022年,星期二1 1、多组设计时,一般要求各组间的样本含量相等。多组设计时,一般要求各组间的样本含量相等。2 2、由于估算样本含量是最少需要量,在受试者中可能有不合作、由于估算样本含量是最少需要量,在受试者中可能有不合作者、中途失访、意外死亡等都会减少有效观察对象,故进行检验者、中途失访、意外死亡等都会减少有效观察对象,故进行检验时须增加时须增加 10%-15%10%-15%。3 3、提高试验效果的一般方法,一般设法缩小总体范围,提高试验效果的一般方法,一般设法缩小总体范围,减少个体变异。减少个体变异。2023/4/1422第22页,共33页,编辑于2022年,星期二 一、总体均数的估计一、总体均数的估计 n=(un=(u 2 2 2 2)/)/2 2 为总体标准差,一般用样本标准差为总体标准差,一般用样本标准差 s s 估计,估计,为容许误差,即样本均数与总体均数的容许差值。为容许误差,即样本均数与总体均数的容许差值。2023/4/1423第23页,共33页,编辑于2022年,星期二 例例1 1、某某医医院院拟拟用用抽抽样样调调查查评评价价本本地地区区健健康康成成人人白白细细胞胞数数的的水水平平,要要求求误误差差不不超超过过0.20.2 10109 9/L/L。据据文文献献报报道道,健健康康成成人人白白细细胞胞数数的的标标准准差差为为1.51.5 10109 9/L/L,问问需需要要调查多少人?调查多少人?2023/4/1424第24页,共33页,编辑于2022年,星期二分析:本例双侧分析:本例双侧 u u0.050.05=1.96,=1.96,=0.2=0.2 10109 9/L,/L,s=1.5 s=1.5 10109 9/L/L 代入公式:代入公式:n=(1.96)n=(1.96)2 2(1.5)(1.5)2 2/(0.2)/(0.2)2 2=216.1=216.1 故:本次至少需调查故:本次至少需调查217217名健康成人的白细胞。名健康成人的白细胞。2023/4/1425第25页,共33页,编辑于2022年,星期二例例3 3、已知血吸虫病人血红蛋白平均含量为、已知血吸虫病人血红蛋白平均含量为9g/100ml,9g/100ml,标准差为标准差为2.5 g/100ml2.5 g/100ml,现研究呋喃丙胺治疗后能使血红蛋,现研究呋喃丙胺治疗后能使血红蛋白量增加,规定治疗前后血红蛋白量升高白量增加,规定治疗前后血红蛋白量升高2 g2 g以上者为有效,以上者为有效,升高升高1 g1 g以下者为无效,求在显著水平是以下者为无效,求在显著水平是0.050.05,设计成功率,设计成功率p=90%p=90%,问应治疗多少人?,问应治疗多少人?2023/4/1426第26页,共33页,编辑于2022年,星期二分析:因为本例只计算有效,所以用单侧检验,分析:因为本例只计算有效,所以用单侧检验,=2-1=1g/100ml、S=2.5g/100ml、2=0.10、2=0.20,查表查表t2=1.645,t2=1.282代入公式:代入公式:n=(t2+t2)s/)2 =(1.645+1.282)2.5/1)2 =53.5 故可认为需要治疗故可认为需要治疗54人,即以人,即以54例进行研究,如该药确实例进行研究,如该药确实有效,则有有效,则有90%(1-)的把握可得出有差别的结论。)的把握可得出有差别的结论。2023/4/1427第27页,共33页,编辑于2022年,星期二 1、有刊物报道、有刊物报道,某厂调查纺织女工子宫下垂者为某厂调查纺织女工子宫下垂者为132人人,其中其中115人为站立工作者人为站立工作者,占占87.12%;坐着工作的有坐着工作的有17人人,占占12.88%。结论为。结论为“站立工作是子宫下垂的患病因素站立工作是子宫下垂的患病因素”。问此。问此项资料是否支持该项结论?项资料是否支持该项结论?5、常见的错误、常见的错误2023/4/1428第28页,共33页,编辑于2022年,星期二 2、研究者为研究研究者为研究ADIADI药物预防肠道传染病的效果,设计如下试验:药物预防肠道传染病的效果,设计如下试验:甲幼儿园随机抽取大、中、小班儿童各甲幼儿园随机抽取大、中、小班儿童各5050名组成试验组,服用名组成试验组,服用 ADI ADI 药物(剂量按年龄、体重严格计算);乙幼儿园随机抽取药物(剂量按年龄、体重严格计算);乙幼儿园随机抽取 大、中、小班儿童各大、中、小班儿童各5050名组成对照组,不服用名组成对照组,不服用ADI ADI 药物。药物。但两个幼儿园参加此项试验的儿童的饮食、作息时间和体育活但两个幼儿园参加此项试验的儿童的饮食、作息时间和体育活 动情况是完全相同的。动情况是完全相同的。2023/4/1429第29页,共33页,编辑于2022年,星期二3、补钙一号对大鼠类固醇性骨质疏松的作用,24只大鼠随机分成3组,每组8只,一组:正常对照组(用生理盐水灌胃);二组:激素组(氢化可的松灌胃);三组:补骨一号合用激素组(氢化可的松灌胃的同时加用补骨一号)。实验一段时间后,测定骨小梁面积等定量指标,经分析,认为补骨一号有预防类固醇性骨质疏松的作用。2023/4/1430第30页,共33页,编辑于2022年,星期二分析:此实验涉及两个因素,激素的用和不用;补骨一号的用和不用。如果两个因素不是相互独立的,存在交互作用则第三组的效应就包括激素、补骨一号及它们的共同作用三方面,而本实验没有设立单用补骨一号组,实际分析不出交互作用,而将交互作用的效应归结为单用补骨粉的效用。应设计为2023/4/1431正常组激素组补骨1号组激素+补骨1号组第31页,共33页,编辑于2022年,星期二2、硬皮病纤维母细胞整合素检测及细胞周期分析,硬皮病患者10例,正常对照(外科手术患者)组9例,无菌条件下取皮损部分组织,采用组织块法进行原代培养,取第2-5代纤维母细胞瘤为研究对象,经荧光标记后,采用细胞流式仪分别测量各组在细胞不同增殖周期(g1期、s期、g2m期)纤维母所占的百分比,结果如下,统计学处理用卡方检验。2023/4/1432正常和硬皮病纤维母细胞增殖周期的比较()组别g1mg2m正常FB90.65 0.14 8.25 0.961.45 0.69硬皮病FB81.60 3.0910.35 4.578.05 1.87x23.380.264.81p0.050.050.05FB:纤维母细胞第32页,共33页,编辑于2022年,星期二 2、某人在研究某药物的治疗铅中毒的驱铅效果时,某人在研究某药物的治疗铅中毒的驱铅效果时,得到如下结果。得到如下结果。30名铅中毒工人脱离现场后住院治疗的结果名铅中毒工人脱离现场后住院治疗的结果 观测指标观测指标 治疗前治疗前 治疗后治疗后 血铅血铅(mg/L)0.181 0.029 0.073 0.019 p0.05 尿铅尿铅(mg/L)0.116 0.009 0.087 0.010 p0.05 2023/4/1433第33页,共33页,编辑于2022年,星期二