医学医学统计学绪论.pptx
第一章第一章 绪论绪论统计学与医学统计学医学统计学的内容医学研究的三个步骤三类资料医学统计中的基本概念建立统计学思维第1页/共66页统计学是当今最重要的科学技术之一统计学是当今最重要的科学技术之一 美国“科学84年”杂志选出“20世纪对人类生活影响最大的20项科技成果”;统计学入选其中(其它如:相对论、激光、电视、DNA等).第2页/共66页统计学定义统计学定义:Statistics is the science dealing with the collections,analysis,interpretation and presentation of masses of numerical data.(Webster)Statistics is the science and art of dealing with variation in data through collection,classification and analysis in such a way as to obtain reliable result.(Armitage)第3页/共66页“统计学是收集和分析数据的科学与艺术。统计学是收集和分析数据的科学与艺术。”不列颠百科全书不列颠百科全书 不像其他学科,统计从来不打算使自己完美无缺,统计意味着你永远不需要确定无疑。GudmundR.lversen第4页/共66页Believe it or not?You are using statistics almost every day!我要在中午12:40赶到新街口,12:00走比较好天气预报说今天有70的几率会下雨,我还是带伞吧!我这次找张大夫治疗效果不错,下次还要找他!第5页/共66页医医学学统统计计学学(medical statistics),是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门科学。第6页/共66页数理统计学与生物医学的结合数理统计学与生物医学的结合生物统计学(Biostatistics)应用于生物学研究,又称生物测量学Biometrics医学统计学(Medical Statistics)应用于医学研究,侧重于医学的生物性卫生统计学(Health Statistics)应用于医学研究,侧重于医学的社会性第7页/共66页三个步骤三个步骤:(1)研究设计v运用医学统计学的起点,也是高质量地完成整个研究的重要基础。(2)资料分析v在研究设计基础上,通过实验(试验)或调查,将所得数据进行统计学处理的过程。(3)结论v在数据分析的基础上,应用统计学处理的结果,进行统计学推断;同时,依据相应的专业知识,作出专业性的结论。第8页/共66页Example:第9页/共66页1936年美国总统选举;literary digest,民意调查;堪萨斯州州长A1f landon?当任总统,Franklin D.Roosevelt?电话簿和车辆登记簿上的名单“A1f landon win!”In fact,Franklin win!why?第10页/共66页三类资料三类资料:(1)定量资料(quantitative data)(2)定性资料(qualitative data)(3)等级资料(ranked data,ordinal data)第11页/共66页资料类型的判断资料类型的判断:病例号年龄(岁)性别身高(cm)血型 心电图 尿WBC职业RBC1012/L135女1.65A正常教师4.67244男1.74B正常工人5.21326男1.80O正常职员4.10425女1.61AB正常农民3.92541男1.71A异常+工人3.49645女1.58B正常+工人5.48750女1.60O异常+干部6.78828男1.76AB正常+干部7.10931女1.62O正常军人5.24第12页/共66页另一种分类另一种分类:数值变量资料(numerical variable)分类资料(categorical variable)二分类(binary(dichotomous)variable)多分类(polytomous variable)无序多分类(multinomial)有序多分类(ordinal)(等级资料,ranked data)第13页/共66页数学上的分类数学上的分类连续型资料(continuous data)离散型资料(discrete data)第14页/共66页1950-2003年全国法定传染病报告情况0.001000.002000.003000.004000.005000.006000.007000.008000.00505356596265687174778083868992959801发病率(1/100,000)0.0010.0020.0030.0040.0050.0060.00死亡率(1/100,000)总发病率总死亡率第15页/共66页1950-2003年全国法定报告传染病病死率50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 0 1 2 3012345总病死率(%)1990-2003年全国法定报告传染病病死率90919293949596979899200020012002200300.10.20.30.4第16页/共66页1990-2003年全国甲肝、乙肝发病率010203040506019901991199219931994199519961997199819992000200120022003发病率(1/10万)甲肝发病率乙肝发病率第17页/共66页19852001年全国报告的STD发病率 第18页/共66页近年来全国性病年报告例数不断增加第19页/共66页1989年1998年1995年1985年第20页/共66页1955-2003年全国狂犬病发病率00.10.20.30.40.50.60.70.8195519601965 1970197519801985 199019952000发病率(1/10万)第21页/共66页基本概念(基本概念(1 1):):同质与变异同质与变异:同质同质(homogeneity):观察单位具有相的性质。异质异质(heterogeneity):性质不同。同质性是构成研究总体的必备条件;研究内容(指标/变量)不同,对同质性的要求不同;第22页/共66页制定血红蛋白参考值范围时:第23页/共66页制定白细胞参考值范围时:制定白细胞参考值范围时:第24页/共66页基本概念基本概念(2)(2):个体变异(individual variation)同质个体间的差异。一种或多种不可控因素(已知的或未知的)作用下所产生的反映的综合表现。结果是随机的(无法绝对正确地预测)。个体变异是普遍存在的。个体变异是有规律的。没有个体变异,就没有统计学!第25页/共66页例例1:个体变异的表现个体变异的表现某地所有20岁健康男生的血红蛋白 某地所有20岁健康男生和女生的血红蛋白 江苏和西藏所有20岁健康男生的血红蛋白 某地所有20岁健康男生和女生的白细胞计数 第26页/共66页总体(population)有限总体(finite)无限总体(infinite)个体(individual)样本(random sample)代表性,包含了总体的特性基本概念(基本概念(3 3):):第27页/共66页总体参数(population parameter)未知的,固有的,不变的,!样本统计量(sample statistics)已知的,变化的,有误差的!样本含量(sample size)基本概念(基本概念(4 4):):第28页/共66页基本概念(基本概念(5 5):):随机(random)机会均等随机抽样(random sampling)有相同的机会被抽到随机分组(random allocation)有相同的机会被分到不同的组中第29页/共66页基本概念(基本概念(6 6):):随机变量(random variable),变量个体观察指标第30页/共66页 频率:在n次随机试验中,事件A发生了m次,则比值 称为事件A在这n次试验中出现的频率(frequency)基本概念(基本概念(7):):第31页/共66页频率和概率频率和概率抛硬币试验在概率的统计学定义上的诠释试验者投掷次数出现“正面”次数频率*20120.6000Buffon404020480.5069K.Pearson1200060190.5016K.Pearson24000120120.5005第32页/共66页 概率(probability):描述了随机事件发生的可能性的大小。是一种参数。数理统计学中的大数定理表明:当观察次数n越来越大,频率f 的随机波动幅度越来越小,并最终趋向于一个常数:随机事件A 发生的概率(又称为统计学上的概率定义)。第33页/共66页小概率事件(rare event)小概率原理如果某事件的发生概率很小则在一次试验中,认为不发生。第34页/共66页基本概念基本概念(8)(8):抽样误差(sampling error)由抽样引起的样本统计量与总体参数间的差别原因:个体变异抽样表现:样本统计量与总体参数间的差别不同样本统计量间的差别抽样误差是有规律的!第35页/共66页基本概念汇总基本概念汇总总体个体、个体变异总体参数未知样本代表性、抽样误差随机抽样样本统计量已知统计推断风 险第36页/共66页医学统计学思维医学统计学思维归纳型思维 推理型思维从样本到总体 从个别到一般第37页/共66页建立医学统计学思维建立医学统计学思维 生物体的变异是普遍存在的,这种变异是有规律的;抽样误差是不可避免的,抽样误差是有规律的;统计推断是有风险的,这种风险是可以控制的。第38页/共66页统计学的作用:统计学的作用:统计学上得到的结论都具有概率性,它不能证明什么,但可以提供结论成立或不成立的概率,从而提高研究者的分辨能力,为科学决策提供依据。发现规律,而不是创造规律,统计学不能创造原本不存在的结论。统计方法是一个中立性的工具。第39页/共66页学习医学统计学的要求:学习医学统计学的要求:建立统计学思维学会从不确定性、机遇、风险和推断的角度去思考医学问题提高自身的科学素质和医学研究能力;学会设计结合专业作出严密的试验设计并获得可靠、准确、完整的资料;学会分析与表达学会运用统计方法充分挖掘资料中蕴含的信息,恰如其分地进行理性概括,写出具有科学认证的研究报告和学术论文。第40页/共66页第二章、统计资料的整理与描述第二章、统计资料的整理与描述频数分布描述集中趋势的指标描述离散程度的指标第41页/共66页例例2 2:乱七八糟的原始数据:乱七八糟的原始数据某地120名14岁女童身高(cm)资料如下给我给我一双慧眼吧,让我把这纷扰看个清清楚楚明明白白真真切切142.3156.6142.7145.7138.2141.6142.5130.5134.5148.8134.4148.8137.9151.3140.8149.8145.2141.8146.8135.1150.3133.1142.7143.9151.1144.0145.4146.2143.3156.3141.9140.7141.2141.5148.8140.1150.6139.5146.4143.8143.5139.2144.7139.3141.9147.8140.5138.9134.7147.3138.1140.2137.4145.1145.8147.9150.8144.5137.1147.1142.9134.9143.6142.3125.9132.7152.9147.9141.8141.4140.9141.4160.9154.2137.9139.9149.7147.5136.9148.1134.7138.5138.9137.7138.5139.6143.5142.9129.4142.5141.2148.9154.0147.7152.3146.6132.1145.9146.7144.0135.5144.4143.4137.4143.6150.0143.3146.5149.0142.1140.2145.4142.4148.9146.7139.2139.6142.4138.7139.9第42页/共66页计量资料的频数、频率分布计量资料的频数、频率分布组 段(1)频 数(2)频 率(3)12410.008312820.0167132100.0833136220.1834140370.3083144260.2167148150.125015240.033315620.016716010.0083合 计1201.0000第43页/共66页2.1 2.1 频数分布频数分布原因:由于个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不变的,但也不是杂乱无章的,而是有一定规律的,呈一定的分布(distribution)。现状:医学研究得到的原始数据(raw data)往往是庞大的、混乱的。解决:频数分布的基本思想:将原始数据按照一定的标准划分为若干各组,合计各组的频数,得到频数分布表;在将频数表绘制成频数分布图。第44页/共66页120120名名1414岁女童身高的频数分布图岁女童身高的频数分布图124132140148156164010203040人数身高(cm)第45页/共66页某城市某城市892892名老年人生存质量自评分的频数分布名老年人生存质量自评分的频数分布 0 10 20 30 40 50 60 70 80 90 100 100 200 300 0 400 自评分人数第46页/共66页 102102名黑色素瘤患者的生存时间频数分布名黑色素瘤患者的生存时间频数分布 0 5 10 15 20 25 30 35 40 45 0 1 02 03 040 生存时间(月)人数第47页/共66页某地某年某地某年1000010000例死亡者年龄分布例死亡者年龄分布 0102030405060708001000200030004000死亡年龄(岁)人数第48页/共66页分类资料的频数分布分类资料的频数分布血型频数频率(%)O205 40.43 A112 22.09 B150 29.59 AB 40 7.89合计507100.00第49页/共66页频数分布所提供的信息频数分布所提供的信息频数分布图用以表示数据的分布规律。观察有无可疑值。考察分布的类型。对称分布非对称分布(偏态分布)左偏态(负偏态)右偏态(正偏态)考察分布的特征 集中趋势(Central Tendency)离散程度(Tendency of Dispersion)第50页/共66页289289名近视患者名近视患者LasikLasik术后术后1 1月裸眼视力月裸眼视力Frequencynv0.000.100.200.300.400.500.600.700.800.901.001.10 1.200.0071.00第51页/共66页偏态分布偏态分布1 1:老年人生存质量自评分:老年人生存质量自评分0 10 20 30 40 50 60 70 80 90 100 100 200 300 0 400 自评分人数第52页/共66页偏态分布偏态分布2 2:黑色素瘤患者的生存时间黑色素瘤患者的生存时间0 5 10 15 20 25 30 35 40 45 0 1 02 03 040 生存时间(月)人数第53页/共66页偏态,正偏态和负偏态偏态,正偏态和负偏态分布不对称者称为偏态分布。偏态分布又分为正偏分布和负偏分布。所谓正偏分布是指分布的长尾在峰的右侧,又称右偏分布;所谓负偏分布是指分布的长尾在峰的左侧,又称左偏分布。第54页/共66页集中趋势和离散程度集中趋势和离散程度124132140148156164010203040人数身高(cm)第55页/共66页2.2 2.2 定量资料的统计描述定量资料的统计描述第56页/共66页集中趋势的描述集中趋势的描述算术均数算术均数算术均数(arithmetic mean,mean,)第57页/共66页加权均数(weighted mean)均数是加权均数的一个特例第58页/共66页集中趋势的描述集中趋势的描述几何均数几何均数几何均数(geometric mean,G)第59页/共66页例例3 3、几何均数(、几何均数(P P1414)1:10,1:20,1:40,1:80,1:160第60页/共66页集中趋势的描述集中趋势的描述中位数中位数中位数(median,M)将一组数据按从小到大的顺序排列,位置居中的数即是中位数。The Median is that value for which 50 percent of the observations,when arranged in order of magnitude,lie on each side.第61页/共66页例例4 4、中位数、中位数9例正常人的发汞值:1.1,1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 M=4.810例正常人的发汞值:1.1,1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 16.3 M=(4.8+5.6)/2=5.2 第62页/共66页集中趋势的描述集中趋势的描述百分位数百分位数百分位数(percentile)X%PX (100-X)%50%分位数就是中位数25%,75%分位数称四分位数(quartile)第63页/共66页 描述集中趋势的指标描述集中趋势的指标平均数(Average)算术均数(Mean)几何均数(Geometric Mean)中位数(Median)百分位数(Percentile)第64页/共66页第65页/共66页感谢您的观看!第66页/共66页