统计学基本概念 .ppt
医学统计学的目标医学统计学的目标n掌握基本概念、方法以及技能掌握基本概念、方法以及技能 估计参数的大小,要报告置信区间或者假估计参数的大小,要报告置信区间或者假设检验;申请基金,要说明样本量,设计方案设检验;申请基金,要说明样本量,设计方案 学会经典的统计方法:学会经典的统计方法:t检验、卡方检验、检验、卡方检验、回归相关等回归相关等n不背公式,学会查书,学会应用不背公式,学会查书,学会应用要求要求n重点在课堂重点在课堂n课前预习,带着疑问听课,准备作业本课前预习,带着疑问听课,准备作业本n多看文献,但不可全信文献的方法多看文献,但不可全信文献的方法 70的文献存在错误的文献存在错误n计算器计算器工作生活中常见的统计学问题工作生活中常见的统计学问题n六合彩、体育彩票能否中奖?六合彩、体育彩票能否中奖?(概率论概率论)n明天是否下雨?明天是否下雨?(概率论概率论)n美国的民意测验是如何进行的?美国的民意测验是如何进行的?(设计设计,抽样抽样)n子女象父母,其强度有多大?子女象父母,其强度有多大?(相关与回归相关与回归)n如何判断药物的疗效?如何判断药物的疗效?(假设检验假设检验)n统计学是对令人困惑费解的数字问题做出设想的艺术。n美国总统布什的年薪达到美国总统布什的年薪达到40万美元,在各国元万美元,在各国元首中名列首位,首中名列首位,n根据美国根据美国工作等级年鉴工作等级年鉴:总统一职并未进:总统一职并未进入最好工作之列。入最好工作之列。n在美国,工作环境最好的工作是:统计学家。在美国,工作环境最好的工作是:统计学家。(转引自(转引自2002年年3月月7日日扬子晚报扬子晚报)n在诺贝尔经济学获奖者中,三分之二以上的研在诺贝尔经济学获奖者中,三分之二以上的研究成果与统计和定量分析有关。究成果与统计和定量分析有关。n著名经济学家萨缪尔森在其经典的教科书,著名经济学家萨缪尔森在其经典的教科书,经济学经济学12版中特别提到:版中特别提到:“在许多与经济在许多与经济学有关的学科中,统计学是特别重要的学有关的学科中,统计学是特别重要的”。n1981年,首届国际年,首届国际红楼梦红楼梦研讨会在美国召研讨会在美国召开,威斯康星大学陈炳藻讲师发表开,威斯康星大学陈炳藻讲师发表从词汇上从词汇上的统计论的统计论红楼梦红楼梦作者的问题作者的问题n他从他从字、词出现频率入手字、词出现频率入手,通过计算机进行统,通过计算机进行统计、处理、分析,对计、处理、分析,对红楼梦红楼梦后后40回系高鹗回系高鹗所作这一流行看法提出异议,认为所作这一流行看法提出异议,认为120回均系回均系曹雪芹所作。曹雪芹所作。n例例 1987 1987年某产科医师以医院病案资料研年某产科医师以医院病案资料研究胎次与儿童智力的关系,结果:究胎次与儿童智力的关系,结果:n结论:胎次愈多智力愈差,第一胎智力最结论:胎次愈多智力愈差,第一胎智力最好。好。Yes/No?Yes/No?胎次:一二三四五上大学人数:19181074思考问题思考问题n首先应考虑医院病案资料能否代表自然人群首先应考虑医院病案资料能否代表自然人群n其次应该考虑每胎次上大学人数的比例其次应该考虑每胎次上大学人数的比例n其三是考取大学作为智力指标是否恰当其三是考取大学作为智力指标是否恰当 第一节、医学统计学第一节、医学统计学n医学统计学医学统计学medical statistics:是一门:是一门处理医学数据中变异性的科学与艺术处理医学数据中变异性的科学与艺术,内容包括研究设计、收集、整理、分析内容包括研究设计、收集、整理、分析数据。数据。卫生统计的例子卫生统计的例子n英国英国(1946(1946年年):链霉素治疗肺结核的临床试验链霉素治疗肺结核的临床试验 随机化分组:链霉素加卧床休息、单纯卧随机化分组:链霉素加卧床休息、单纯卧床休息。床休息。独立评价独立评价X X光片光片子结果,链霉素组病人的生子结果,链霉素组病人的生存和放射学改善存和放射学改善都较好都较好卫生统计的例子卫生统计的例子n美国美国(1954(1954年年):评价索尔克(评价索尔克(SalkSalk)疫苗预防)疫苗预防小儿麻痹或死于脊髓灰质炎的效果小儿麻痹或死于脊髓灰质炎的效果 干预试验、现场试验;样本:干预试验、现场试验;样本:180180万儿童;花万儿童;花费:费:500500多万美元。多万美元。随机化随机化分组,最后约有分组,最后约有1/41/4参与者得到了随参与者得到了随机化。这项试验最终肯定了索尔克疫苗的效果机化。这项试验最终肯定了索尔克疫苗的效果第二节、几个基本的概念第二节、几个基本的概念一、同质和变异一、同质和变异n同质:对观察指标产生影响的因素相同同质:对观察指标产生影响的因素相同 广州市广州市7岁男童的身高岁男童的身高n变异变异Variation:在一定条件下,人群:在一定条件下,人群(动物群动物群体体)某种某种生物学指标或者属性生物学指标或者属性不同不同 二、总体与样本二、总体与样本n总体总体(population):是根据:是根据研究目的研究目的确定,确定,同同质的所有观察单位质的所有观察单位的集合,具体指的是某项变的集合,具体指的是某项变量值的集合。量值的集合。n有限总体:研究对象个体数目有限的总体,如有限总体:研究对象个体数目有限的总体,如校内学生构成一个有限总体;校内学生构成一个有限总体;n无限总体:研究对象无限多或不确定的总体,无限总体:研究对象无限多或不确定的总体,如空气中的细菌数。如空气中的细菌数。n样本样本(sample):用:用随机抽样随机抽样的方法从总体中抽的方法从总体中抽出的,出的,有代表性有代表性的一部分个体的一部分个体n随机抽样随机抽样(random sampling):从总体中抽取:从总体中抽取一部分个体时,若每一个体都有同等的机会被一部分个体时,若每一个体都有同等的机会被抽中,如抽签。抽中,如抽签。从总体中抽样,获得样本概率、抽样的理论对样本数据计算统计指标 推论总体推断理论,结果不是完全肯定例子例子n例如从例如从1.5万名中医药大学随机抽取万名中医药大学随机抽取200名学名学生研究其身高生研究其身高n总体:总体:1.5万学生万学生n 样本:样本:200名学生名学生参数和统计量参数和统计量 n参数参数(parameter):描述:描述总体总体某指标分布特征某指标分布特征的值,用希腊字母表示的值,用希腊字母表示n统计量统计量(statistic):指:指样本样本某指标分布特征的某指标分布特征的值,用英文字母表示值,用英文字母表示n1.5万名中医药大学学生的平均身高是万名中医药大学学生的平均身高是170cmn200名学生的平均身高是名学生的平均身高是168cm三、误差三、误差 n误差误差(error):观察值与真值之差:观察值与真值之差 随机误差随机误差系统误差系统误差误差误差随机测量误差随机测量误差抽样误差抽样误差1随机误差随机误差n随机误差是指由于随机误差是指由于偶然的因素偶然的因素引起的,导致统引起的,导致统计量与参数的差异。计量与参数的差异。特点:它是普遍存在,不可能完全消除;它特点:它是普遍存在,不可能完全消除;它的分布存在规律性,服从正态分布;的分布存在规律性,服从正态分布;n例如:个人的身高,抽样误差例如:个人的身高,抽样误差(样本结果跟总样本结果跟总体结果体结果)n随机测量误差:对同一个体,在相同条件下进随机测量误差:对同一个体,在相同条件下进行行多次重复测量多次重复测量,由于随机因素引起的观测值,由于随机因素引起的观测值在允许范围内对其均值的差别。在允许范围内对其均值的差别。n对血清蛋白进行对血清蛋白进行10次测定,每次的结果不尽相次测定,每次的结果不尽相同,每次测量值与均值的差别同,每次测量值与均值的差别2系统误差,也称偏倚系统误差,也称偏倚n在调查或者测量时,由于某些在调查或者测量时,由于某些确定的原因确定的原因造成造成的误差的误差 产生的常见原因:试验方法不当,仪器不准,产生的常见原因:试验方法不当,仪器不准,试剂不纯,操作不符合要求试剂不纯,操作不符合要求n特点:有方向性,要么偏向正方向,要么偏向特点:有方向性,要么偏向正方向,要么偏向负方向;有固定的大小。负方向;有固定的大小。n一般分为选择性偏倚、信息偏倚、混杂偏倚一般分为选择性偏倚、信息偏倚、混杂偏倚四、概率和频率四、概率和频率n概率概率(probability):指理论上某事件发生的可:指理论上某事件发生的可能性大小,用能性大小,用P表示。表示。如抛硬币正面朝上的概率如抛硬币正面朝上的概率P=1/2=0.50=50nP=0 不可能事件不可能事件n0P1 随机事件随机事件nP=1 必然事件必然事件n频率频率(frequency):某随机事件在:某随机事件在n次试验中出次试验中出现了现了m次,则其出现的频率为次,则其出现的频率为f(A)=m/n。n当当n极其增大时,称极其增大时,称f(A)的稳定值为概率。的稳定值为概率。Pearson 投掷次数投掷次数 出现出现“正面正面”频频率率 12000 6019 0.5016 24000 12012 0.5005故事故事n你患了一种非常严重的病,患这种病的人中有你患了一种非常严重的病,患这种病的人中有十分之一的能活下来。但是你不必担心,你来十分之一的能活下来。但是你不必担心,你来到我这里看病非常幸运,到我这里看病非常幸运,n因为最近有九个患者来我这里治疗,他们都死因为最近有九个患者来我这里治疗,他们都死掉了。掉了。n德国哲学家马比德国哲学家马比(Karl Marbe,1961)调查了把调查了把伐利亚州的伐利亚州的4个城镇个城镇200000个人的出生记录,个人的出生记录,他总结到:如果过去几天连续出生的女婴相当他总结到:如果过去几天连续出生的女婴相当多的话,就会增加一对夫妻得到男婴的机会。多的话,就会增加一对夫妻得到男婴的机会。生男孩还是女孩,跟摸球一样生男孩还是女孩,跟摸球一样nCR劳派学生去医院记录该医院出生婴儿的性劳派学生去医院记录该医院出生婴儿的性别,分别记别,分别记M为男婴,为男婴,F为女婴。为女婴。n摸球实验摸球实验(抛硬币实验抛硬币实验),白球用,白球用W,黑球用,黑球用B 小概率事件小概率事件 n把把P0.05或者或者P0.01的随机事件称为小概率的随机事件称为小概率事件。事件。n小概率事件小概率事件在一次试验中,几乎是不可能发生在一次试验中,几乎是不可能发生的的。五、资料五、资料(变量变量)分类分类编号编号体重体重(kg)性别性别血清反应血清反应0155男男 0250女女 0360女女 0465男男3061男男 变量变量(variable):反映个体特征或者属性的数值:反映个体特征或者属性的数值 数值变量数值变量numerical variable:又称计量:又称计量资料,是有一定准确度和精密度的测量值。如资料,是有一定准确度和精密度的测量值。如年龄、身高等年龄、身高等 分类变量分类变量categorical variable:包括二:包括二分类和多分类资料分类和多分类资料分类变量的分类分类变量的分类n二分类变量二分类变量(binary variable),称为,称为0-1变量:变量:例如,疾病例如,疾病(有、无有、无)和结局和结局(生、死生、死)等。二分等。二分类变量常用类变量常用0和和1来编码。来编码。n无序多分类变量无序多分类变量:血型(:血型(A,B,O,AB)n有序多分类有序多分类 ordinal data,又称等级变量,又称等级变量 如您的生活情况:很好,好,一般,差,很差如您的生活情况:很好,好,一般,差,很差类型类型变量值表现变量值表现实例实例数量变数量变量量定量(具体数值)定量(具体数值)身高(身高(cmcm)分类变分类变量量无序无序二分类二分类对立的两类属性对立的两类属性性别(男,女)性别(男,女)多分类多分类不相容的多类属性不相容的多类属性血型(血型(A,B,OA,B,O)有序有序多分类多分类类间有程度差异的属性类间有程度差异的属性文化程度文化程度(初中、初中、高中、大学高中、大学)数据定义数据定义数据记录数据记录编号编号体重体重(kg)性别性别血清反应血清反应XYZ0155男男1 155110250女女0 050000360女女0 260020465男男1365133061男男1 26112计量计量资料资料二分类二分类资料资料等级等级资料资料变量的转化变量的转化 n数据转化:数据转化:转化规则:数值转化规则:数值等级等级二分类变量二分类变量(高高低低)但损失信息但损失信息 低低高高 错误不可能错误不可能n分类资料的赋值分类资料的赋值 性别:男性别:男1,女,女2 文化:初中及以下文化:初中及以下1,高中,高中2,大学及以上,大学及以上3 例子例子n数值资料数值资料:每个人每天的吸烟量(支):每个人每天的吸烟量(支)n等级资料等级资料:0:不吸烟;:不吸烟;1:15支支/天天 2:610支支/天;天;3:1115支支/天天 n二分类二分类:0:不吸烟;:不吸烟;1:1支支/天天第三节、统计工作的基本步骤第三节、统计工作的基本步骤 n第一步:设计,即制定调查研究和实第一步:设计,即制定调查研究和实(试试)验研验研究的计划。究的计划。n第二步:收集资料,即取得准确可靠的原始资第二步:收集资料,即取得准确可靠的原始资料。料。n第三步:整理资料,即对资料进行清理、差错第三步:整理资料,即对资料进行清理、差错并加以存储。并加以存储。n第四步:分析资料,即计算相应指标以反映研第四步:分析资料,即计算相应指标以反映研究对象的内在特征和规律。究对象的内在特征和规律。1.设计设计research designn包括调查设计和实验设计,区别在于研究者对包括调查设计和实验设计,区别在于研究者对研究对象是否进行干预。研究对象是否进行干预。实验设计:实验设计:实验组实验组(中药中药)感冒人群,评价治愈率感冒人群,评价治愈率 处理组处理组(不处理不处理)设计的内容设计的内容n1).查阅文献,专家咨询,掌握国内外研究现状查阅文献,专家咨询,掌握国内外研究现状n2).明确研究目的,研究对象和观察指标明确研究目的,研究对象和观察指标n3).拟定研究类型以及方法(调查、实验)拟定研究类型以及方法(调查、实验)n4).策划研究内容,遵循设计的基本原则,将处理策划研究内容,遵循设计的基本原则,将处理因素、观察单位、效应指标具体化因素、观察单位、效应指标具体化n5).组织安排,培训、预试验预调查、时间进度规组织安排,培训、预试验预调查、时间进度规划划n6).可行性分析,成本预算可行性分析,成本预算2.收集资料收集资料 data collectingn资料来源资料来源1).统计报表统计报表 如机构、人员和床位如机构、人员和床位2).报告卡报告卡 如出生和死亡报告卡、肿瘤报告卡如出生和死亡报告卡、肿瘤报告卡3).日常记录日常记录 如病历、体检表如病历、体检表4).专题调查或实验专题调查或实验 (科研资料为主)(科研资料为主)3.整理资料整理资料 data sortingn1)资料清除,纠错补漏资料清除,纠错补漏n2)数据的计算机录入与核查:两位人员录入同数据的计算机录入与核查:两位人员录入同一份资料,进行核对一份资料,进行核对n3)对数值变量编制频数分布图对数值变量编制频数分布图/相关图,分类资相关图,分类资料编制分类频数表,发现异常值料编制分类频数表,发现异常值n4)分组分组(1)类别分组)类别分组 如按性别、病种分组等如按性别、病种分组等(2)数值分组)数值分组 如划分年龄组、身高组等如划分年龄组、身高组等4.分析资料分析资料 data analyzingn1)描述描述样本数据的特征样本数据的特征n2)统计分析统计分析 估计总体参数的可信区间估计总体参数的可信区间 检验总体参数的差别检验总体参数的差别小结小结n几个基本概念:几个基本概念:总体总体 样本样本 参数参数 统计量统计量 概率概率 频率频率 抽样误差抽样误差 n变量的类型:数值变量和分类变量变量的类型:数值变量和分类变量(有序、无有序、无序序)n统计工作的基本步骤:设计、收集资料、整理统计工作的基本步骤:设计、收集资料、整理资料、分析资料资料、分析资料1 1 下列变量中属于数值变量的是:下列变量中属于数值变量的是:A.A.病人的血型病人的血型 B.B.粪便潜血试验粪便潜血试验+C.C.某地居民乙肝发病状况某地居民乙肝发病状况D.10D.10只小鼠染毒后细胞转化率分别为只小鼠染毒后细胞转化率分别为20%20%,75%75%E.E.临床试验的疗效(治愈、好转、无效)临床试验的疗效(治愈、好转、无效)练习练习n2 2抽样的目的是(抽样的目的是()。)。A A研究样本统计量研究样本统计量 B.B.由样本统计量推断总体参数由样本统计量推断总体参数C C研究典型案例研究误差研究典型案例研究误差 D.D.研究总体统计量研究总体统计量Answer:BAnswer:Bn3参数是指(参数是指()。)。A参与个体数参与个体数 B.总体的统计指标总体的统计指标C样本的统计指标样本的统计指标 D.样本的总和样本的总和Answer:B某种菌苗通过皮下注射,对某种菌苗通过皮下注射,对2020名观察者进行免名观察者进行免疫后观察结果,记录如下疫后观察结果,记录如下请问:(1)变量类型分为几种?(2)以上三种记录各属何种类型的变量?(3)变量类型可以转换吗?就上例进行说明。n(1).变量可以分为数值变量和分类变量n(2).抗体滴度为数值变量,目测抗体水平为有序多分类变量,免疫效果为二分类变量n(3).不可以互相转换,必须从高信息量转化为低信息量n1.统计工作的基本步骤以及内容,请结合具体例子说明。比如调查本班同学身高,调查广州地区的残疾人数量以及生活状况,调查大学生慢性鼻炎的发病情况,心理问题作业作业nThank you!