肿瘤研究中的统计方法课件.ppt
《肿瘤研究中的统计方法课件.ppt》由会员分享,可在线阅读,更多相关《肿瘤研究中的统计方法课件.ppt(217页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1肿瘤研究中的统计方法肿瘤研究中的统计方法陈万青陈万青全国肿瘤防治研究办公室全国肿瘤登记中心专业课件,精彩无限!主要内容主要内容1统计学基本概念的简介统计学基本概念的简介2统计描述常用指标和分布统计描述常用指标和分布3统计推断统计推断4线性回归线性回归5Logistic回归分析回归分析6生存分析生存分析2专业课件,精彩无限!第一部分第一部分统计学基本概念的简介3专业课件,精彩无限!4医学中统计思维的发展医学中统计思维的发展n1834英国皇家统计学会n1894Pearson现代统计教育Pearson和Galton的努力将其变为高级的应用数学学科,并用于解决医学、生物学问题n1903Lister预
2、防医学研究所创建第一个统计系n统计在医学中的作用开始得到强调和认可强调医学艺术统计艺术强调个人经验科学证据专业课件,精彩无限!5统计医学领域的应用统计医学领域的应用n实验研究-实验数据分析n临床研究-个体临床试验-临床治疗的有效性和安全性临床用某种药物治疗缺铁性贫血的疗效甲:治疗10人,8人有效乙:治疗10人,4人有效临床科研外科医生观察了100例肺癌患者的术后生存情况(月):3,10,20,12,28,70,9专业课件,精彩无限!6统计在医学领域的应用统计在医学领域的应用n公共卫生-人群数据的分析流行病研究-吸烟与肺癌卫生服务-卫生资源需求和利用、医保改革健康统计-医学人口、生长发育、疾病统
3、计等专业课件,精彩无限!7统计在医学领域的应用统计在医学领域的应用n公共卫生-人群数据的分析建模-癌症治疗预后的预测或治疗方法选择通过临床对某肿瘤治疗的有效性和安全性,结合病人的其他指标,建立病人治疗效果的预测或建立治疗方法选择的预测模型理论研究如肿瘤发病的模型、预测根据某地区人群的历史数据,分析未来发病的变化趋势n其他专业课件,精彩无限!统计分析的基本框架统计分析的基本框架8统计学统计学描述性分析描述性分析收集数据收集数据整理数据整理数据评估结论评估结论通过样本信息通过样本信息推断总体特性推断总体特性推断性分析推断性分析估计参数估计参数假设检验假设检验点估计点估计区间估计区间估计比较参数比较
4、参数关联性关联性基本统计量基本统计量专业课件,精彩无限!9统计工作的步骤统计工作的步骤n研究设计:科学、可行的研究设计是研究成败的关键每一项研究的初期就应该考虑统计分析的情况,而非收集到数据之后才考虑统计分析n资料收集与整理:收集:统计报表、工作记录、专题调查或实验整理:原始资料的清理、录入、检查n分析评估:统计描述和统计推断,由样本估计总体,由样本统计量估计总体参数;阐明事物的内在联系和规律,合理呈现专业课件,精彩无限!10统计的作用统计的作用n统计工作在研究中的作用:参与研究的设计、观察和资料的搜集,处理研究阶段与统计相关的问题并提出建议根据统计学原理对资料进行统计分析和推断n统计的目的:
5、通过样本信息推断总体特性专业课件,精彩无限!11n研究个体(观察单位):根据研究目的确定的最基本的研究对象单位,也称观察单位。研究对象根据不同的研究设定有不同的界定,可以是研究的患者,如肺癌患者、乳腺癌患者等,也也可以为正常的对照组对象。基本概念基本概念-个体个体专业课件,精彩无限!12基本概念基本概念-总体总体n总体:根据研究目的确定的同质的所有个体某项观察值(测量值)的集合。实际研究中往往观察/测量多个指标,构成个体的一组观察指标,因此简单的称总体是根据研究目的确定的同质个体的全体。如:某时某地区50岁以上女性乳腺癌发病情况专业课件,精彩无限!13基本概念基本概念-总体总体n总体:有限总体
6、和无限总体:u总体中的个体有限与否研究总体和目标总体:u目标总体:用某药治疗的全部肺癌患者u研究总体:符合研究条件的患者专业课件,精彩无限!14基本概念基本概念-样本样本n样本:样本是研究中实际观测或调查到的那部分个体的集合n样本量:样本中的个体数量n抽样:在研究对象(总体/总体的一部分)中抽取一部分个体样本数据的选取决定总体推论的结果专业课件,精彩无限!15基本概念基本概念-样本样本n在实际工作中,一般不可能或不必要对每个观察单位逐一进行研究。我们只能从中抽取一部分对象加以实际观察或研究,根据对这一部分样本的观察研究结果去推论和估计总体情况。n透过样本数据研究总体规律,通过对样本的分析了解总
7、体的基本情况或推断总体的特征专业课件,精彩无限!16基本概念基本概念-概率和频率概率和频率n随机事件:随机现象的某个可能观察结果。如治疗的结果:治愈和未愈n频率:在n次观察中,随机事件A发生了m次,则A发生的比例为f=m/n。频率呈现随机性和波动性:治愈率不同随着观察次数n的增大,f随机波动幅度减小,并趋于常数概率。专业课件,精彩无限!17基本概念基本概念-概率和频率概率和频率n概率:描述随机事件发生的可能性大小小概率事件原理:小概率事件在一次随机抽样中不会发生小概率事件:随机事件发生的概率小于等于0.05是未知的总体参数(通过样本估计)专业课件,精彩无限!18基本概念基本概念-概率和频率概率
8、和频率n概率:描述随机事件发生的可能性大小(01)小概率事件原理:小概率事件在一次随机抽小概率事件原理:小概率事件在一次随机抽样中不会发生样中不会发生-统计推断的基本思想统计推断的基本思想小概率事件:随机事件发生的概率小于等于0.05是未知的总体参数(通过样本估计)专业课件,精彩无限!19基本概念基本概念-变量变量n变量-所研究的观察对象的一个或几个特征,观察指标n随机变量randomvariable:观察结果是随机的。随机变量分为:连续型资料和离散型资料专业课件,精彩无限!20n变量类型连续型变量-取值范围是一个区间,连续取值离散型变量-取值范围是有限个值或一个数列构成。表示分类情况的离散型
9、变量又称为分类变量基本概念基本概念-变量变量专业课件,精彩无限!21n离散型变量离散型变量-取值范围是有限个值或一个数列构成。表示分类情况时又称为分类变量分类变量:u无序变量无序变量:两分类和多分类如血型,也可用数字进行编码,但没有大小关系。u有序变量或等级变量:有序变量或等级变量:取值为互不相容的类别,而且在研究背景下有等级顺序,如疗效(无效、有效、显效)基本概念基本概念-变量变量专业课件,精彩无限!22n变量的转化变量的转换顺序连续型变量有序变量分类变量变量的转换会导致信息的损失,且变量变量转换不可逆转换不可逆基本概念基本概念-变量变量专业课件,精彩无限!23n变异(variation):
10、指个体的某指标之间的差异性,变异具有普遍性和随机性n同一总体的同质性,不同总体的异质性做统计推论时一般假设来自同一总体的任意两部分的变异属性相同基本概念基本概念-变异变异专业课件,精彩无限!24n同类个体变异在概率意义下是有规律的,表现为观察值出现在不同范围中的概率大小概率大小n同一总体的个体之间的差异具有一定的规律性,以变量值的分布来反映,如正态分布,称为某变量服从正态分布。n任何随机现象或随机变异都有其固有的分布规律,即概率分布,在大量重复观察实验中会呈现其规律性基本概念基本概念-变异变异专业课件,精彩无限!25基本概念基本概念-参数参数n参数:描述总体特征的指标,也称为总体参数。参数可用
11、来确定某一分布的特征;如总体均数,总体发病率参数往往是未知的,一般通过样本估计总体参数专业课件,精彩无限!26基本概念基本概念-统计量统计量n统计量:刻画样本特征的指标。由观察资料计算出来的量;可以用来近似的反映总体参数总体参数n统计的任务:由样本估计总体,由样本统计量估计总体参数专业课件,精彩无限!第二部分第二部分统计描述常用指标和分布27专业课件,精彩无限!统计描述统计描述28n数值型资料:数值型资料:集中趋势:均值(算术、几何)、中位数;离散程度:方差、标准差、变异系数、全距、四分位数、百分位数。频数分布表和频数分布图。n离散型资料(分类资料):离散型资料(分类资料):频数分布:率,结构
12、比、相对比;频数分布表和频数分布图。专业课件,精彩无限!频数分布频数分布29频数分布的两个特征:频数分布的两个特征:集中趋势与离散趋势(共性与个性)频数分布的类型:频数分布的类型:对称分布与偏态分布(集中位置偏向小的一侧叫正偏态,反之叫负偏态)频数表的主要用途:频数表的主要用途:1.揭示分布类型 2.发现特大值和特小值 3.计算集中趋势指标与离散趋势指标专业课件,精彩无限!算术均数算术均数n意义:一组性质相同的观察值在数量上的平均水平。n表示(总体),(样本)n计算:直接法、间接法、软件计算计算n特征:估计误差之和为0。n应用:正态分布或近似正态分布n注意:合理分组,才能求均数,否则算出的均数
13、没有实际意义。30专业课件,精彩无限!几何均数几何均数n意义:N个数值的乘积开N次方即为这N个数的几何均数。n表示:Gn计算:n应用:原始数据分布不对称,经对数转换后呈对称分布的资料。数值范围跨越多个数量级。例如抗体滴度。31专业课件,精彩无限!中位数、百份位数中位数、百份位数n意义:意义:将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。n表示:表示:M、PXn计算:计算:百分位数:将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X百分位数。中位数是百分位的特殊形式。n应用:应用:偏态资料32专业课件,精彩无限!中位数、百份位数中位数、百份位数n偏
14、态资料用算术均数处理会产生什么样偏态资料用算术均数处理会产生什么样的结果?的结果?n正态分布资料用中位数、百份位数处理正态分布资料用中位数、百份位数处理会产生什么样的结果?会产生什么样的结果?33专业课件,精彩无限!标准差标准差n相关概念:离均差、离均差之和、离均差平方和、方差(2S2)n标准差的符号:S(样本)、(总体)n意义:全面反映了一组观察值的变异程度.(越大说明围绕均数越离散,反之说明较集中在均数周围,均数的代表性越好)n应用:描述变异程度、计算标准误、计算变异系数、描述正态分布、估计正常值范围34专业课件,精彩无限!变异系数变异系数n意义:标准差与均数之比用百分数表示。n符号:CV
15、n计算:CV=(S/X)100%n应用:单位不同的多组数据间比较均数相差悬殊的多组资料35专业课件,精彩无限!标准误(标准误(Standarderror)n概念抽样误差:由于抽样引起的样本统计量与总体参数之间的差异。标准误:(xSx)表示抽样误差大小的指标和样本均数的标准差。36专业课件,精彩无限!标准误(标准误(Standarderror)n(均数均数)的标准误的标准误意义:意义:反映抽样误差的大小。标准误越小,反映抽样误差的大小。标准误越小,抽样误差越小,用样本均数估计总体均数的抽样误差越小,用样本均数估计总体均数的可靠性越大。可靠性越大。与样本量的关系:与样本量的关系:S一定,一定,n,
16、标准误,标准误37专业课件,精彩无限!常见分布常见分布n正态分布XN(,2)经过标准变换:标准正态分布XN(0,1)n二项分布XB(n,)nPoisson分布nt分布38专业课件,精彩无限!正态分布正态分布39专业课件,精彩无限!正态分布的特点正态分布的特点40n均数处最高(说明什么?)n均数为中心左右对称n2个参数 N(u,)决定图形的位置和形状 n标准正态分布:N(0,1);n标准正态变换标准正态变换(变换公式变换公式);n曲线下的面积有一定规律专业课件,精彩无限!正态分布曲线下面积正态分布曲线下面积41专业课件,精彩无限!正态分布应用正态分布应用n医学参考值的确定一般用正常人群某指标95
17、%的取值范围作为医学参考值医学参考值的确定方法u百分位数法u双侧双侧(P2.5,P97.5)或单侧单侧P5以上或P95以下u正态分布法1.96Sn质量控制:3倍标准差定义异常值42专业课件,精彩无限!t分布分布43哥塞特(W.S.Gosset,18761937)1908年,哥塞特首次以“学生”(Student)为笔名,在生物计量学杂志上发表了“平均数的概率误差”。由于这篇文章提供了“学生t检验”的基础专业课件,精彩无限!t分布分布44t分布的图形(分布的图形(u分布分布是是t分布分布的特殊形式)的特殊形式)专业课件,精彩无限!t分布分布45nt分布类似于标准正态分布。n标准正态曲线的方差为1,
18、而在小样本时可以证明t是大于1的,而当n无限大时,t趋向于1。n对于小的n值,t分布比标准正态分布要分散些,t依赖于两个随机变量:n当n无限增大时t的变异减少,事实上存在着整个一族的t分布。每一个样本容量n对应该分布族的一个成员。n当n增大时,t分布就接近于正态分布,当n增至30以上时,t分布和正态分布几乎没有区别。专业课件,精彩无限!第三部分第三部分统计推断与假设检验统计推断与假设检验46专业课件,精彩无限!统计推断统计推断47统计描述统计推断(1)统计推断(2)计量资料频数分布集中趋势离散趋势统计图表抽样误差标准误tuF检验秩和检验直线相关与回归偏相关多元线性回归计数资料相对数统计图表u、
19、2检验秩和检验Logistic回归专业课件,精彩无限!统计推断统计推断n统计推断统计推断(Statisticalinference):用样本信息推论总体特征的过程。参数估计参数估计:运用统计学原理,采用样本计算出来的统计指标量对总体指标量进行估计。假设检验:假设检验:又称显著性检验,是指由样本间存在是指由样本间存在的差别对样本所代表的总体间是否存在着差别做出的差别对样本所代表的总体间是否存在着差别做出判断。判断。48专业课件,精彩无限!统计推断统计推断参数:总体的统计指标称为参数(、)统计量:样本的统计指标叫统计量(X、s、p)参数统计:我们介绍的统计推断方法,通常要求样本来自正态总体,或方差
20、齐正态总体,或方差齐等,在这些假设的基础上,对总体参数进行估计和检验,称为参数统计。非参数统计:有许多资料不符合参数统计的要求,不能用参数统计的方法进行检验,而需要一种不依赖于总体分布类型,也不对总体参数进行统计推断的假设检验,称为非参检验非参检验。49专业课件,精彩无限!统计推断统计推断参数估计参数估计n参数估计:用样本统计量估计总体参数。点(值)估计(近似值)点(值)估计(近似值)u用样本均数直接作为总体均数的估计值,未考虑抽样误差。区间估计(近似范围)区间估计(近似范围)u根据样本统计量,按一定的可信度计算出总体参数可能在的一个范围区间,称为总体参数称为总体参数的可信区间(confide
21、nceinterval,CI)50注意:样本估计的区间反应的是总体参数的范围注意:样本估计的区间反应的是总体参数的范围专业课件,精彩无限!区间估计区间估计51公式公式1(xtsx,xt sx)即(xtsx)公式公式2(xusx,xu sx)即(xusx)(1-)可衡量估计的准确度,可衡量估计的准确度,一般用用一般用用取值取值0.05或或0.01,即估计的准确度为,即估计的准确度为95%或或99%专业课件,精彩无限!取值的理解取值的理解小概率原理小概率原理n统计推断:假设某一事件发生的可能性很小,而“一个概率很小的事件在一次一个概率很小的事件在一次实验中一般是不会发生的实验中一般是不会发生的”,
22、所以如果检验的结果显示概率比小则反推出假设是不对的。(小概率原理小概率原理)n取值0.05,实际应用中多取=0.0552专业课件,精彩无限!假设检验假设检验n假设检验也叫显著性检验显著性检验;n假设检验是科研数据处理的重要工具;n为什么要做假设检验?为什么要做假设检验?如果某事发生了,那么发生的原因是由于碰巧?还是由于必然的原因?因此需要运用显著性检验来回答这类问题。n目的:判断由于何种原因造成的不同目的:判断由于何种原因造成的不同53专业课件,精彩无限!假设检验的原理假设检验的原理/思想思想n反证法的思想:当一件事情的发生只有两种可能A和B,为了肯定其中的一种情况A,但又不能直接证实A,这时
23、通过否定另一种可能B而则间接的肯定了A。n概率论(小概率原理):如果一件事情发生的概率很小,那么在进行一次试验时,我们说这个事件是“不会发生的”。从一般的常识可知,这句话在大多数情况下是正确的,但是它一定有犯错误的可能有犯错误的可能,因为概率再小也是有可能发生的。54专业课件,精彩无限!假设检验的一般步骤假设检验的一般步骤n建立假设:检验假设检验假设(H0)与与 被择假设被择假设(H1)n确定显著性水平():一般=0.05n计算统计量:u,t,2,F统计量是在检验假设统计量是在检验假设(H0)(H0)成立的情况下,才会出现成立的情况下,才会出现的分布类型或满足公式的分布类型或满足公式n确定概率
24、值并做出推论根据计算的统计量确定根据计算的统计量确定p p值,与值,与 比较比较55专业课件,精彩无限!假设检验假设检验n当p,即得到大于现有统计量值的可能性p大于,假设H0不属于小概率事件,则不拒绝H0,即认为差异无统计学意义n当p,说明如果H0成立,则得到等于或大于现有统计量的可能性p小于,因此,H0为小概率事件(一次实验不应该出现),则拒绝假设H0,即认为差异有统计意义56专业课件,精彩无限!理解假设检验的结果理解假设检验的结果n思考:思考:n既然在统计检验中既然在统计检验中 表示假设检验犯错的表示假设检验犯错的概率,那么,是不是概率,那么,是不是 的取值越小越好?的取值越小越好?为什么
25、?为什么?57专业课件,精彩无限!理解假设检验的结果理解假设检验的结果n假设检验的结论是根据概率推断的,所以不是绝对正确:当p,不能拒绝H0,不能接受H1,按不能接受H1下结论,也可能犯错误,没有拒绝实际上不成立的H0,这类称为II类类错误错误(“存伪”的错误),其概率大小用 表示值一般不能确切的知道59专业课件,精彩无限!理解假设检验的结果理解假设检验的结果n nI类错误类错误和和II类错误类错误当当样样本量一定本量一定时时,愈小愈小,则则愈大,愈大,反之亦然反之亦然;2.2.当当一定一定时时,样样本量增加本量增加,减少减少.n为了平衡两类错误的大小,为了平衡两类错误的大小,取取值值并不并不
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 肿瘤 研究 中的 统计 方法 课件
限制150内