2022年研究生医学统计学考点总结.docx
《2022年研究生医学统计学考点总结.docx》由会员分享,可在线阅读,更多相关《2022年研究生医学统计学考点总结.docx(27页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精品_精品资料_基本概念:医学统计学可编辑资料 - - - 欢迎下载精品_精品资料_1. 医学统计学 Statistics:医学统计学是以医学理论为指导,应用概率论与数 理统计的有关原理和方法, 讨论医学资料的搜集、 整理、分析和推断的一门科学.2. 同质和异质:具有相同性质的事物称为同质homogeneous.否就称为异质的或者间杂的 heterogeneous.不同质的个体不能笼统的混在一起分析,同质和 异质是相对的概念.3. 变异:同质事物之间的差别称为变异 variation,亦称个体变异.变异的两个方面:个体与个体间的差别同一个体重复测量值间的差别结果是随机的,不行猜测的.一种或多种
2、不行控因素 已知的或未知的 作用下的综合表现. 个体变异是普遍存在的.个体变异是有规律的.没有个体变异,就没有统计学.4. 总体和样本:总体population:依据讨论目的所确定的同质观看单位的全体.分为有限总体和无限总体.个体individual:是构成总体的最基本观看单位.样本sample :是从总体中依据肯定的目的随机抽取的一部分具有代表性的个体集合.样本含量 sample size:样本中包含的个体个数.5. 参数和统计量:.总体参数 parameter :描述某总体特点的指标,简称参数,一般用希腊字母表示,如: m 、s 、 .可编辑资料 - - - 欢迎下载精品_精品资料_.统计
3、量 statistic:描述某样本特点的指标, 一般用拉丁Xs、p .字母表示, 如: 、可编辑资料 - - - 欢迎下载精品_精品资料_.在总体被确定之后, 总体参数就是一个常数, 是不会变化的, 不管你是否准确知其大小.而统计量是几乎总是随着样本而变的.6. 随机random :是指机会均等,目的是保证样本对总体的代表性、牢靠性.7. 概率和频率:频率 relative frequency :在 n 次随机试验中,大事 A 发生了 m次,就比值 m/n 称为大事 A 在这 n 次试验中显现的频率.概率probability:是随机大事发生可能性大小的一个度量, 是一种参数, 常用 P 表示
4、, 0 P 1.8. 小概率大事和小概率原理:小概率大事:医学讨论中,将概率小于等于0.05 或 0.01 的大事称为小概率大事.小概率原理:小概率大事并不表示不行能发生,但在某一次试验中,是不会发生的.9. 变量的分类:可编辑资料 - - - 欢迎下载精品_精品资料_.依据取值的特性:数值变量 numerical Variable有间隔的意义,可以认为是连续的定量变量:既有次序的意义,又; 往往有单位.取值间的差异是可以度量的.分类变量 categorical Variable定性变量:取值是是分散、定性的,表现为互不相容的类别和属性.无序分类 unordered categorics:无次
5、序,无间隔,仅有分类 二项分类 多项分类.有序分类 ordered categorics等级变量 : 仅有次序,无单位.取值间的差异是不行度量的.不同分类的相互转化数值变量无序分类变量数值变量有序分类变量有序分类变量无序分类变量信息量只有削减,不行增加统计描述指标,出现方式可分为两种统计图:直观,但精确度稍差统计报表:能尽量具体,精确,但不够直观统计推断:从样本信息外推到总体,以最终获得对所感爱好问题的解答参数估量:样本所在总体特点假设检验:该指标可能的影响因素分析频数分布1. 频数表编制步骤 求极差: R=Xmax- Xmin选定适当的组段数后估量组距:组段数的选取以能反映资料的分布特点为宜
6、, 一般取 8 12 组列出组段: 组段的含义 : 包括组段的下限而不含组段的上限.如:3.2等价于 3.2,3.5 .划记归组获得频数求频率,完成频数表 :相应的频数除以总数即为频率,各组段的频率总和为1 或者 100%.2. 频数分布所供应的信息.频数分布图用以表示数据的分布规律.观看有无可疑值.考察分布的类型.对称分布可编辑资料 - - - 欢迎下载精品_精品资料_非对称分布 偏态分布 .左偏态 负偏态:指分布的长尾在峰的左侧.右偏态 正偏态:指分布的长尾在峰的右侧.考察分布的特点集中位置 Central Tendency:描述指标有平均数(算术均数Mean、几何均数 Geometric
7、 Mean、中位数 Median 、百分位数Percentile).离散趋势 Tendencyof Dispersion:描述指标有极差 Range 、四分位数间距 interquartile range、方差Variance 、标准差 Standard Deviation 、 变 异 系 数 coefficient of variation .3. 平均数应用的留意事项:.同质的资料运算平均数才有意义.均数适用于:单峰对称分布的资料.几何均数适用于:对数变换后单峰对称的资料.等比资料、滴度资料、对数正态分布资料.运算几何均数时:变量值中不能有 0同一组变量值不能同时存在正、 负值, 如变量值
8、全为负值, 可先将负号除去,算出结果后再冠以负号.中位数:理论上可用于任何分布资料,常用于描述偏态资料,开口资料, 有不确定值的资料的集中位置. 但当资料适合运算均数或几何均数时, 不宜用中位数.中位数和百分位数在样本含量较少时不稳固,越靠两端越不稳固.中位数在抗极端值的影响方面, 比均数具有较好的稳固性, 但不如均数精确.不同质的资料应考虑分别运算平均数.百分位数:样本含量较少时不宜运算靠近两端的百分位数.平均数要与变异指标结合使用.4. 变异度指标:四分位数间距 inter-quartilerange :QU QL P 75 P 25,即中间一半观2X2222察值的极差.2XXXXXss可
9、编辑资料 - - - 欢迎下载精品_精品资料_N方差及标准差:n1Nn1可编辑资料 - - - 欢迎下载精品_精品资料_变异系数 coefficient of variation, CV:为标准差和均数的比值, 排除了平均水平的影响, 并取消了单位. 因此变异系可编辑资料 - - - 欢迎下载精品_精品资料_数常用于:比较度量衡单位不同的两组或多组资料的变异度比较均数相差悬殊的两组或多组资料的变异度sCV100% X可编辑资料 - - - 欢迎下载精品_精品资料_5. 变异度的正确应用:.极差不稳固,不灵敏.标准差的基本内容是离均差,它显示一组变量值与其均数的间距,故标准可编辑资料 - - -
10、 欢迎下载精品_精品资料_差直接的、总结的、平均的描述了变量值的离散程度.在同质的前提下, 标准差大表示变量值的离散程度大, 即变量值的分布分散、不整齐、波动较大.反之,标准差小表示变量值的离散程度小,即变 量值的分布集中、整齐、波动较小.变异系数派生于标准差, 其应用价值在于排除了平均水平的影响, 并排除了单位.6. 总结:.每个观看指标均有其特定的变异规律.描述变异:图形描述 统计量描述.平均数:均数、几何均数、中位数和百分位数.变异度:极差、方差、标准差、四分位数间距、变异系数.不同分布的指标,用不同的统计量描述.用平均数与变异度共同描述.可编辑资料 - - - 欢迎下载精品_精品资料_
11、正态分布1. 公式:假如随机变量 X 的概率密度函数为f X + X212e -22 X可编辑资料 - - - 欢迎下载精品_精品资料_就称 X 听从正态分布 , 记作 XN m,s2 , 其中, m为分布的均数, s 为分布的标准差. m为总体均数, s 为总体标准差.为圆周率, e 为自然对数的底, X 为变量,代表横轴的数值, f X 为纵轴数值.2. 正态分布的特点(重要) : 单峰分布.高峰在均数处.以均数为中心,均数两侧完全对称.正态分布有两个参数 parameter ,即位置参数 均数 和变异度参数 标准差 .有些指标本身不听从正态分布,但经过变换之后可以听从正态分布.正态曲线下
12、的面积分布有肯定的规律.X轴与正态曲线所夹面积恒等于1 ,对称区域面积相等.m-1.64 s m+1.64 s 内面积为 90%. m-1.96 s m+1.96 s 内面积为 95%. m-2.58 s m+2.58 s 内面积为 99%.可编辑资料 - - - 欢迎下载精品_精品资料_正态分布曲线下的面积与标准正态分布曲线下的面积对应 以标准正态离差为单位 .3. 标准正态分布:标准正态分布 standard normal distribution是均数为 0,标准差为 1的正态分布.记为 N0,1 .标准正态分布是一条曲线.可编辑资料 - - - 欢迎下载精品_精品资料_概率密度函数为:
13、u 1- u 2 2e2 u +可编辑资料 - - - 欢迎下载精品_精品资料_u正态分布转换为标准正态分布:如X N m, s2 ,作变换:X就 u 听从标准正态分布, u 称为标准正态离差 standard normal deviation4. 正态分布的应用:估量频数分布、质量掌握、确定临床参考值范畴参考值范畴 :1. 参考值范畴 referenceinterval:是绝大多数正常人的某观看指标所在的范畴,绝大多数: 90%, 95%,99%等等.确定参考值范畴的意义:用于判定正常与反常. “正常人”的定义:排除了影响所讨论的指标的疾病和有关因素的同质的人群.2. 参考值范畴确定的原就:
14、选定足够例数的同质的正常人作为讨论对象:例数过少, 代表性差. 例数过多增加成本,且易导致正常标准把握不严,影响数据的牢靠性掌握检测误差判定是否分组 性别, 年龄组单、双侧问题 one sided or two sided挑选百分界值 90%,95%确定可疑范畴3. 参考值范畴的估量方法:正态分布法、百分位数法抽样误差1. 概念:由于个体变异的存在,在抽样讨论中产生样本统计量和总体参数之间的差异,称为抽样误差( sampling error).抽样误差的表现:样本均数和总体均数间的差别、 样本均数和样本均数间的差别.2. 中心极限定理 central limit theorem:.从均数为 ,
15、标准差为 的正态总体中随机抽样,样本均数听从均数为可编辑资料 - - - 欢迎下载精品_精品资料_,标准差为n的正态分布X. n可编辑资料 - - - 欢迎下载精品_精品资料_.从均数为 ,标准差为 的任意总体中随机抽样, 当样本含量足够大时,样本均数近似听从均数为 ,标准差为n的正态分布.可编辑资料 - - - 欢迎下载精品_精品资料_3. 标准误 standard error:用样本统计量的标准差来反映抽样误差的大小,可编辑资料 - - - 欢迎下载精品_精品资料_又称标准误.s sXn其中, 为总体标准差, n 为抽样的样本例数可编辑资料 - - - 欢迎下载精品_精品资料_在讨论工作时
16、,由于总体标准差经常未知,可以利用样本标准差近似估量4. 标准误的意义:.反映了样本统计量(样本均数,样本率)分布的离散程度,表达了抽样误差的大小.标准误越大,说明样本统计量(样本均数,样本率)的离散程度越大,即用样本统计量来直接估量总体参数越不行靠.标准误的大小与标准差有关, 在例数 n 肯定时,从标准差大的总体中抽样, 标准误较大.而当总体肯定时,样本例数越多,标准误越小.说明我们可 以通过增加样本含量来削减抽样误差的大小.t 分布1. 依据中心极限定理的内容,当样本含量足够大时,对从均数为,标准差为可编辑资料 - - - 欢迎下载精品_精品资料_ 的任意总体中随机抽样所得的样本均数进行标
17、准化变换,有 X N 0,1n可编辑资料 - - - 欢迎下载精品_精品资料_2. 由于总体标准差往往是未知的,此时往往用样本标准差代替总体标准差:可编辑资料 - - - 欢迎下载精品_精品资料_t3. t分布的性质:X ts n这里, 为自由度,取值为 n-1可编辑资料 - - - 欢迎下载精品_精品资料_.t 分布为一簇单峰分布曲线,高峰在0 的位置上,说明从正态总体中随机抽样所得样本运算出的t 值接近 0 的可能性较大.t 分布以 0 为中心,左右对称.分布的高峰位置比 u 分布低,尾部高.t 分布与自由度 n 有关,自由度越小, t 分布的峰越低,而两侧尾部翘得越高.自由度逐步增大时,
18、 t 分布逐步靠近标准正态分布.当自由度为无穷大时, t 分布就是标准正态分布.每一自由度下的 t 分布曲线都有其自身分布规律.t 界值表 .可信区间1. 统计推断 statisticalinference:是指如何抽样,以及如何用样本性质推断总体特点,分为参数估量parameter estimation、假设检验 hypothesis testing.2. 参数估量:点估量( Point Estimation:用样本统计量作为总体参数的估量.区间估量 Interval Estimation:3. 可信区间定义:按肯定的概率或可信度 1- 用一个区间来估量总体参数所在的范畴,该范畴通常称为参数
19、的可信区间或者置信区间confidence interval,CI, 预先给定的概率 1- 称为可信度或者置信度 confidence level,常取可编辑资料 - - - 欢迎下载精品_精品资料_95%或 99%. 可信区间 CL , CU 是一开区间 C L、CU 称为可信限.4. 可信区间的运算:可编辑资料 - - - 欢迎下载精品_精品资料_样本含量较小时 n100 :下限:Xt, sX上限X: t , sX可编辑资料 - - - 欢迎下载精品_精品资料_样本含量较大时 n100:下限:Xu sX5. 均数之差可信区间的运算:上限:Xu sX可编辑资料 - - - 欢迎下载精品_精品
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年研究生医学统计学考点总结 2022 研究生 医学 统计学 考点 总结
限制150内