《中医药统计学与软件应用笔记重点.docx》由会员分享,可在线阅读,更多相关《中医药统计学与软件应用笔记重点.docx(86页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、中医药统计学与软件应用笔记重点绪论统计学家C。R。劳先生在统计与真理怎样运用偶然性中指出:在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学.一、 统计学的概念、发展简史及主要内容1。统计学:是以概率论和数理统计为基础,对研究对象的数据进行搜集、整理和分析,揭示事物总体特征和规律的方法论科学。2。中医统计学:是以概率论和数理统计的原理和方法为基础,以中医理论与实践为主体,通过对数据的搜集、整理和分析,达到探讨中医理论与方法内在规律的目的。3.统计学的发展趋势:依赖数学。与计算机技术结合。与实质性学科、统计软件、现代信息相结合,所发挥的功效日
2、益增强。从描述事物现状、反映事物规律,向抽样推断、预测未来变化方向发展.4.统计学的主要内容研究设计:专业设计、统计学设计 统计学的基本概念、原理和思维方法统计描述:统计指标、统计图表 统计推断:参数估计、假设检验二、统计工作的基本步骤和特点1。统计工作的基本步骤 (1)统计学设计(2)搜集资料:常规保存的记录;现场调查记录;实验/试验记录;医学文献/网络信息。 (3)整理资料:检查;审核;计算机检查;分组.(4)分析资料 2.统计学认识现象的特点24347 5F1B 弛25964 656C 敬cMW(1)数量性:(2)群体性:(3)具体性:(4)概率性: 三、统计学中常用的概念1总体(pop
3、ulation):是根据研究目的确定的同质观察单位的集合.例 河北省18岁男性的身高和体重分布 某性红地2005年健康成年男细胞数 河北省18岁身高在170-175cm男性的体重分布有限总体:指总体限定于特定的空间、时间范围内有限个观察单位。 无限总体:指没有空间和时间范围限制的总体 。2样本(sample):从总体中随机抽取的有代表性的一部分观察单位的集合。样本的可靠性:指总体确定后,样本中的每一个观察单位确属预先规定的同质总体.样本的代表性:即样本能够充分反映总体的真实情况. 3随机(random):即在抽样、分组、安排试验顺序时,让总体中每个受试者或观察单位都有同等的机会被抽中、被分配或
4、被安排,而不受研究者的主观意愿驱使.不能将随机理解为随便。4事件(event):指事物发生某种情况或在调查、观察和实验中获得的某种结果。确定性事件是可预言在一定条件下必然发生的事件,发生的概率为1。随机事件:指一定条件下可能发生也可能不发生的不确定性事件,发生的概率介于01之间.模糊事件:事物本身的含义不确定的现象。5频率(frequency):对于随机事件,在相同的条件下进行了n 次实验,事件发生的次数为,比值/n 为频率,记为fn(A);27388 6AFC 櫼n35425 8A61 詡W概率(probability):描述某随机事件发生的可能性大小,统计符号为, 01,记为P(A)。当
5、时,频率fn(A)概率 P(A)。小概率事件:表示某事件发生的可能性很小,在医学研究中,习惯上把P0.05或P0.01的事件称为小概率事件.6变异(variation):总体中各个体之间的差异性.同质是相对的,研究对象只是在某一方面是性质相同的,同类的观察对象之间往往也存在着变异. 变异是绝对的、客观存在的。7误差(error):指测量值与真值之差。过失误差:也叫粗差.观测者粗心大意造成的误差.系统误差:由于仪器未校准、试剂未标定、观测标准未统一等固定原因造成的误差。测量误差:由事先难于预料的实验或观察条件的随机波动造成的误差.抽样误差:由抽样引起的样本指标(统计量)与总体指标(参数)的差别.
6、8统计量(statistical):是反映样本特征的统计指标。统计符号为小写的英文字母。 如样本均数 、样本标准差s 、样本率p 等.9参数(parameter):是描述总体特征的统计指标。统计符号为小写的希腊字母。 如总体均数、总体标准差、总体率 等。 10.统计资料的类型根据研究目的,对研究对象的某些特征进行观测,将这些观测指标或项目称为变量.变量的具体数值(变量值)构成了统计数据或统计资料.统计资料分为两类: w23007 59DF 姟31768 7C18 簘38466 9642 陂20690 50D2 僒 值变量(numerical variable):亦称定量资料.是指对每个观察单位
7、用计量方法测得某项 数值大小所获得的资料。特点为其变量值大多有度量衡单位,其具体取值通常是正实数(零、正整数和小数)。如身高1。75m、体重68kg、血压9.6kPa、血糖6。8mmol/L。 分类变量(categorical variable):又称定性资料.指对每个观察单位按某一方面的特征、性质或等级分组计数而得到的资料。特点是变量值表现为互不相容的属性或类别,无度量衡单位。分类变量又可分为两类: 序分类变量:又称为名义资料.具体取值通常是具有某种属性或特征的个数。特点是可在非数字中取值,各类之间具有性质上的差异。可分为二分变量和多分变量。二分变量是按互不相容的属性分成两类的资料.多分变量
8、是按某种属性或特征分成两类以上的资料. 序分类变量:亦称等级资料或半定量资料.具体取值也是具有某种属性或特征的个数, 但不同取值之间有半定量的关系.特点是其各类别间有等级、程度或量的差异,即可按数量的相对大小或程度的高低排出顺序.四、学习中医统计学的目的1.顺应中医药学的发展趋势。2.强化中医科研的计划性和科学性。 3.拓宽研究思路。4.学会正确地运用统计方法和合理地解释统计结果.Ck29536 7360 獠IZ20606 507E 偾31406 7AAE 窮五、学习中医统计学的注意事项1理解和领会基本概念和原理,切忌死记硬背。2不追究公式的来源和推导,但要掌握其应用条件。3重视分析问题和解决
9、问题能力的培养。4学会使用统计软件.数值变量资料的统计描述统计描述概念:即利用原始数据,选择适宜的统计指标及统计图表,简明准确地探察数据的分布类型和数量特征的基本统计方法.目的:是根据样本中所包含的信息,客观、正确地推论出其总体规律。第一节 频数分布频数:相同观察值或观察结果出现的次数。分布:指随着随机变量取值的变化,其相应的概率变化的规律性。频数分布:观察值(变量值)按大小分组,各个组段内观察值个数(频数)的分布,是了解数据分布形态特征与规律的基础.一、 频数分布的特征1。集中趋势:指一组变量值的集中倾向或中心位置。2。离散趋势:即一组变量值的离散倾向。二、频数分布的类型1。对称分布:指集中
10、位置居中、左右两侧的 2.非对称分布:亦称偏态分布,是集中位置频数分布基本对称的频数分布。 偏倚、两侧频数的分布不对分为正态分布和非正态分布两 称的频 数分布,可分为正种类型。 偏态和负偏态分布.三、频数分布表/图的作用1。直观地揭示数据的分布类型和特征。30960 78F0 磰26941 693D 椽,;421221 52E5 勥2.便于发现资料中某些远离群体的特大或特小的可疑值。3.描述频数分布的集中趋势与离散趋势。4。便于进一步计算统计指标.四、频数表概念:频数分布表的简称。指观察值或某些类别及其相应的频数按一定顺序排列的表格.例题:随机抽取某地120例正常人,测得血清铜的含量(mol/
11、L)如下表,试编制频数表。13。84 12.53 13.70 14。89 17.53 13。19 18。8214.73 17.44 13。99 14.10 12.29 12.61 14.7814.59 14.71 18。62 19。04 10。95 13。81 10.5313.56 11。48 13.07 16。88 17.04 17。98 12。6711。03 9。23 15.04 14.09 15。90 11.48 14.6413。64 14.39 15.74 13.99 11。31 17.61 16.2613。53 11。68 13。25 11.88 14.21 15。21 15。291
12、3.70 14。45 11.23 19。84 13.11 15。15 11。70频数表的编制方法:1.找极值:Xmax 19.84,X min 9.232.求全距: XmaxX min ,19.849。2310.613。定组数:K=815。37657 9319 錙30067 7573 畳!#$q!4。求组距:i=/( K1)(i为组距,k为组段数,R为全距)i=10.61/(111)=1.06115。确定各组段的上下限:6.归纳计数:某地120名正常成年人血清铜含量频数表组段 频数 频率() (%) 9.00 3 2.5 3 2。510。00 4 3。3 7 5.811。00 12 10。0
13、19 15.812。00 13 10。8 32 26。6 13.00 17 14.2 49 40。814。00 22 18。3 71 59。115。00 18 15。0 89 74.116.00 13 10.8 102 84。917.00 11 9。2 113 94。118.00 5 4。2 118 98.319。00 2 1。7 120 100.0合 计 120 100.0五、频数图37042 90B2 邲B33108 8154 腔35787 8BCB 诋3N27303 6AA7 檧概念:亦称直方图,是以直方的宽度代表组距,以直方的面积大小表示频数的多少、以直方面积在总面积中的比例表示频率大
14、小的图形。等距分组-以横轴表示变量,以纵轴表示频数。不等距分组以横轴表示变量,但纵轴是频数除以组距 。第二节 数值变量资料集中趋势的描述集中趋势:是度量变量值集中位置和平均水平的数量指标,其代表值为平均数。平均数:是描述一组观测值平均水平的指标,是对同质基础上的样本或总体一般特征的表达指标。算术平均数、几何平均数、中位数、众数一、算术平均数1。定义:算术平均数简称均数.是一组观察值的和与观察值个数之商。是数量上的平均。用于说明一组观测值的趋中位置或平均水平。 表示样本均数,m表示总体均数。2。适用条件:正态或近似正态分布的资料。如生理指标。3.计算方法:直接法:有n个观察值,分别为X1,X2,
15、Xn,式中是求和的符号 。例题:10名12岁男孩身高(cm)分别为125。5,126.0,127.0,128.5,147。0,131。0,132。0,141。5,122。5,140.0。求平均数。加权法:用于观察值中相同数据较多或频数表资料.1737.00/12014.48(mol/L)二、几何均数1.定义:个数值连乘积的次方根。是比例或倍数上的平均.统计符号.2.应用条件:等比数列资料。如抗体滴度。 34532 86E4 蛤22838 5936 夶3MMF3。计算方法:例题:6份血清抗体滴度为1:2,1:4,1:8,1:8,1:16,1:32,求平均数。 平均滴度为1:8。三、中位数1。定义
16、:将一组观察值按由小到大的顺序排列,位次居中的数值即中位数。是位次上的平均.统计符号。2。应用条件:不拘分布、分布类型不明或一端无界的资料。如潜伏期、治愈时间和发病年龄。3。计算方法:n为奇数时 n为偶数时 式中 、 及 均为下标,表示有序数列中观察值的位次.例题:某医院用大黄粉治疗胃热血瘀型血证病人9例,其大便转阴天数分别为1、1、2、2、3、4、5、7、10,求其中位数。本例n = 9, M = X5 = 3(天)。如果本例n=10,第10个数值为16天,则 M=(3+4)/2=3。5(天)。 数表法用于观察值例数较多或频数表资料。为所在组段的下限;i为该组段的组距;m为该组段的;n为总例
17、数;fL为小于的各组段的。例题:905例男性银屑病病人的发病年龄年龄 频数f 累计频数f 累计频率p()10 54 54 5.9737573 92C5 鋅35702 8B76 譶36318 8DDE 跞38912 9800 頀24709 6085 悅27834 6CBA 沺10 252 306(f) 33.81 20 346(f) 652 72.0430 128 780 86.1940 84 864 95。4750 29 893 98.6760 5 898 99.2370 7 905(n) 100.0020(10/346)(905/2306)24。23(岁)第三节 数值变量资料的离散趋势描述离
18、散趋势:亦称变异性,是描述一组同质观察值的变异程度大小的指标。不但反映研究指标数值的稳定性和均匀性,而且反映集中性指标的代表性。极差、四分位数间距、方差、标准差、变异系数。变异指标示意(两个学生五门成绩分布)学生 科 目 变异指标 S S CV 78 79 80 81 82 80 4 2.5 1。58 1。98 60 70 80 90 100 80 40 250 15。81 19.76、两个学生五门课程成绩的均数都是80,但各科成绩分布情况却不相同. 较集中,变异较小;较分散,变异较大。一、 40614 9EA6 麦25517 63AD 掭39359 99BF 馿27750 6C66 汦b一、
19、 全距()概念:亦称极差,是一组观察值中最小值与最大值之差,反映个体差异的范围。优点:1。意义明确、计算简便.2。稳定性较差。3。受n大小的影响。4。可应用于任何分布。二、百分位数和四分位间距1。百分位数:是把一组观察值从小到大排列,分为100等份,与位次所对的数值即为第百分之位数。以x表示。 一个x将全部观察值分为两部分,理论上有的观察值比它小,有(100)%的观察值比它大。是一种位置指标.M 即。2.四分位数间距:是上四分位数Q()与下四分位数Q()之差,符号为QR。是中间50观察值的极差。QRQQ用途:常用来描述偏态分布资料分布以及分布的一端或两端无确切数值资料的离散程度. 表示参考值范
20、围 百分位数的另一个重要用途是表示偏态分布资料的参考值范围。例题:905例男性银屑病病人的发病年龄(同前)计算方法:10(10/252)(9050.2554)16。84(岁)30(10/128)(9050。75652)32。09(岁)QR32.0916.8415。25(岁)三、方差概念:方差即离均差平方和的均值。总体方差的符号为,样本方差符号为2.134085 8525 蔥I36233 8D89 趉39443 9A13 験25240 6298 折28365 6ECD 滍优点:由于2利用了每个观察值的信息,反映一批数据变异程度的稳定性和精确性好。缺点:但在运算时需将各个离均差平方,使原度量单位变
21、成平方单位,不便于进行比较.应用条件:要求资料服从正态或近似正态分布。四、标准差概念:方差的平方根。除了具有方差的优点外,还克服了度量单位被平方的不足,运用较方便。总体标准差的符号为,样本标准差的符号为;英文缩写为SD。例题:A学生:n=5,X78+79+80+81+82=400;X2782+792+802+812+82232010B学生:n=5,X=400;X233000用途: 表示正态或近似正态分布的离散程度.描述数值变量的频数分布特征( )。制定医学参考值范围.与均数结合计算变异系数。与样本含量结合计算标准误。五、变异系数概念:一组观察值的标准差与均数的百分比。是相对离散量,无单位。统计
22、符号CV用途:比较度量单位不同或均数相差悬殊时几组样本资料的离散性。 比较实验指标的稳定性及测定方法的精密度。例题:(1)某单位测得28例成年脾虚病人的红细胞数为3.10土0.861012L;血红蛋白值为87.2土33。3gL,试比较该两项指标的变异程度。CVRBC(0。863.10)10027。74;CVHb(33。387。2)100%38。19可认为Hb的变异程度比RBC大。20244 4F14 伔i37211 915B 酛39890 9BD2 鯒34809 87F9 蟹v(2)某单位测得大鼠的血清谷丙转氨酶(ALT)为29.4土1.4,家兔的ALT为52。8土1.5,试比较两种实验动物A
23、LT指标的实验稳定性。CV大鼠(1.429。4)1004。76;CV家兔(1。552.8)1002.84%可认为家兔ALT的实验稳定性较好,应优先考虑以家兔为实验对象进行ALT的有关研究。由该例可知,CV对于改进实验方法,选择最佳实验对象、指标等,都具有一定的实际意义。变异指标:1.极差较粗,适用于任何分布;2.标准差与均数单位相同,最常用,适用于正态及近似正态分布的统计描述;3。集中指标和离散指标分别反映资料的特征,常配套使用:正态分布:算术平均数 标准差 偏态分布:中位数 四分位数间距等比资料:G正态分布及其应用第一节 正态分布某地120例正常人血清铜含量的直方图。设想观察人数逐渐增多组、
24、距不断细分,作直方图。将各直方顶端的中点连接,形成一条光滑的曲线,该曲线即频数曲线或频率曲线,近似于数学上的正态分布曲线。一、 正态分布:又称Gauss分布或常态分布,是一种最重要的连续型分布.正态分布曲线:是高峰位于中央,两侧逐渐下降,左右对称,永远不与横轴相交的曲线.二、正态分布的密度函数(x) f(x)为与x对应的正态曲线的纵坐标高度;为总体均数;为总体标准差;为圆周率,即3.14159;e 为自然对数的底,即2.71828。T40167 9CE7 鳧736764 8F9C 辜d31322 7A5A 穚1三、正态分布的特征1.在X轴上方,均数所在处最高。 2。集中性、对称性和均匀变动性。
25、3.正态分布有两个参数和。 四、标准正态分布 由于不同的正态分布有不同的和,用公式计算的随机变量x落在某个区间内的概率显得非常麻烦。为寻求一个通用的方法,进行标准正态变换 (即u变换): u (x -)/。此变换实质上是作了一个坐标轴的平移和尺度变换,使原来的正态分布变换为0、1的标准正态分布(亦称u分布),记为(0,1)。五、标准正态分布的密度函数 ( u 35425 8A61 詡W由于总体标准差未知,只能求出标准误的估计值,变换公式求t 值,可得到若干t值。将这些t 值绘成直方图,若样本无限多,可绘成一条光滑的曲线-t 分布曲线,此时所得的t 值围绕0呈现的就是t 分布。 2.t 分布的特
26、征:(1)是一簇单峰分布曲线,以0为中心,左右对称。(2)其形态变化与自由度的大小有关-越小,则t值越分散,t 分布曲线越低平,t 分布的峰部越矮而尾部翘得越高;越大,t 分布越逼近正态分布.(3)t分布的单侧概率和双侧概率在t界值表中,横标目为自由度,纵标目为概率(或)。一侧尾部面积称为单侧概率或单尾概率; 两侧尾部面积之和称为双侧概率或双尾概率。表中数字表示当和确定时,对应的t的界值,其中与单尾概率相对应的t界值用表示,与双尾概率相对应的t界值用 表示.查t界值表注意:由于t 分布是以0为中心的对称分布,故附表2只列出正值,查表时,不管t值正负,均可用其绝对值t查表得概率值.相同自由度时,
27、t值增大,概率减小;在相同t值时,双尾概率是单尾概率的两倍。 如双尾 单尾 1。8123.t 分布的用途:总体均数的区间估计;t 检验。第二节 总体均数的估计是根据样本分布的特点,由样本均数推测总体均数的大小及其范围。总体均数估计的方法有点估计和区间估计两种.一、 总体均数的点估计w23007 59DF 姟31768 7C18 簘38466 9642 陂20690 50D2 僒点估计 概念:用样本确定的统计量的值来直接估计总体参数的数值.方法:以样本统计量及其标准误作为被估计参数的点估计值,一般是以统计量加减标准误的方式给出参数的点估计值.优点:方法简单。 缺点:未考虑抽样误差的影响。二、区间
28、估计根据抽样分布原理,按预先给定的概率水准,给出被估计参数可能的数值范围。统计学称这一范围为被估计参数的可信区间(CI)。称预先给定的概率水准为可信度或可信系数,符号为1-,常取95或99 .称按95%或99水准确定的CI为95CI或99CI.1 大样本资料均数的可信区间样本例数足够大(100)时,可按正态分布原理,用以下公式估计总体均数的CI。95%CI 99%CI例题:测得某地296例成年男性发锌的均数为200.0ppm,标准差为21。8ppm。试估计该地成年男性发锌总体均数的95CI。本例296, 200,21。8, 1.27。 95CI200。01。961.27(197。51,202.
29、49)该地成年男性发锌总体均数的95CI为197。51202。4ppm。2.小样本资料均数的可信区间当较小(100)时,一般按t分布原理,用以下公式估计总体均数的CI.95%CI 99CI式中t0。05/2,与t0。01/2,为t0.05与t0.01的双侧界值.Ck30838 7876 硶!Ak32709 7FC5 翅例题:测得某地12例肾虚失钠型哮喘病人甲皱微循环管袢长度的均数为208。33,标准差为67.07。试估计该地肾虚失钠型哮喘病人甲皱微循环管袢长度总体均数的95CI.本例12, 208.33,67。07, 19.36 112111。查t界值表得t0.05/2,112.201,按公式
30、求得:95CI208。332.20119。36(165.72,250。94)该地肾虚失钠型哮喘病人甲皱微循环管袢长度总体均数的95CI为165。72250。943.可信区间的要素(1)准确度:是CI包含总体参数的概率大小,用可信度的大小1表示。可信度越接近1,可信程度越高,准确度越高。如可信度99%比95可信程度高。(2)精密度:是对总体参数的估计范围或长度的度量,反映在CI即长度愈小愈精密。 每一次估计间的差异越小,CI愈小,即CI的长度越小,其估计的精密度越高.4。可信区间的特点(1)当确定后,CI范围的大小与可信度1-的高低呈正比,与估计结果的精密度呈反比.(2)当可信度1确定后,的大小
31、与CI范围的大小呈反比;与估计结果的精密度呈正比。因为增加样本例数会减小标准误,使CI的范围缩小。CI的范围越小,真实值靠近点估计值的可能性越大,靠近CI边缘的可能性越小,估计的精确度也随之提高,其统计效力就越大。5。可信区间与可信限的关系CI为某一整体内的一个分段,是以上、下可信限为界的开区间(不包含界值在内).CU与CL是CI的上下两个界值.如95%CI为(165.6,251.0)。165。6是CI的下限(L),251。0为CI的上限(U)。6.CI与参考值范围的比较(1)可信区间:是参数的估计范围,需用标准误(SE)计算,表示总体指标的可能范围.(2)参考值范围:表示大多数正常人的解剖、生理、生化某项指标的波动范围,需用标准差计算,用于判断观察对象的某项指标正常与否。32262 7E06 縆,030392 76B8 皸36558 8ECE 軎3P22524 57FC 埼假设检验一、 假设检验的概念与分类概念:亦称显著性检验,是利用样本信息,根据一定的概率水准,推断样本指标(统计量) 与总体指标(参数)、不同样本指标间的差别有无意义的统计分析方法。(一) 参数检验和非参数检验1.参数检验 概念:依赖总体分布的具体形式的统计方法,简称参数法。常用的参数法有2 检验、t 检验、检验等。使用条件是抽样总体的分布已知。优点:能充分利用样本信息;
限制150内