中医药统计学与软件应用笔记重点.docx
中医药统计学与软件应用笔记重点绪论统计学家C。R。劳先生在统计与真理怎样运用偶然性中指出:在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学.一、 统计学的概念、发展简史及主要内容1。统计学:是以概率论和数理统计为基础,对研究对象的数据进行搜集、整理和分析,揭示事物总体特征和规律的方法论科学。2。中医统计学:是以概率论和数理统计的原理和方法为基础,以中医理论与实践为主体,通过对数据的搜集、整理和分析,达到探讨中医理论与方法内在规律的目的。3.统计学的发展趋势:依赖数学。与计算机技术结合。与实质性学科、统计软件、现代信息相结合,所发挥的功效日益增强。从描述事物现状、反映事物规律,向抽样推断、预测未来变化方向发展.4.统计学的主要内容研究设计:专业设计、统计学设计 统计学的基本概念、原理和思维方法统计描述:统计指标、统计图表 统计推断:参数估计、假设检验二、统计工作的基本步骤和特点1。统计工作的基本步骤 (1)统计学设计(2)搜集资料:常规保存的记录;现场调查记录;实验/试验记录;医学文献/网络信息。 (3)整理资料:检查;审核;计算机检查;分组.(4)分析资料 2.统计学认识现象的特点24347 5F1B 弛25964 656C 敬cMW(1)数量性:(2)群体性:(3)具体性:(4)概率性: 三、统计学中常用的概念1总体(population):是根据研究目的确定的同质观察单位的集合.例 河北省18岁男性的身高和体重分布 某性红地2005年健康成年男细胞数 河北省18岁身高在170-175cm男性的体重分布有限总体:指总体限定于特定的空间、时间范围内有限个观察单位。 无限总体:指没有空间和时间范围限制的总体 。2样本(sample):从总体中随机抽取的有代表性的一部分观察单位的集合。样本的可靠性:指总体确定后,样本中的每一个观察单位确属预先规定的同质总体.样本的代表性:即样本能够充分反映总体的真实情况. 3随机(random):即在抽样、分组、安排试验顺序时,让总体中每个受试者或观察单位都有同等的机会被抽中、被分配或被安排,而不受研究者的主观意愿驱使.不能将随机理解为随便。4事件(event):指事物发生某种情况或在调查、观察和实验中获得的某种结果。确定性事件是可预言在一定条件下必然发生的事件,发生的概率为1。随机事件:指一定条件下可能发生也可能不发生的不确定性事件,发生的概率介于01之间.模糊事件:事物本身的含义不确定的现象。5频率(frequency):对于随机事件,在相同的条件下进行了n 次实验,事件发生的次数为,比值/n 为频率,记为fn(A);27388 6AFC 櫼n>35425 8A61 詡W概率(probability):描述某随机事件发生的可能性大小,统计符号为, 01,记为P(A)。当 时,频率fn(A)概率 P(A)。小概率事件:表示某事件发生的可能性很小,在医学研究中,习惯上把P0.05或P0.01的事件称为小概率事件.6变异(variation):总体中各个体之间的差异性.同质是相对的,研究对象只是在某一方面是性质相同的,同类的观察对象之间往往也存在着变异. 变异是绝对的、客观存在的。7误差(error):指测量值与真值之差。过失误差:也叫粗差.观测者粗心大意造成的误差.系统误差:由于仪器未校准、试剂未标定、观测标准未统一等固定原因造成的误差。测量误差:由事先难于预料的实验或观察条件的随机波动造成的误差.抽样误差:由抽样引起的样本指标(统计量)与总体指标(参数)的差别.8统计量(statistical):是反映样本特征的统计指标。统计符号为小写的英文字母。 如样本均数 、样本标准差s 、样本率p 等.9参数(parameter):是描述总体特征的统计指标。统计符号为小写的希腊字母。 如总体均数、总体标准差、总体率 等。 10.统计资料的类型根据研究目的,对研究对象的某些特征进行观测,将这些观测指标或项目称为变量.变量的具体数值(变量值)构成了统计数据或统计资料.统计资料分为两类: w23007 59DF 姟31768 7C18 簘38466 9642 陂20690 50D2 僒 值变量(numerical variable):亦称定量资料.是指对每个观察单位用计量方法测得某项 数值大小所获得的资料。特点为其变量值大多有度量衡单位,其具体取值通常是正实数(零、正整数和小数)。如身高1。75m、体重68kg、血压9.6kPa、血糖6。8mmol/L。 分类变量(categorical variable):又称定性资料.指对每个观察单位按某一方面的特征、性质或等级分组计数而得到的资料。特点是变量值表现为互不相容的属性或类别,无度量衡单位。分类变量又可分为两类: 序分类变量:又称为名义资料.具体取值通常是具有某种属性或特征的个数。特点是可在非数字中取值,各类之间具有性质上的差异。可分为二分变量和多分变量。二分变量是按互不相容的属性分成两类的资料.多分变量是按某种属性或特征分成两类以上的资料. 序分类变量:亦称等级资料或半定量资料.具体取值也是具有某种属性或特征的个数, 但不同取值之间有半定量的关系.特点是其各类别间有等级、程度或量的差异,即可按数量的相对大小或程度的高低排出顺序.四、学习中医统计学的目的1.顺应中医药学的发展趋势。2.强化中医科研的计划性和科学性。 3.拓宽研究思路。4.学会正确地运用统计方法和合理地解释统计结果.Ck29536 7360 獠IZ20606 507E 偾31406 7AAE 窮五、学习中医统计学的注意事项1理解和领会基本概念和原理,切忌死记硬背。2不追究公式的来源和推导,但要掌握其应用条件。3重视分析问题和解决问题能力的培养。4学会使用统计软件.数值变量资料的统计描述统计描述概念:即利用原始数据,选择适宜的统计指标及统计图表,简明准确地探察数据的分布类型和数量特征的基本统计方法.目的:是根据样本中所包含的信息,客观、正确地推论出其总体规律。第一节 频数分布频数:相同观察值或观察结果出现的次数。分布:指随着随机变量取值的变化,其相应的概率变化的规律性。频数分布:观察值(变量值)按大小分组,各个组段内观察值个数(频数)的分布,是了解数据分布形态特征与规律的基础.一、 频数分布的特征1。集中趋势:指一组变量值的集中倾向或中心位置。2。离散趋势:即一组变量值的离散倾向。二、频数分布的类型1。对称分布:指集中位置居中、左右两侧的 2.非对称分布:亦称偏态分布,是集中位置频数分布基本对称的频数分布。 偏倚、两侧频数的分布不对分为正态分布和非正态分布两 称的频 数分布,可分为正种类型。 偏态和负偏态分布.三、频数分布表/图的作用1。直观地揭示数据的分布类型和特征。30960 78F0 磰26941 693D 椽,;421221 52E5 勥2.便于发现资料中某些远离群体的特大或特小的可疑值。3.描述频数分布的集中趋势与离散趋势。4。便于进一步计算统计指标.四、频数表概念:频数分布表的简称。指观察值或某些类别及其相应的频数按一定顺序排列的表格.例题:随机抽取某地120例正常人,测得血清铜的含量(mol/L)如下表,试编制频数表。13。84 12.53 13.70 14。89 17.53 13。19 18。8214.73 17.44 13。99 14.10 12.29 12.61 14.7814.59 14.71 18。62 19。04 10。95 13。81 10.5313.56 11。48 13.07 16。88 17.04 17。98 12。6711。03 9。23 15.04 14.09 15。90 11.48 14.6413。64 14.39 15.74 13.99 11。31 17.61 16.2613。53 11。68 13。25 11.88 14.21 15。21 15。2913.70 14。45 11.23 19。84 13.11 15。15 11。70频数表的编制方法:1.找极值:Xmax 19.84,X min 9.232.求全距: XmaxX min ,19.849。2310.613。定组数:K=815。37657 9319 錙30067 7573 畳!#$q!4。求组距:i=/( K1)(i为组距,k为组段数,R为全距)i=10.61/(111)=1.06115。确定各组段的上下限:6.归纳计数:某地120名正常成年人血清铜含量频数表组段 频数 频率() (%) 9.00 3 2.5 3 2。510。00 4 3。3 7 5.811。00 12 10。0 19 15.812。00 13 10。8 32 26。6 13.00 17 14.2 49 40。814。00 22 18。3 71 59。115。00 18 15。0 89 74.116.00 13 10.8 102 84。917.00 11 9。2 113 94。118.00 5 4。2 118 98.319。00 2 1。7 120 100.0合 计 120 100.0五、频数图37042 90B2 邲B33108 8154 腔35787 8BCB 诋3N27303 6AA7 檧概念:亦称直方图,是以直方的宽度代表组距,以直方的面积大小表示频数的多少、以直方面积在总面积中的比例表示频率大小的图形。等距分组-以横轴表示变量,以纵轴表示频数。不等距分组以横轴表示变量,但纵轴是频数除以组距 。第二节 数值变量资料集中趋势的描述集中趋势:是度量变量值集中位置和平均水平的数量指标,其代表值为平均数。平均数:是描述一组观测值平均水平的指标,是对同质基础上的样本或总体一般特征的表达指标。算术平均数、几何平均数、中位数、众数一、算术平均数1。定义:算术平均数简称均数.是一组观察值的和与观察值个数之商。是数量上的平均。用于说明一组观测值的趋中位置或平均水平。 表示样本均数,m表示总体均数。2。适用条件:正态或近似正态分布的资料。如生理指标。3.计算方法:直接法:有n个观察值,分别为X1,X2,Xn,式中是求和的符号 。例题:10名12岁男孩身高(cm)分别为125。5,126.0,127.0,128.5,147。0,131。0,132。0,141。5,122。5,140.0。求平均数。加权法:用于观察值中相同数据较多或频数表资料.1737.00/12014.48(mol/L)二、几何均数1.定义:个数值连乘积的次方根。是比例或倍数上的平均.统计符号.2.应用条件:等比数列资料。如抗体滴度。 34532 86E4 蛤22838 5936 夶3MMF3。计算方法:例题:6份血清抗体滴度为1:2,1:4,1:8,1:8,1:16,1:32,求平均数。 平均滴度为1:8。三、中位数1。定义:将一组观察值按由小到大的顺序排列,位次居中的数值即中位数。是位次上的平均.统计符号。2。应用条件:不拘分布、分布类型不明或一端无界的资料。如潜伏期、治愈时间和发病年龄。3。计算方法:n为奇数时 n为偶数时 式中 、 及 均为下标,表示有序数列中观察值的位次.例题:某医院用大黄粉治疗胃热血瘀型血证病人9例,其大便转阴天数分别为1、1、2、2、3、4、5、7、10,求其中位数。本例n = 9, M = X5 = 3(天)。如果本例n=10,第10个数值为16天,则 M=(3+4)/2=3。5(天)。 数表法用于观察值例数较多或频数表资料。为所在组段的下限;i为该组段的组距;m为该组段的;n为总例数;fL为小于的各组段的。例题:905例男性银屑病病人的发病年龄年龄 频数f 累计频数f 累计频率p()10 54 54 5.9737573 92C5 鋅35702 8B76 譶36318 8DDE 跞38912 9800 頀24709 6085 悅27834 6CBA 沺10 252 306(f) 33.81 20 346(f) 652 72.0430 128 780 86.1940 84 864 95。4750 29 893 98.6760 5 898 99.2370 7 905(n) 100.0020(10/346)(905/2306)24。23(岁)第三节 数值变量资料的离散趋势描述离散趋势:亦称变异性,是描述一组同质观察值的变异程度大小的指标。不但反映研究指标数值的稳定性和均匀性,而且反映集中性指标的代表性。极差、四分位数间距、方差、标准差、变异系数。变异指标示意(两个学生五门成绩分布)学生 科 目 变异指标 S S CV 78 79 80 81 82 80 4 2.5 1。58 1。98 60 70 80 90 100 80 40 250 15。81 19.76、两个学生五门课程成绩的均数都是80,但各科成绩分布情况却不相同. 较集中,变异较小;较分散,变异较大。一、 40614 9EA6 麦25517 63AD 掭39359 99BF 馿27750 6C66 汦b一、 全距()概念:亦称极差,是一组观察值中最小值与最大值之差,反映个体差异的范围。优点:1。意义明确、计算简便.2。稳定性较差。3。受n大小的影响。4。可应用于任何分布。二、百分位数和四分位间距1。百分位数:是把一组观察值从小到大排列,分为100等份,与位次所对的数值即为第百分之位数。以x表示。 一个x将全部观察值分为两部分,理论上有的观察值比它小,有(100)%的观察值比它大。是一种位置指标.M 即。2.四分位数间距:是上四分位数Q()与下四分位数Q()之差,符号为QR。是中间50观察值的极差。QRQQ用途:常用来描述偏态分布资料分布以及分布的一端或两端无确切数值资料的离散程度. 表示参考值范围 百分位数的另一个重要用途是表示偏态分布资料的参考值范围。例题:905例男性银屑病病人的发病年龄(同前)计算方法:10(10/252)×(905×0.2554)16。84(岁)30(10/128)×(905×0。75652)32。09(岁)QR32.0916.8415。25(岁)三、方差概念:方差即离均差平方和的均值。总体方差的符号为,样本方差符号为2.134085 8525 蔥I36233 8D89 趉39443 9A13 験25240 6298 折28365 6ECD 滍优点:由于2利用了每个观察值的信息,反映一批数据变异程度的稳定性和精确性好。缺点:但在运算时需将各个离均差平方,使原度量单位变成平方单位,不便于进行比较.应用条件:要求资料服从正态或近似正态分布。四、标准差概念:方差的平方根。除了具有方差的优点外,还克服了度量单位被平方的不足,运用较方便。总体标准差的符号为,样本标准差的符号为;英文缩写为SD。例题:A学生:n=5,X78+79+80+81+82=400;X2782+792+802+812+82232010B学生:n=5,X=400;X233000用途: 表示正态或近似正态分布的离散程度.描述数值变量的频数分布特征( ±)。制定医学参考值范围.与均数结合计算变异系数。与样本含量结合计算标准误。五、变异系数概念:一组观察值的标准差与均数的百分比。是相对离散量,无单位。统计符号CV用途:比较度量单位不同或均数相差悬殊时几组样本资料的离散性。 比较实验指标的稳定性及测定方法的精密度。例题:(1)某单位测得28例成年脾虚病人的红细胞数为3.10土0.86×1012L;血红蛋白值为87.2土33。3gL,试比较该两项指标的变异程度。CVRBC(0。863.10)×10027。74;CVHb(33。387。2)×100%38。19可认为Hb的变异程度比RBC大。20244 4F14 伔i37211 915B 酛>39890 9BD2 鯒34809 87F9 蟹v(2)某单位测得大鼠的血清谷丙转氨酶(ALT)为29.4土1.4,家兔的ALT为52。8土1.5,试比较两种实验动物ALT指标的实验稳定性。CV大鼠(1.429。4)×1004。76;CV家兔(1。552.8)×1002.84%可认为家兔ALT的实验稳定性较好,应优先考虑以家兔为实验对象进行ALT的有关研究。由该例可知,CV对于改进实验方法,选择最佳实验对象、指标等,都具有一定的实际意义。变异指标:1.极差较粗,适用于任何分布;2.标准差与均数单位相同,最常用,适用于正态及近似正态分布的统计描述;3。集中指标和离散指标分别反映资料的特征,常配套使用:正态分布:算术平均数 标准差 偏态分布:中位数 四分位数间距等比资料:G正态分布及其应用第一节 正态分布某地120例正常人血清铜含量的直方图。设想观察人数逐渐增多组、距不断细分,作直方图。将各直方顶端的中点连接,形成一条光滑的曲线,该曲线即频数曲线或频率曲线,近似于数学上的正态分布曲线。一、 正态分布:又称Gauss分布或常态分布,是一种最重要的连续型分布.正态分布曲线:是高峰位于中央,两侧逐渐下降,左右对称,永远不与横轴相交的曲线.二、正态分布的密度函数(x) f(x)为与x对应的正态曲线的纵坐标高度;为总体均数;为总体标准差;为圆周率,即3.14159;e 为自然对数的底,即2.71828。T40167 9CE7 鳧736764 8F9C 辜d31322 7A5A 穚1三、正态分布的特征1.在X轴上方,均数所在处最高。 2。集中性、对称性和均匀变动性。3.正态分布有两个参数和。 四、标准正态分布 由于不同的正态分布有不同的和,用公式计算的随机变量x落在某个区间内的概率显得非常麻烦。为寻求一个通用的方法,进行标准正态变换 (即u变换): u (x -)/。此变换实质上是作了一个坐标轴的平移和尺度变换,使原来的正态分布变换为0、1的标准正态分布(亦称u分布),记为(0,1)。五、标准正态分布的密度函数 (< u <) 式中(u)为标准正态分布的密度函数,即纵坐标高度。六、正态曲线下面积分布的规律:七、正态分布的应用1。统计分析方法的基础:很多抽样分布,如卡方分布、t分布都是建立在正态分布的基础上。2.质量控制:为了控制检测误差,常以 ±2作为上下警戒线; ±3作为上下控制。 3。估计医学参考值范围. 4.进行参数估计和假设检验。第二节正态分布的应用 一、 可根据正态分布的规律估计观察值的频数分布范围。 例题 已知某地120名正常人血浆铜含量(mol/L)的均数14。48、2.27,估计该地120名正常人血浆铜含量在14.2015。60(mol/L)范围内的人数. 1.计算u值 当和未知时,u(x)/s。L 22392 5778 坸,25071 61EF 懯35340 8A0C 訌34363 863B 蘻24262 5EC6 廆x114.20,u1(14。2014.48)/2。270。12x215。60,u2(15.6014。48)/2.270。49 2。查表 0.12左侧的面积就是 0。12右侧的面积。当u0。12时,在表的左侧找到0。1,在表的上方找到0。02,二者相交处为0.5478,(0.12)10.54780。4522,即标准正态变量u值小于-0。12的概率为0.4522; 当u0.49时,(0.49)0.6879,即u值小于0。49的概率为0。6879.3。确定概率u值在-0。120。49范围内的面积为:(0。49)(-0。12) 0.68790。45220.2357,即血浆铜含量在14.2015。60(mol/L)范围内的概率为23.57。4。估计区间内人数120名正常人血清铜含量在14.2015.60(mol/L)范围的人数为120×23.57%28人二 、制定医学参考值范围1、医学参考值的意义医学参考值:是指包括绝大多数正常人的解剖、生理、生化、免疫、组织或排泄物中成分的测量值。 医学参考值范围虑到变异的影响,提高参考值作为判定正常或异常的可靠性所确定的绝大多数正常人医学参考值的波动范围。使用“参考值范围"的目的:个体-临床上划分正常人与异常人的参考。人群制订不同性别、年龄儿童某项发育指标的等级标准,用来评价儿童的发育水平等。2、制定参考值范围的步骤选定健康人作为调查对象。控制测量误差。确定样本含量.根据实际意义分组。决定取单侧还是双侧界限.选定适当的百分界限。常用95、80 、90、99等。23816 5D08 崈7S21945 55B9 喹22561 5821 堡(31853 7C6D 籭制定医学参考值范围.3、制定参考值范围的常用方法正态分布法 适用于正态或近似正态分布的资料。 表达式为,为正态曲线下单侧或双侧尾部的面积,u为相应的标准正态离差。双侧95的界限值为:单侧95的上限值为:单侧95%的下限值为:例题:某地调查正常成年男子144人的红细胞数,得均数5.38(1012/L),标准差0。44(1012/L),试估计该地成年男子红细胞数的95%参考值范围。 因红细胞数过多或过少均为异常,用双侧界值. 下限: - 1。96s=5.38-1。96 ×0.44 =4。52 上限: + 1.96s=5.38+1.96×0。44 =6。24 该地成年男子红细胞数的95%参考值范围(4。526。24)1012/L 。百分位数法:是利用两个百分位数作为双侧参考值范围的上、下限,或者用一个百分位数作为参考值的上限或下限。 适用于非正态分布或分布未知的资料. 1)双侧95参考值范围: P2。5P97。5 2)单侧95%参考值范围上限值:P95 3)单侧95参考值范围下限值:P5总体均数的估计参数估计:是通过样本信息估计其总体相应指标的数值及数值范围的统计分析方法,即用统计量估计总体参数的方法,是统计推断的一个重要方面。第一节 抽样分布与抽样误差p30513 7731 眱VgG医学科研的常用方法是抽样研究.由于个体差异的存在,测算的样本指标值很难恰好等于总体指标值。这种由个体差异和抽样造成的样本与总体、样本与样本相应统计指标之间的差异即抽样误差。一、样本均数的抽样分布与标准误1.样本均数的抽样分布:指某种统计量的频数分布。用样本统计量作为该样本的代表值,这些个样本代表值的大小就形成了一个抽样分布.2。抽样分布的特点:(1)各统计量间存在差异,统计量不一定等于参数.(2)统计量的变异范围比原变量的变异范围大大缩小.(3)随着n增加,样本均数的变异程度减小。(4)如果原始变量服从正态分布,则统计量也服从正态分布。 如果原始变量不服从正态分布,若n较大,则统计量服从正态分布;若n较小,则统计量为非正态分布。3抽样误差:是因抽样产生的样本与样本、样本与总体相应统计指标之间的差异。由于存在个体差异,且样本又未包含总体的全部信息,因此抽样误差是无法避免的。抽样误差的大小主要取决于样本含量的多少和研究指标的变异程度。4。标准误:表示样本指标值在抽样分布中的变异情况.SE越小,说明抽样误差越小,用统计量来估计参数时的可靠程度越大;反之,SE越大,说明抽样误差越大,用统计量来估计参数时越不可靠。均数的标准误:样本均数的标准差也称均数的标准误。反映样本均数间的离散程度,反映样本均数与相应总体均数间的差异,说明均数抽样误差的大小。估计标准误:由于往往未知,常以S替代,算得的标准误称估计标准误。其统计符号。由于标准误与抽样误差成正比,与样本均数的代表性成反比,故在实际工作中可将标准误作为描述统计指标可靠性的依据。24347 5F1B 弛25964 656C 敬cMW5.标准差与标准误的比较标准差均属标准误意义描述个体观察值之间的离散性(变异程度)描述同一总体中随机抽出样本含量相同的多个样本均数间的离散性公式与n的关系随着n的增大逐渐趋于稳定随着n的增大逐渐减小,与n的平方根成反比。用途表示观察值得变异大小;结合样本均数描述正态分布的特征;在正态分布时做参考值范围的估计;计算变异系数和均数的标准误表示样本均数抽样误差的大小;描述样本均数的可靠性;结合样本均数估计总体均数的CI;进行均数间差别的假设检验例题:已知某样本资料的2.27(mol/L),120,求其标准误。代入公式得:二、t 分布及其应用1.t 分布:若对正态分布总体多次重复抽取若干样本含量相同的样本,样本均数围绕总体均数呈现正态分布。若将所有样本均数按公式进行数学变换,可得 u 围绕0的标准正态分布。27388 6AFC 櫼n*>35425 8A61 詡W由于总体标准差未知,只能求出标准误的估计值,变换公式求t 值,可得到若干t值。将这些t 值绘成直方图,若样本无限多,可绘成一条光滑的曲线-t 分布曲线,此时所得的t 值围绕0呈现的就是t 分布。 2.t 分布的特征:(1)是一簇单峰分布曲线,以0为中心,左右对称。(2)其形态变化与自由度的大小有关-越小,则t值越分散,t 分布曲线越低平,t 分布的峰部越矮而尾部翘得越高;越大,t 分布越逼近正态分布.(3)t分布的单侧概率和双侧概率在t界值表中,横标目为自由度,纵标目为概率(或)。一侧尾部面积称为单侧概率或单尾概率; 两侧尾部面积之和称为双侧概率或双尾概率。表中数字表示当和确定时,对应的t的界值,其中与单尾概率相对应的t界值用表示,与双尾概率相对应的t界值用 表示.查t界值表注意:由于t 分布是以0为中心的对称分布,故附表2只列出正值,查表时,不管t值正负,均可用其绝对值t查表得概率值.相同自由度时,t值增大,概率减小;在相同t值时,双尾概率是单尾概率的两倍。 如双尾 单尾 1。8123.t 分布的用途:总体均数的区间估计;t 检验。第二节 总体均数的估计是根据样本分布的特点,由样本均数推测总体均数的大小及其范围。总体均数估计的方法有点估计和区间估计两种.一、 总体均数的点估计w23007 59DF 姟31768 7C18 簘38466 9642 陂20690 50D2 僒点估计 概念:用样本确定的统计量的值来直接估计总体参数的数值.方法:以样本统计量及其标准误作为被估计参数的点估计值,一般是以统计量加减标准误的方式给出参数的点估计值.优点:方法简单。 缺点:未考虑抽样误差的影响。二、区间估计根据抽样分布原理,按预先给定的概率水准,给出被估计参数可能的数值范围。统计学称这一范围为被估计参数的可信区间(CI)。称预先给定的概率水准为可信度或可信系数,符号为1-,常取95或99 .称按95%或99水准确定的CI为95CI或99CI.1 大样本资料均数的可信区间样本例数足够大(100)时,可按正态分布原理,用以下公式估计总体均数的CI。95%CI 99%CI例题:测得某地296例成年男性发锌的均数为200.0ppm,标准差为21。8ppm。试估计该地成年男性发锌总体均数的95CI。本例296, 200,21。8, 1.27。 95CI200。0±1。96×1.27(197。51,202.49)该地成年男性发锌总体均数的95CI为197。51202。4ppm。2.小样本资料均数的可信区间当较小(100)时,一般按t分布原理,用以下公式估计总体均数的CI.95%CI 99CI式中t0。05/2,与t0。01/2,为t0.05与t0.01的双侧界值.Ck30838 7876 硶!Ak32709 7FC5 翅例题:测得某地12例肾虚失钠型哮喘病人甲皱微循环管袢长度的均数为208。33,标准差为67.07。试估计该地肾虚失钠型哮喘病人甲皱微循环管袢长度总体均数的95CI.本例12, 208.33,67。07, 19.36 112111。查t界值表得t0.05/2,112.201,按公式求得:95CI208。33±2.201×19。36(165.72,250。94)该地肾虚失钠型哮喘病人甲皱微循环管袢长度总体均数的95CI为165。72250。943.可信区间的要素(1)准确度:是CI包含总体参数的概率大小,用可信度的大小1表示。可信度越接近1,可信程度越高,准确度越高。如可信度99%比95可信程度高。(2)精密度:是对总体参数的估计范围或长度的度量,反映在CI即长度愈小愈精密。 每一次估计间的差异越小,CI愈小,即CI的长度越小,其估计的精密度越高.4。可信区间的特点(1)当确定后,CI范围的大小与可信度1-的高低呈正比,与估计结果的精密度呈反比.(2)当可信度1确定后,的大小与CI范围的大小呈反比;与估计结果的精密度呈正比。因为增加样本例数会减小标准误,使CI的范围缩小。CI的范围越小,真实值靠近点估计值的可能性越大,靠近CI边缘的可能性越小,估计的精确度也随之提高,其统计效力就越大。5。可信区间与可信限的关系CI为某一整体内的一个分段,是以上、下可信限为界的开区间(不包含界值在内).CU与CL是CI的上下两个界值.如95%CI为(165.6,251.0)。165。6是CI的下限(L),251。0为CI的上限(U)。6.CI与参考值范围的比较(1)可信区间:是参数的估计范围,需用标准误(SE)计算,表示总体指标的可能范围.(2)参考值范围:表示大多数正常人的解剖、生理、生化某项指标的波动范围,需用标准差计算,用于判断观察对象的某项指标正常与否。32262 7E06 縆,030392 76B8 皸36558 8ECE 軎3P22524 57FC 埼假设检验一、 假设检验的概念与分类概念:亦称显著性检验,是利用样本信息,根据一定的概率水准,推断样本指标(统计量) 与总体指标(参数)、不同样本指标间的差别有无意义的统计分析方法。(一) 参数检验和非参数检验1.参数检验 概念:依赖总体分布的具体形式的统计方法,简称参数法。常用的参数法有2 检验、t 检验、检验等。使用条件是抽样总体的分布已知。优点:能充分利用样本信息;