中医药统计学与软件应用笔记重点.pdf
《中医药统计学与软件应用笔记重点.pdf》由会员分享,可在线阅读,更多相关《中医药统计学与软件应用笔记重点.pdf(53页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 中医药统计学与软件应用笔记重点-作者:_ -日期:_ 中医药统计学与软件应用笔记重点 绪论 统计学家 C.R.劳先生在统计与真理怎样运用偶然性中指出:在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学。一、统计学的概念、发展简史及主要内容 1.统计学:是以概率论和数理统计为基础,对研究对象的数据进行搜集、整理和分析,揭示事物总体特征和规律的方法论科学。2.中医统计学:是以概率论和数理统计的原理和方法为基础,以中医理论与实践为主体,通过对数据的搜集、整理和分析,达到探讨中医理论与方法内在规律的目的。3.统计学的发展趋势:依赖数学。与计算机技
2、术结合。与实质性学科、统计软件、现代信息相结合,所发挥的功效日益增强。从描述事物现状、反映事物规律,向抽样推断、预测未来变化方向发展。4.统计学的主要内容 研究设计:专业设计、统计学设计 统计学的基本概念、原理和思维方法 统计描述:统计指标、统计图表 统计推断:参数估计、假设检验 二、统计工作的基本步骤和特点 1.统计工作的基本步骤 (1)统计学设计(2)搜集资料:常规保存的记录;现场调查记录;实验/试验记录;医学文献/网络信息。(3)整理资料:检查;审核;计算机检查;分组。(4)分析资料 2.统计学认识现象的特点(1)数量性:(2)群体性:(3)具体性:(4)概率性:三、统计学中常用的概念
3、1总体(population):是根据研究目的确定的同质观察单位的集合。例 河北省 18 岁男性的身高和体重分布 某性红地 2005年健康成年男细胞数 河北省 18 岁身高在 170-175cm 男性的体重分布 有限总体:指总体限定于特定的空间、时间范围内有限个观察单位。无限总体:指没有空间和时间范围限制的总体。2样本(sample):从总体中随机抽取的有代表性的一部分观察单位的集合。样本的可靠性:指总体确定后,样本中的每一个观察单位确属预先规定的同质总体。样本的代表性:即样本能够充分反映总体的真实情况。3随机(random):即在抽样、分组、安排试验顺序时,让总体中每个受试者或观察单位都有同
4、等的机会被抽中、被分配或被安排,而不受研究者的主观意愿驱使。不能将随机理解为随便。4事件(event):指事物发生某种情况或在调查、观察和实验中获得的某种结果。确定性事件是可预言在一定条件下必然发生的事件,发生的概率为 1。随机事件:指一定条件下可能发生也可能不发生的不确定性事件,发生的概率介于 01之间。模糊事件:事物本身的含义不确定的现象。5频率(frequency):对于随机事件,在相同的条件下进行了 n 次实验,事件发生的次数为,比值/n 为频率,记为 fn(A);概率(probability):描述某随机事件发生的可能性大小,统计符号为,01,记为 P(A)。当 时,频率 fn(A)
5、概率 P(A)。小概率事件:表示某事件发生的可能性很小,在医学研究中,习惯上把 P0.05或 P0.01的事件称为小概率事件。6变异(variation):总体中各个体之间的差异性。同质是相对的,研究对象只是在某一方面是性质相同的,同类的观察对象之间往往也存在着变异。变异是绝对的、客观存在的。7误差(error):指测量值与真值之差。过失误差:也叫粗差。观测者粗心大意造成的误差。系统误差:由于仪器未校准、试剂未标定、观测标准未统一等固定原因造成的误差。测量误差:由事先难于预料的实验或观察条件的随机波动造成的误差。抽样误差:由抽样引起的样本指标(统计量)与总体指标(参数)的差别。8统计量(sta
6、tistical):是反映样本特征的统计指标。统计符号为小写的英文字母。如样本均数 、样本标准差 s、样本率 p 等。9参数(parameter):是描述总体特征的统计指标。统计符号为小写的希腊字母。如总体均数、总体标准差、总体率 等。10.统计资料的类型 根据研究目的,对研究对象的某些特征进行观测,将这些观测指标或项目称为变量。变量的具体数值(变量值)构成了统计数据或统计资料。统计资料分为两类:值变量(numerical variable):亦称定量资料。是指对每个观察单位用计量方法测得某项 数值大小所获得的资料。特点为其变量值大多有度量衡单位,其具体取值通常是正实数(零、正整数和小数)。如
7、身高 1.75m、体重 68kg、血压 9.6kPa、血糖 6.8mmol/L。分类变量(categorical variable):又称定性资料。指对每个观察单位按某一方面的特征、性质或等级分组计数而得到的资料。特点是变量值表现为互不相容的属性或类别,无度量衡单位。分类变量又可分为两类:序分类变量:又称为名义资料。具体取值通常是具有某种属性或特征的个数。特点是可在非数字中取值,各类之间具有性质上的差异。可分为二分变量和多分变量。二分变量是按互不相容的属性分成两类的资料。多分变量是按某种属性或特征分成两类以上的资料。序分类变量:亦称等级资料或半定量资料。具体取值也是具有某种属性或特征的个数,但
8、不同取值之间有半定量的关系。特点是其各类别间有等级、程度或量的差异,即可按数量的相对大小或程度的高低排出顺序。四、学习中医统计学的目的 1.顺应中医药学的发展趋势。2.强化中医科研的计划性和科学性。3.拓宽研究思路。4.学会正确地运用统计方法和合理地解释统计结果。五、学习中医统计学的注意事项 1理解和领会基本概念和原理,切忌死记硬背。2不追究公式的来源和推导,但要掌握其应用条件。3重视分析问题和解决问题能力的培养。4学会使用统计软件。数值变量资料的统计描述 统计描述概念:即利用原始数据,选择适宜的统计指标及统计图表,简明准确地探察数据的分布类型和数量特征的基本统计方法。目的:是根据样本中所包含
9、的信息,客观、正确地推论出其总体规律。第一节 频数分布 x 频数:相同观察值或观察结果出现的次数。分布:指随着随机变量取值的变化,其相应的概率变化的规律性。频数分布:观察值(变量值)按大小分组,各个组段内观察值个数(频数)的分布,是了解数据分布形态特征与规律的基础。一、频数分布的特征 1.集中趋势:指一组变量值的集中倾向或中心位置。2.离散趋势:即一组变量值的离散倾向。二、频数分布的类型 1.对称分布:指集中位置居中、左右两侧的 2.非对称分布:亦称偏态分布,是集中位置 频数分布基本对称的频数分布。偏倚、两侧频数的分布不对分为正态分布和非正态分布两 称的频 数分布,可分为正 种类型。偏态和负偏
10、态分布。三、频数分布表/图的作用 1.直观地揭示数据的分布类型和特征。2.便于发现资料中某些远离群体的特大或特小的可疑值。3.描述频数分布的集中趋势与离散趋势。4.便于进一步计算统计指标。四、频数表 概念:频数分布表的简称。指观察值或某些类别及其相应的频数按一定顺序排列的表格。例题:随机抽取某地 120例正常人,测得血清铜的含量(mol/L)如下表,试编制频数表。13.84 12.53 13.70 14.89 17.53 13.19 18.82 14.73 17.44 13.99 14.10 12.29 12.61 14.78 14.59 14.71 18.62 19.04 10.95 13.
11、81 10.53 13.56 11.48 13.07 16.88 17.04 17.98 12.67 11.03 9.23 15.04 14.09 15.90 11.48 14.64 13.64 14.39 15.74 13.99 11.31 17.61 16.26 13.53 11.68 13.25 11.88 14.21 15.21 15.29 13.70 14.45 11.23 19.84 13.11 15.15 11.70 频数表的编制方法:1.找极值:Xmax 19.84,X min 9.23 2.求全距:XmaxX min,19.849.2310.61 3.定组数:K=815。4.
12、求组距:i=/(K1)(i 为组距,k为组段数,R 为全距)i=10.61/(11-1)=1.0611 5.确定各组段的上下限:6.归纳计数:某地 120名正常成年人血清铜含量频数表 组段 频数 频率()()9.00 3 2.5 3 2.5 10.00 4 3.3 7 5.8 11.00 12 10.0 19 15.8 12.00 13 10.8 32 26.6 13.00 17 14.2 49 40.8 14.00 22 18.3 71 59.1 15.00 18 15.0 89 74.1 16.00 13 10.8 102 84.9 17.00 11 9.2 113 94.1 18.00
13、5 4.2 118 98.3 19.00 2 1.7 120 100.0 合 计 120 100.0 五、频数图 概念:亦称直方图,是以直方的宽度代表组距,以直方的面积大小表示频数的多少、以直方面积在总面积中的比例表示频率大小的图形。等距分组以横轴表示变量,以纵轴表示频数。不等距分组以横轴表示变量,但纵轴是频数除以组距 。第二节 数值变量资料集中趋势的描述 集中趋势:是度量变量值集中位置和平均水平的数量指标,其代表值为平均数。平均数:是描述一组观测值平均水平的指标,是对同质基础上的样本或总体一般特征的表达指标。算术平均数、几何平均数、中位数、众数 一、算术平均数 1.定义:算术平均数简称均数。
14、是一组观察值的和与观察值个数之商。是数量上的平均。用于说明一组观测值的趋中位置或平均水平。表示样本均数,表示总体均数。2.适用条件:正态或近似正态分布的资料。如生理指标。3.计算方法:直接法:有 n个观察值,分别为 X1,X2,Xn,式中 是求和的符号。例题:10名 12岁男孩身高(cm)分别为 125.5,126.0,127.0,128.5,147.0,131.0,132.0,141.5,122.5,140.0。求平均数。加权法:用于观察值中相同数据较多或频数表资料。1737.00/12014.48(mol/L)二、几何均数 1.定义:个数值连乘积的次方根。是比例或倍数上的平均。统计符号。2
15、.应用条件:等比数列资料。如抗体滴度。3.计算方法:例题:6 份血清抗体滴度为 1:2,1:4,1:8,1:8,1:16,1:32,求平均数。平均滴度为 1:8。三、中位数 1.定义:将一组观察值按由小到大的顺序排列,位次居中的数值即中位数。是位次上的平均。统计符号。2.应用条件:不拘分布、分布类型不明或一端无界的资料。如潜伏期、治愈时间和发病年龄。3.计算方法:n 为奇数时 n为偶数时 式中 、及 均为下标,表示有序数列中观察值的位次。例题:某医院用大黄粉治疗胃热血瘀型血证病人 9 例,其大便转阴天数分别为1、1、2、2、3、4、5、7、10,求其中位数。本例 n=9,M=X5=3(天)。如
16、果本例 n=10,第 10 个数值为 16 天,则 M=(3+4)/2=3.5(天)。数表法 用于观察值例数较多或频数表资料。为所在组段的下限;i 为该组段的组距;m 为该组段的;n 为总例数;fL 为小于的各组段的。例题:905 例男性银屑病病人的发病年龄 年龄 频数 f 累计频数 f 累计频率 p()10 54 54 5.97 10 252 306(f)33.81 20 346(f)652 72.04 30 128 780 86.19 40 84 864 95.47 50 29 893 98.67 60 5 898 99.23 70 7 905(n)100.00 20(10/346)(90
17、5/2306)24.23(岁)第三节 数值变量资料的离散趋势描述 离散趋势:亦称变异性,是描述一组同质观察值的变异程度大小的指标。不但反映研究指标数值的稳定性和均匀性,而且反映集中性指标的代表性。极差、四分位数间距、方差、标准差、变异系数。变异指标示意(两个学生五门成绩分布)学生 科 目 变异指标 S S CV 78 79 80 81 82 80 4 2.5 1.58 1.98 60 70 80 90 100 80 40 250 15.81 19.76、两个学生五门课程成绩的均数都是 80,但各科成绩分布情况却不相同。较集中,变异较小;较分散,变异较大。一、全距()概念:亦称极差,是一组观察值
18、中最小值与最大值之差,反映个体差异的范围。优点:1.意义明确、计算简便。2.稳定性较差。3.受 n 大小的影响。4.可应用于任何分布。二、百分位数和四分位间距 1.百分位数:是把一组观察值从小到大排列,分为 100 等份,与位次所对的数值即为第百分之位数。以x 表示。一个x 将全部观察值分为两部分,理论上有的观察值比它小,有(100)的观察值比它大。是一种位置指标。M 即。2.四分位数间距:是上四分位数 Q()与下四分位数 Q()之差,符号为 QR。是中间 50观察值的极差。QRQQ 用途:常用来描述偏态分布资料分布以及分布的一端或两端无确切数值资料的离散程度。表示参考值范围 百分位数的另一个
19、重要用途是表示偏态分布资料的参考值范围。例题:905 例男性银屑病病人的发病年龄(同前)计算方法:10(10/252)(9050.2554)16.84(岁)30(10/128)(9050.75652)32.09(岁)QR32.0916.8415.25(岁)三、方差 概念:方差即离均差平方和的均值。总体方差的符号为,样本方差符号为2。优点:由于2 利用了每个观察值的信息,反映一批数据变异程度的稳定性和精确性好。缺点:但在运算时需将各个离均差平方,使原度量单位变成平方单位,不便于进行比较。应用条件:要求资料服从正态或近似正态分布。四、标准差 概念:方差的平方根。除了具有方差的优点外,还克服了度量单
20、位被平方的不足,运用较方便。总体标准差的符号为,样本标准差的符号为;英文缩写为 SD。例题:A学生:n=5,X78+79+80+81+82=400;X2782+792+802+812+82232010 B学生:n=5,X=400;X233000 用途:表示正态或近似正态分布的离散程度。描述数值变量的频数分布特征()。制定医学参考值范围。与均数结合计算变异系数。与样本含量结合计算标准误。五、变异系数 概念:一组观察值的标准差与均数的百分比。是相对离散量,无单位。统计符号 CV 用途:比较度量单位不同或均数相差悬殊时几组样本资料的离散性。比较实验指标的稳定性及测定方法的精密度。例题:(1)某单位测
21、得 28 例成年脾虚病人的红细胞数为 3.10 土 0.861012L;血红蛋白值为 87.2 土 33.3gL,试比较该两项指标的变异程度。CVRBC(0.863.10)10027.74;CVHb(33.387.2)10038.19 可认为 Hb 的变异程度比 RBC 大。(2)某单位测得大鼠的血清谷丙转氨酶(ALT)为 29.4土 1.4,家兔的ALT 为 52.8 土 1.5,试比较两种实验动物 ALT指标的实验稳定性。CV 大鼠(1.429.4)1004.76;CV 家兔(1.552.8)1002.84 可认为家兔 ALT的实验稳定性较好,应优先考虑以家兔为实验对象进行ALT 的有关研
22、究。由该例可知,CV 对于改进实验方法,选择最佳实验对象、指标等,都具有一定的实际意义。变异指标:1.极差较粗,适用于任何分布;2.标准差与均数单位相同,最常用,适用于正态及近似正态分布的统计描述;3.集中指标和离散指标分别反映资料的特征,常配套使用:正态分布:算术平均数 标准差 偏态分布:中位数 四分位数间距 等比资料:G 正态分布及其应用 第一节 正态分布 某地 120例正常人血清铜含量的直方图。设想观察人数逐渐增多组、距不断细分,作直方图。将各直方顶端的中点连接,形成一条光滑的曲线,该曲线即频数曲线或频率曲线,近似于数学上的正态分布曲线。一、正态分布:又称 Gauss 分布或常态分布,是
23、一种最重要的连续型分布。正态分布曲线:是高峰位于中央,两侧逐渐下降,左右对称,永远不与横轴相交的曲线。二、正态分布的密度函数(x)f(x)为与 x 对应的正态曲线的纵坐标高度;为总体均数;为总体标准差;为圆周率,即 3.14159;e 为自然对数的底,即2.71828。三、正态分布的特征 1.在 X轴上方,均数所在处最高。2.集中性、对称性和均匀变动性。3.正态分布有两个参数 和。四、标准正态分布 由于不同的正态分布有不同的 和,用公式计算的随机变量 x 落在某个区间内的概率显得非常麻烦。为寻求一个通用的方法,进行标准正态变换(即 u变换):u(x-)/。此变换实质上是作了一个坐标轴的平移和尺
24、度变换,使原来的正态分布变换为 0、1的标准正态分布(亦称 u分布),记为(0,1)。五、标准正态分布的密度函数 (u)式中(u)为标准正态分布的密度函数,即纵坐标高度。六、正态曲线下面积分布的规律:七、正态分布的应用 1.统计分析方法的基础:很多抽样分布,如卡方分布、t 分布都是建立在正态分布的基础上。2.质量控制:为了控制检测误差,常以 2作为上下警戒线;3作为上下控制。3.估计医学参考值范围。4.进行参数估计和假设检验。第二节正态分布的应用 一、可根据正态分布的规律估计观察值的频数分布范围。例题 已知某地 120名正常人血浆铜含量(mol/L)的均数14.48、2.27,估计该地 120
25、名正常人血浆铜含量在 14.2015.60(mol/L)范围内的人数。1.计算 u 值 当 和 未知时,u(x)/s。x114.20,u1(14.2014.48)/2.27-0.12 x215.60,u2(15.6014.48)/2.270.49 2.查表 -0.12左侧的面积就是 0.12 右侧的面积。当 u0.12 时,在表的左侧找到 0.1,在表的上方找到 0.02,二者相交处为 0.5478,(-0.12)10.54780.4522,即标准正态变量 u值小于-0.12的概率为 0.4522;当 u0.49 时,(0.49)0.6879,即 u 值小于 0.49 的概率为 0.6879。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中医药 统计学 软件 应用 笔记 重点
限制150内