第十章药学统计学精选文档.ppt
第十章 药学统计学本讲稿第一页,共四十六页统计学(统计学(statisticsstatistics):研究数据的收集、描述、分析、综合和):研究数据的收集、描述、分析、综合和解释,以获得新信息、作出新推断的学科。解释,以获得新信息、作出新推断的学科。包括:包括:(1 1)制定调查方案和设计科学实验)制定调查方案和设计科学实验 (2 2)描述实验数据)描述实验数据 (3 3)进行假设检验)进行假设检验 (4 4)获知变量间的定量关系)获知变量间的定量关系概概 述述本讲稿第二页,共四十六页第一节第一节 几个基本统计学概念几个基本统计学概念频率:频率:概率:概率:一、必然事件与随机事件一、必然事件与随机事件必然事件:某条件实现后一定发生或一定不发生的事件必然事件:某条件实现后一定发生或一定不发生的事件随机事件:一定条件下,不一定发生的事件随机事件:一定条件下,不一定发生的事件二、频率与概率二、频率与概率本讲稿第三页,共四十六页1.1.1.1.总体与样本的关系总体与样本的关系总体与样本的关系总体与样本的关系 样本参数用英文字母表示样本参数用英文字母表示 总体参数用希腊字母表示总体参数用希腊字母表示总 体样 本 取样 观测数 据推 断三、总体与样本三、总体与样本本讲稿第四页,共四十六页 2.2.取样的随机性取样的随机性取样的随机性取样的随机性 随机性包括:随机性包括:总体中个体的抽取必须是相互独立的;总体中个体的抽取必须是相互独立的;总体中所有个体被抽取的机会相等。总体中所有个体被抽取的机会相等。满足以上两个要求的取样,称为简单随机满足以上两个要求的取样,称为简单随机取样(取样(SRSSRS,simple random samplingsimple random sampling)这样抽取的样本称为简单随机样本。这样抽取的样本称为简单随机样本。本讲稿第五页,共四十六页四、观测值的特征四、观测值的特征集中位置与离散程度集中位置与离散程度1.1.1.1.量度集中位置的统计量量度集中位置的统计量量度集中位置的统计量量度集中位置的统计量(1 1)均值)均值 样本均值样本均值 总体均值总体均值 E E(X X)取值取值概率概率X Xi iP Pi i 均值的重要性质:均值的重要性质:观测值与均值之差(偏差)之和观测值与均值之差(偏差)之和 偏差的平方和偏差的平方和 最小最小 本讲稿第六页,共四十六页(2 2)众数)众数 频数最大的观测值叫众数,常用于表示离散频数最大的观测值叫众数,常用于表示离散型随机变量的集中位置。型随机变量的集中位置。(3 3)中位数)中位数 把变量的观测值按大小顺序排列,排在当中的一把变量的观测值按大小顺序排列,排在当中的一个观测值叫中位数。个观测值叫中位数。本讲稿第七页,共四十六页(1 1)极差)极差 (最大值和最小值之差)(最大值和最小值之差)R RX XmaxmaxX Xminmin(2 2)平均(绝对)偏差)平均(绝对)偏差2.2.2.2.量度数据离散程度的统计量量度数据离散程度的统计量量度数据离散程度的统计量量度数据离散程度的统计量(3 3)方差)方差 式中式中n n1 1在统计学中叫自由度(在统计学中叫自由度(degree of freedomdegree of freedom),),常用希腊字母常用希腊字母表示表示本讲稿第八页,共四十六页五、两个典型的概率分布五、两个典型的概率分布1.1.二项分布是典型的离散型概率分布二项分布是典型的离散型概率分布(1 1)特点:)特点:二项分布是一种每次试验只有两种二项分布是一种每次试验只有两种可能结果而不受以前实验影响的分布。可能结果而不受以前实验影响的分布。在样本容量相对于总体很小时,取样试在样本容量相对于总体很小时,取样试验后,返回不返回,对下一次试验的结验后,返回不返回,对下一次试验的结果无影响。果无影响。本讲稿第九页,共四十六页(2 2)二项分布的均值、方差、标准差)二项分布的均值、方差、标准差 均值均值np np 方差方差npqnpq 标准差标准差(3 3)二项分布的实际意义)二项分布的实际意义 一些只有两个结果的互斥事件都与二项分布一些只有两个结果的互斥事件都与二项分布有关,在药学方面,可用于分析从制剂批抽出有关,在药学方面,可用于分析从制剂批抽出n n个个个体中不合格个体数的概率。个体中不合格个体数的概率。本讲稿第十页,共四十六页2.2.2.2.正态分布是一种连续型概率分布,各种分布都正态分布是一种连续型概率分布,各种分布都以它为中心在一定条件下相互转化。以它为中心在一定条件下相互转化。设连续性随机变量设连续性随机变量X X的概率密度为的概率密度为 则称则称X X服从参数为服从参数为、(-+,0 0)的正态分布,记为)的正态分布,记为X XN N(,)本讲稿第十一页,共四十六页(1 1)特点:)特点:极大值在极大值在;以以X X为对称轴;为对称轴;X X轴是渐进线;轴是渐进线;拐点在拐点在X X。本讲稿第十二页,共四十六页(2 2)标准正态分布)标准正态分布一般的正态分布取决于均值一般的正态分布取决于均值 和标准差和标准差 计计算算概概率率时时 ,每每一一个个正正态态分分布布都都需需要要有有自自己己的的正正态态概概率率分分布布表表,这这种种表表格格是是无无穷穷多多的的若若能能将将一一般般的的正正态态分分布布转转化化为为标标准准正正态态分分布布,计计算算概概率率时时只只需需要要查查一一张张表表本讲稿第十三页,共四十六页 任任何何一一个个一一般般的的正正态态分分布布,可可通通过过下下面面的的线线性性变变换换转转化化为为标准正态分布标准正态分布x 一般正态分布一般正态分布一般正态分布一般正态分布一般正态分布一般正态分布 Z标准正态分布标准正态分布标准正态分布标准正态分布标准正态分布标准正态分布 本讲稿第十四页,共四十六页(3 3)标准正态分布表的使用)标准正态分布表的使用将一个一般的转换为标准正态分布将一个一般的转换为标准正态分布计算概率时计算概率时 ,查标准正态概率分布表,查标准正态概率分布表对于负的对于负的 x x,可由,可由 (-x)(-x)x x 得到得到对于标准正态分布,即对于标准正态分布,即XN(0,1)XN(0,1),有,有P(aP(a X X b)b)b b a a P(|X|P(|X|a)a)2 2 a a 1 1对于一般正态分布,即对于一般正态分布,即XN(XN(,),有,有本讲稿第十五页,共四十六页六、均值的分布和中心极限定理六、均值的分布和中心极限定理1.1.1.1.均值的分布均值的分布 如一个随机变量如一个随机变量X X呈总体均值为呈总体均值为、总体方差为、总体方差为2 2的正态的正态分布,则其容量为分布,则其容量为n n的样本均值的样本均值 也呈正态分布,其总也呈正态分布,其总体均值仍为体均值仍为,但总体方差为,但总体方差为2/n2/n,即,即X本讲稿第十六页,共四十六页2.2.中心极限定理中心极限定理中心极限定理中心极限定理 设从均值为设从均值为,方差为,方差为 2 2的一个任意总体中抽取容量的一个任意总体中抽取容量为为n n的样本,当的样本,当n n充分大时,样本均值的抽样分布近似服从充分大时,样本均值的抽样分布近似服从均值为均值为、方差为、方差为2/n2/n的正态分布的正态分布一个任意分一个任意分布的总体布的总体X当样本容量足够当样本容量足够大时大时(n n 30)30),样本均值的抽样样本均值的抽样分布逐渐趋于正分布逐渐趋于正态分布态分布本讲稿第十七页,共四十六页第二节第二节 取样取样 按与调查目的有关的某个主要性标志将总体单位划分为若干层按与调查目的有关的某个主要性标志将总体单位划分为若干层(也称类、组或子总体),然后从多层中按随机原则分别抽取一定数(也称类、组或子总体),然后从多层中按随机原则分别抽取一定数目的单位构成样本。目的单位构成样本。一、随机取样与随机数表一、随机取样与随机数表 简单随机抽样是最基本的抽样组织方式。是对总体单位不进简单随机抽样是最基本的抽样组织方式。是对总体单位不进行任何划分或排队,完全随机地直接从总体中抽取样本单位,使行任何划分或排队,完全随机地直接从总体中抽取样本单位,使每个总体单位都有完全均等的机会被抽中。每个总体单位都有完全均等的机会被抽中。二、分层取样二、分层取样本讲稿第十八页,共四十六页 在大规模生产中,表明供应方产品质量特征的随机变量应在大规模生产中,表明供应方产品质量特征的随机变量应不超出某规定范围。不超出某规定范围。三、系统取样三、系统取样 常用于质量控制,每第常用于质量控制,每第n n个个体选取一个,但最初个个体选取一个,但最初选取的个体是随机的。选取的个体是随机的。四、验收取样四、验收取样本讲稿第十九页,共四十六页第三节第三节 数据制图数据制图 与统计方法有关的图解:与统计方法有关的图解:以传递信息为目的的图解:以传递信息为目的的图解:如直方图、条形图如直方图、条形图 在坐标中描述变量之间关系的图解在坐标中描述变量之间关系的图解一、引言一、引言本讲稿第二十页,共四十六页 在许多研究数据中,响应在许多研究数据中,响应Y Y的对数而不是的对数而不是Y Y本身与独立变本身与独立变量量X X呈线性关系,这样就要进行半对数标绘,即变量呈线性关系,这样就要进行半对数标绘,即变量X X的坐的坐标是自然数而响应(函数)标是自然数而响应(函数)Y Y的是它的对数的是它的对数logYlogY。二、描述频数的图解二、描述频数的图解直方图、条形图、扇形图直方图、条形图、扇形图三、描述变量关系的标绘图三、描述变量关系的标绘图本讲稿第二十一页,共四十六页第四节第四节 统计估计和假设检验统计估计和假设检验本讲稿第二十二页,共四十六页 样本统计量均值样本统计量均值 和方差和方差S2S2分别是其总体均值分别是其总体均值和和总体方差总体方差2 2的最佳估计。的最佳估计。置信区间(置信区间(confidence intervalconfidence interval):是我们相信统):是我们相信统计量如总体均数所在的区间,由总体的性质、参数的样计量如总体均数所在的区间,由总体的性质、参数的样本估计值和想达到的置信度决定。本估计值和想达到的置信度决定。以样本均值为对称中心的双侧置信区间:以样本均值为对称中心的双侧置信区间:P P置信区间置信区间X一、统计估计一、统计估计本讲稿第二十三页,共四十六页1.1.用用t t分布确定置信区间分布确定置信区间 P P置信区间置信区间2.2.几个不同置信区间的构造几个不同置信区间的构造(1 1)未知,需要由样本估计未知,需要由样本估计(2 2)已知,直接代入公式已知,直接代入公式(3 3)比率的置信区间)比率的置信区间一、统计估计一、统计估计本讲稿第二十四页,共四十六页二、假设检验二、假设检验1.1.1.1.引言引言引言引言(1 1)概念)概念事先对总体参数或分布形式作出某种假设事先对总体参数或分布形式作出某种假设然后利用样本信息来判断原假设是否成立然后利用样本信息来判断原假设是否成立(2 2)类型)类型参数假设检验参数假设检验非非参数假设检验参数假设检验(3 3)特点)特点采用逻辑上的反证法采用逻辑上的反证法依据统计上的小概率原理依据统计上的小概率原理本讲稿第二十五页,共四十六页 零假设(零假设(null hypothesisnull hypothesis):):关于两个总体在某一参数如均值上一致(实际关于两个总体在某一参数如均值上一致(实际上差异为零)的假设上差异为零)的假设H0H0。如如 H0 H0:1 12 2 备择假设(备择假设(alternative hypothesisalternative hypothesis):如果舍弃):如果舍弃H0H0则接受则接受HaHa,HaHa也可用也可用H1H1表示。表示。如如HaHa:1 12 2本讲稿第二十六页,共四十六页例:表 观测单一总体均值的实验示例同类药物的治愈率新药的治愈率值得临床研究重视得血压降低标准值临床前研究中n只大鼠血压降低均值药典片剂通则关于崩解时限的规定药片片剂平均崩解时限标示量药片片剂的平均含量假设值或标准值样本均值对此例中每一类问题的假设检验,可提出三个假设检验:对此例中每一类问题的假设检验,可提出三个假设检验:H0:H0:=0,Ha:0,Ha:0 0 H0:H0:=0,Ha:0,Ha:0 0本讲稿第二十七页,共四十六页2.2.2.2.检验假设的步骤检验假设的步骤检验假设的步骤检验假设的步骤(1 1)提出检验统计量)提出检验统计量T T并进行实验并进行实验(2 2)提出零假设)提出零假设H0H0和备择假设和备择假设HaHa(3 3)规定显著性水平)规定显著性水平 显著性水平:即根据统计检验的结果舍弃零假设显著性水平:即根据统计检验的结果舍弃零假设H0H0(存在显著差异)而实际上不存在的概率。(存在显著差异)而实际上不存在的概率。(4 4)计算检验统计量)计算检验统计量T T并进行显著性检验并进行显著性检验本讲稿第二十八页,共四十六页3.3.3.3.几种具体的假设检验几种具体的假设检验几种具体的假设检验几种具体的假设检验(1 1)已知的单样本双侧均值检验已知的单样本双侧均值检验(2 2)已知的单样本单侧均值检验已知的单样本单侧均值检验(3 3)未知的单样本双侧均值检验未知的单样本双侧均值检验 先求先求t t值,再计算置信区间,进行值,再计算置信区间,进行t t检验检验(4 4)独立样本方差)独立样本方差S12S12和和S22S22的比较:的比较:F F检验检验本讲稿第二十九页,共四十六页1.1.1.1.什么是回归分析:什么是回归分析:什么是回归分析:什么是回归分析:从一组样本数据出发,确定变量之间的数学关系式从一组样本数据出发,确定变量之间的数学关系式对对这这些些关关系系式式的的可可信信程程度度进进行行各各种种统统计计检检验验,并并从从影影响响某某一一特特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著定变量的诸多变量中找出哪些变量的影响显著,哪些不显著利利用用所所求求的的关关系系式式,根根据据一一个个或或几几个个变变量量的的取取值值来来预预测测或或控控制制另另一一个个特定变量的取值,并给出这种预测或控制的精确程度特定变量的取值,并给出这种预测或控制的精确程度第五节第五节 回归分析回归分析本讲稿第三十页,共四十六页2.2.2.2.回归模型的类型回归模型的类型回归模型的类型回归模型的类型一个自变量一个自变量一个自变量一个自变量两个及两个以上自变量两个及两个以上自变量两个及两个以上自变量两个及两个以上自变量回归模型回归模型多元回归多元回归一元回归一元回归线性回线性回归归非线性非线性回归回归线性回线性回归归非线性非线性回归回归本讲稿第三十一页,共四十六页3.3.3.3.回归模型回归模型(1 1)回答)回答“变量之间是什么样的关系?变量之间是什么样的关系?”(2 2)方程中运用)方程中运用1 1个数字的因变量个数字的因变量(响应变量响应变量)被预测的被预测的变量变量1 1个或多个数字的或分类的自变量个或多个数字的或分类的自变量 (解释变解释变量量)用于预测的变量用于预测的变量(3 3)主要用于预测和估计)主要用于预测和估计本讲稿第三十二页,共四十六页4.4.4.4.概念要点概念要点概念要点概念要点(1 1)当当只只涉涉及及一一个个自自变变量量时时称称为为一一元元回回归归,若若因因变变量量 y y 与与自自变变量量 x x 之之间间为为线线性性关关系系时时称称为为一一元元线性回归线性回归(2 2)对对于于具具有有线线性性关关系系的的两两个个变变量量,可可以以用用一一条条线性方程来表示它们之间的关系线性方程来表示它们之间的关系(3 3)描描述述因因变变量量 y y 如如何何依依赖赖于于自自变变量量 x x 的的方方程程称为回归模型称为回归模型本讲稿第三十三页,共四十六页5.5.简单线性回归方程的形式如下简单线性回归方程的形式如下 Y=Y=0+0+1 x1 x 方程的图示是一条直线,因此也称为直线回归方程方程的图示是一条直线,因此也称为直线回归方程 0 0是回归直线在是回归直线在 y y 轴上的截距,是当轴上的截距,是当 x=0 x=0 时时 y y 的期望值的期望值 1 1是直线的斜率,称为回归系数,表示当是直线的斜率,称为回归系数,表示当 x x 每变动每变动一个单位时,一个单位时,y y 的平均变动值的平均变动值本讲稿第三十四页,共四十六页6.6.6.6.最小二乘法最小二乘法 回归直线是对若干个数据对(回归直线是对若干个数据对(X,YX,Y)绘制的,)绘制的,但由于遵守正态分布的实验误差,数据对中两个以上但由于遵守正态分布的实验误差,数据对中两个以上的点,不能恰好在一条直线上,即恰好通过所有数据的点,不能恰好在一条直线上,即恰好通过所有数据点的直线是找不到的,只能找到一条离所有点都近的点的直线是找不到的,只能找到一条离所有点都近的直线,所用的客观方法叫最小二乘法(直线,所用的客观方法叫最小二乘法(method of method of least squaresleast squares)。)。本讲稿第三十五页,共四十六页7.7.7.7.最小二乘线最小二乘线最小二乘线最小二乘线 (1 1)定义)定义 给定给定n n个数据对(个数据对(X,YX,Y),找到一条规定),找到一条规定X X,Y Y关系关系的直线,使所有数据对(的直线,使所有数据对(X X,Y Y)与拟规定的直线在)与拟规定的直线在Y Y轴轴方向的距离平方和最小方向的距离平方和最小用数学语言表示就是用数学语言表示就是 最小,这样的一条直线就是描述最小,这样的一条直线就是描述X X,Y Y间关系的最佳直间关系的最佳直线,称为最小二乘线。线,称为最小二乘线。本讲稿第三十六页,共四十六页(2 2)图示)图示xy(x xn n,y yn n)(x x1 1,y y1 1)(x x2 2,y y2 2)(x xi i,y yi i)e ei i=y yi i-y yi i本讲稿第三十七页,共四十六页(3 3)和和 的计算公式的计算公式本讲稿第三十八页,共四十六页二、回归分析在药物研究中的应用二、回归分析在药物研究中的应用例:把例:把6 6个浓度按两倍递增的纯青霉素溶液(个浓度按两倍递增的纯青霉素溶液(132U/ml132U/ml)置于进行生物测定的杯碟中。)置于进行生物测定的杯碟中。下表给出每一浓度以下表给出每一浓度以mmmm表示的抑菌圈直径,在这个长度的测量中发生较大的误差。如表示的抑菌圈直径,在这个长度的测量中发生较大的误差。如果对青霉素溶液的浓度果对青霉素溶液的浓度C C取以取以2 2为底的对数(笔,为底的对数(笔,binitbinit),则抑菌圈的直径与),则抑菌圈的直径与青霉素溶液的浓度成线性关系。试求青霉素溶液的浓度成线性关系。试求Y Y在在X X上的回归直线方程。上的回归直线方程。24.7723.1321.3519.5217.7815.87Y抑菌抑菌圈直径圈直径/mm543210Xlog2C32168421C/ml 表表 青霉素溶液浓度的对数变换青霉素溶液浓度的对数变换本讲稿第三十九页,共四十六页解解 进行进行Y Y在在X X上的回归计算上的回归计算 X X15 n15 n6 6 Y Y122.42122.42 2.50 2.50 20.4020.40 X2X255 55 XYXY337.24 337.24 Y2Y22553.38802553.3880 于是于是Y Y在在X X上的回归直线方程是上的回归直线方程是 15.9415.941.782X1.782X 本讲稿第四十页,共四十六页第六节第六节 实验设计实验设计1.1.基本原理基本原理基本原理基本原理(1 1)对照:齐同可比)对照:齐同可比(2 2)重复:)重复:获得总体标准差的估计值获得总体标准差的估计值 用大容量样本重复多次获得的均值,能把用大容量样本重复多次获得的均值,能把因素在实验中的效应估计得更精密。因素在实验中的效应估计得更精密。(3 3)随机:有助于把可能存在得外部因素效应平均化)随机:有助于把可能存在得外部因素效应平均化而减免。而减免。一、实验设计的基本原理一、实验设计的基本原理本讲稿第四十一页,共四十六页2.2.步骤步骤 确认并陈述问题确认并陈述问题 选择因素和水平选择因素和水平 选择响应变量选择响应变量 选择实验设计选择实验设计 进行实验进行实验 分析数据分析数据 做结论并提建议做结论并提建议本讲稿第四十二页,共四十六页二、方差分析二、方差分析(analysis of varianceanalysis of variance,ANOVAANOVA)方差分析能确定引起生产和实验结果有差异的诸方差分析能确定引起生产和实验结果有差异的诸因素各自的单独作用和彼此的交互作用。因素各自的单独作用和彼此的交互作用。变差的大小通常用变差平方和(简称平方和)变差的大小通常用变差平方和(简称平方和)表示表示 平方和的加和性:总平方和等于各因素平方和平方和的加和性:总平方和等于各因素平方和与误差平方和之和,即与误差平方和之和,即 SStotSStotSSASSASSBSSBSSeSSe本讲稿第四十三页,共四十六页三、实验设计的分类三、实验设计的分类1.1.1.1.两类基本的实验设计两类基本的实验设计 等级分类等级分类 交叉分类交叉分类2.2.两类不同性质的因素两类不同性质的因素两类不同性质的因素两类不同性质的因素 固定的固定的 随机的随机的3.3.配置完整和不完整配置完整和不完整本讲稿第四十四页,共四十六页第七节第七节 几个现代统计方法几个现代统计方法1.1.1.1.概述概述概述概述 蒙特卡洛方法根据模拟抽样的结果估算求解问题解蒙特卡洛方法根据模拟抽样的结果估算求解问题解X X的的近似值。这样的近似值通常是以一个数学期望等于近似值。这样的近似值通常是以一个数学期望等于X X的统计量的的统计量的样本均值给出。样本均值给出。2.2.2.2.分类分类分类分类 SSSS,SSSS,SMSM,MSMS,SMSSMS3.3.3.3.一个例子一个例子一个例子一个例子制剂含量均匀度计量型检查法的制定制剂含量均匀度计量型检查法的制定制剂含量均匀度计量型检查法的制定制剂含量均匀度计量型检查法的制定一、蒙特卡洛方法一、蒙特卡洛方法随机现象的统计模拟随机现象的统计模拟本讲稿第四十五页,共四十六页二、模拟识别(二、模拟识别(pattern recognitionpattern recognition)1.1.1.1.概述概述概述概述 模式识别不需要数学模型,只需要找到互不相同的数据模式识别不需要数学模型,只需要找到互不相同的数据间的关系,可处理代表模式而维数大于三的数据。间的关系,可处理代表模式而维数大于三的数据。2.2.2.2.一般步骤和分类一般步骤和分类一般步骤和分类一般步骤和分类(1 1)步骤:)步骤:数据即观测值的收集、表示和预处理;数据即观测值的收集、表示和预处理;特征提取和选择;特征提取和选择;分类、决策分类、决策(2 2)分类:)分类:非参数法;非参数法;参数(贝叶斯)法参数(贝叶斯)法3.3.3.3.中药质量的化学模式识别中药质量的化学模式识别中药质量的化学模式识别中药质量的化学模式识别本讲稿第四十六页,共四十六页