第十章--药学导论-药学统计学及药学信息学课件.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第十章--药学导论-药学统计学及药学信息学课件.ppt》由会员分享,可在线阅读,更多相关《第十章--药学导论-药学统计学及药学信息学课件.ppt(138页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第十章第十章 药学统计学与药学统计学与 药学信息学药学信息学药学导论药学导论统计学(统计学(statisticsstatistics):):研究数据的收集、描述、分析、研究数据的收集、描述、分析、综合和解释,以获得新信息、作出新推断的学科。综合和解释,以获得新信息、作出新推断的学科。包括:包括:(1 1)制定调查方案和设计科学实验)制定调查方案和设计科学实验 (2 2)描述实验数据)描述实验数据 (3 3)进行假设检验)进行假设检验 (4 4)获知变量间的定量关系)获知变量间的定量关系概概 述述第一节第一节 几个基本统计学概念几个基本统计学概念频率:频率:概率:概率:一、必然事件与随机事件一、
2、必然事件与随机事件必然事件:某条件实现后一定发生或一定不发生的事件必然事件:某条件实现后一定发生或一定不发生的事件随机事件:一定条件下,不一定发生的事件随机事件:一定条件下,不一定发生的事件二、频率与概率二、频率与概率描述随机事件发生可能性大小的数值 随机事件概率的大小在0与1之间,P越接近1,表示某事件发生的可能性越大;P越接近0,表示某事件发生的可能性越小。习惯上将P0.05的事件,称为小概率事件,表示在一次实验或观察中该事件发生的可能性很小,可视为不发生。在现实中,随机事件的概率往往是未知的,因此,当观测单位足够多时,常用样本中事件的实际发生率来估计总体概率,这种实际发生率称为频率。设在
3、相同条件下,独立重复进行n次试验,事件A出现t次,则事件A出现的频率为tn.如治疗200例患者,120名患者治愈,治愈率为60,这就是一个频率。当观测单位较少时,用频率估计概率是不可靠的。1.1.1.1.总体与样本的关系总体与样本的关系总体与样本的关系总体与样本的关系 样本参数用英文字母表示样本参数用英文字母表示 总体参数用希腊字母表示总体参数用希腊字母表示总 体样 本 取样 观测数 据推 断三、总体与样本三、总体与样本 2.2.2.2.取样的随机性取样的随机性取样的随机性取样的随机性 随机性包括:随机性包括:总体中个体的抽取必须是相互独立的;总体中个体的抽取必须是相互独立的;总体中所有个体被
4、抽取的机会相等。总体中所有个体被抽取的机会相等。满足以上两个要求的取样,称为简单随机满足以上两个要求的取样,称为简单随机取样(取样(SRSSRS,simple random samplingsimple random sampling)这样抽取的样本称为简单随机样本。这样抽取的样本称为简单随机样本。四、观测值的特征四、观测值的特征集中位置与离散程度集中位置与离散程度1.1.1.1.量度集中位置的统计量量度集中位置的统计量量度集中位置的统计量量度集中位置的统计量(1 1)均值)均值 样本均值样本均值 总体均值总体均值 E E(X X)取值取值概率概率X Xi iP Pi i 均值的重要性质:均值
5、的重要性质:观测值与均值之差(偏差)之和观测值与均值之差(偏差)之和 偏差的平方和偏差的平方和 最小最小 (2 2)众数)众数 频数最大的观测值叫众数,常用于表示离频数最大的观测值叫众数,常用于表示离散型随机变量的集中位置。散型随机变量的集中位置。(3 3)中位数)中位数 把变量的观测值按大小顺序排列,排在当把变量的观测值按大小顺序排列,排在当中的一个观测值叫中位数。中的一个观测值叫中位数。(1 1)极差)极差 (最大值和最小值之差)(最大值和最小值之差)R RX XmaxmaxX Xminmin(2 2)平均(绝对)偏差平均(绝对)偏差2.2.2.2.量度数据离散程度的统计量量度数据离散程度
6、的统计量量度数据离散程度的统计量量度数据离散程度的统计量(3 3)方差)方差 式中式中n n1 1在统计学中叫自由度(在统计学中叫自由度(degree of degree of freedomfreedom),),常用希腊字母常用希腊字母表示表示五、两个典型的概率分布五、两个典型的概率分布1.1.二项分布是典型的离散型概率分布二项分布是典型的离散型概率分布(1 1)特点:)特点:二项分布是一种每次试验只有两种二项分布是一种每次试验只有两种可能结果而不受以前实验影响的分布。可能结果而不受以前实验影响的分布。在样本容量相对于总体很小时,取样试在样本容量相对于总体很小时,取样试验后,返回不返回,对下
7、一次试验的结验后,返回不返回,对下一次试验的结果无影响。果无影响。(2 2)二项分布的均值、方差、标准差)二项分布的均值、方差、标准差 均值均值npnp 方差方差npqnpq 标准差标准差(3 3)二项分布的实际意义)二项分布的实际意义 一些只有两个结果的互斥事件都与二项分一些只有两个结果的互斥事件都与二项分布有关,在药学方面,可用于分析从制剂批抽布有关,在药学方面,可用于分析从制剂批抽出出n n个个体中不合格个体数的概率。个个体中不合格个体数的概率。2.2.2.2.正态分布是一种连续型概率分布,各种分布正态分布是一种连续型概率分布,各种分布正态分布是一种连续型概率分布,各种分布正态分布是一种
8、连续型概率分布,各种分布都以它为中心在一定条件下相互转化。都以它为中心在一定条件下相互转化。都以它为中心在一定条件下相互转化。都以它为中心在一定条件下相互转化。设连续性随机变量设连续性随机变量X X的概率密度为的概率密度为 则称则称X X服从参数为服从参数为、(-+,0 0)的正态分布,记为)的正态分布,记为X XN N(,)(1 1)特点:)特点:极大值在极大值在;以以X X为对称轴;为对称轴;X X轴是渐进线;轴是渐进线;拐点在拐点在X X。(2 2)标准正态分布)标准正态分布一般的正态分布取决于均值一般的正态分布取决于均值 和标准差和标准差 计计算算概概率率时时 ,每每一一个个正正态态分
9、分布布都都需需要要有有自自己己的的正正态态概概率率分分布布表表,这这种种表表格格是是无无穷穷多多的的若若能能将将一一般般的的正正态态分分布布转转化化为为标标准准正正态态分分布布,计计算算概率时只需要查一张表概率时只需要查一张表 任任何何一一个个一一般般的的正正态态分分布布,可可通通过过下下面面的的线线性性变变换换转转化为标准正态分布化为标准正态分布x 一般正态分布一般正态分布一般正态分布一般正态分布一般正态分布一般正态分布 Z标准正态分布标准正态分布标准正态分布标准正态分布标准正态分布标准正态分布 (3 3)标准正态分布表的使用)标准正态分布表的使用将将一一个个一一般般的的转转换换为为标标准准
10、正正态态分分布布计计算算概概率率时时 ,查查标标准准正正态态概概率率分布表分布表对于负的对于负的 x x,可由可由 (-x)(-x)x x 得到得到对于标准正态分布,即对于标准正态分布,即XN(0,1)XN(0,1),有有P(aP(a X X b)b)b b a a P(|X|P(|X|a)a)2 2 a a 1 1对于一般正态分布,即对于一般正态分布,即XN(XN(,),有有六、均值的分布和中心极限定理六、均值的分布和中心极限定理1.1.1.1.均值的分布均值的分布均值的分布均值的分布 如一个随机变量如一个随机变量X X呈总体均值为呈总体均值为、总体方差为总体方差为2 2的正态分布,则其容量
11、为的正态分布,则其容量为n n的样本均值的样本均值 也呈正态也呈正态分布,其总体均值仍为分布,其总体均值仍为,但总体方差为但总体方差为2/n2/n,即即X2.2.2.2.中心极限定理中心极限定理中心极限定理中心极限定理 设从均值为设从均值为,方差为,方差为 2 2的一个任意总体中抽取的一个任意总体中抽取容量为容量为n n的样本,当的样本,当n n充分大时,样本均值的抽样分布充分大时,样本均值的抽样分布近似服从均值为近似服从均值为、方差为方差为2/n2/n的正态分布的正态分布一个任意分一个任意分布的总体布的总体X X当样本容量足够当样本容量足够大时大时(n n 30)30),样本均值的抽样样本均
12、值的抽样分布逐渐趋于正分布逐渐趋于正态分布态分布第二节第二节 取样取样 按与调查目的有关的某个主要性标志将总体单位划分按与调查目的有关的某个主要性标志将总体单位划分为若干层(也称类、组或子总体),然后从多层中按随机为若干层(也称类、组或子总体),然后从多层中按随机原则分别抽取一定数目的单位构成样本。原则分别抽取一定数目的单位构成样本。一、随机取样与随机数表一、随机取样与随机数表 简单随机抽样是最基本的抽样组织方式。是对总体单位简单随机抽样是最基本的抽样组织方式。是对总体单位不进行任何划分或排队,完全随机地直接从总体中抽取样本不进行任何划分或排队,完全随机地直接从总体中抽取样本单位,使每个总体单
13、位都有完全均等的机会被抽中。单位,使每个总体单位都有完全均等的机会被抽中。二、分层取样二、分层取样 在大规模生产中,表明供应方产品质量特征的随在大规模生产中,表明供应方产品质量特征的随机变量应不超出某规定范围。机变量应不超出某规定范围。三、系统取样三、系统取样 常用于质量控制,每第常用于质量控制,每第n n个个体选取一个,但最个个体选取一个,但最初选取的个体是随机的。初选取的个体是随机的。四、验收取样四、验收取样第三节第三节 数据制图数据制图 与统计方法有关的图解:与统计方法有关的图解:以传递信息为目的的图解:以传递信息为目的的图解:如直方图、条形图如直方图、条形图 在坐标中描述变量之间关系的
14、图解在坐标中描述变量之间关系的图解一、引言一、引言 在许多研究数据中,响应在许多研究数据中,响应Y Y的对数而不是的对数而不是Y Y本身与本身与独立变量独立变量X X呈线性关系,这样就要进行半对数标绘,即呈线性关系,这样就要进行半对数标绘,即变量变量X X的坐标是自然数而响应(函数)的坐标是自然数而响应(函数)Y Y的是它的对数的是它的对数logYlogY。二、描述频数的图解二、描述频数的图解直方图、条形图、扇形图直方图、条形图、扇形图三、描述变量关系的标绘图三、描述变量关系的标绘图第四节第四节 统计估计和假设检验统计估计和假设检验 样本统计量均值样本统计量均值 和方差和方差S2S2分别是其总
15、体均值分别是其总体均值和总体方差和总体方差2 2的最佳估计。的最佳估计。置信区间(置信区间(confidence intervalconfidence interval):):是我们相信是我们相信统计量如总体均数所在的区间,由总体的性质、参数统计量如总体均数所在的区间,由总体的性质、参数的样本估计值和想达到的置信度决定。的样本估计值和想达到的置信度决定。以样本均值为对称中心的双侧置信区间:以样本均值为对称中心的双侧置信区间:P P置信区间置信区间X一、统计估计一、统计估计1.1.1.1.用用用用t t t t分布确定置信区间分布确定置信区间分布确定置信区间分布确定置信区间 P P置信区间置信区
16、间2.2.2.2.几个不同置信区间的构造几个不同置信区间的构造几个不同置信区间的构造几个不同置信区间的构造(1 1)未知,需要由样本估计未知,需要由样本估计(2 2)已知,直接代入公式已知,直接代入公式(3 3)比率的置信区间)比率的置信区间一、统计估计一、统计估计二、假设检验二、假设检验1.1.1.1.引言引言引言引言(1 1)概念)概念事先对总体参数或分布形式作出某种假设事先对总体参数或分布形式作出某种假设然后利用样本信息来判断原假设是否成立然后利用样本信息来判断原假设是否成立(2 2)类型)类型参数假设检验参数假设检验非非参数假设检验参数假设检验(3 3)特点)特点采用逻辑上的反证法采用
17、逻辑上的反证法依据统计上的小概率原理依据统计上的小概率原理 零假设(零假设(null hypothesisnull hypothesis):):关于两个总体在某一参数如均值上一致(实关于两个总体在某一参数如均值上一致(实际上差异为零)的假设际上差异为零)的假设H0H0。如如 H0H0:1 12 2 备择假设(备择假设(alternative hypothesisalternative hypothesis):):如如果舍弃果舍弃H0H0则接受则接受HaHa,HaHa也可用也可用H1H1表示。表示。如如HaHa:1 12 2例:表 观测单一总体均值的实验示例同类药物的治愈率新药的治愈率值得临床研
18、究重视得血压降低标准值临床前研究中n只大鼠血压降低均值药典片剂通则关于崩解时限的规定药片片剂平均崩解时限标示量药片片剂的平均含量假设值或标准值样本均值对此例中每一类问题的假设检验,可提出三个假设检验:对此例中每一类问题的假设检验,可提出三个假设检验:H0:H0:=0,Ha:0,Ha:0 0 H0:H0:=0,Ha:0,Ha:0 02.2.2.2.检验假设的步骤检验假设的步骤检验假设的步骤检验假设的步骤(1 1)提出检验统计量)提出检验统计量T T并进行实验并进行实验(2 2)提出零假设)提出零假设H0H0和备择假设和备择假设HaHa(3 3)规定显著性水平规定显著性水平 显著性水平:即根据统计
19、检验的结果舍弃零显著性水平:即根据统计检验的结果舍弃零假设假设H0H0(存在显著差异)而实际上不存在的概率。存在显著差异)而实际上不存在的概率。(4 4)计算检验统计量)计算检验统计量T T并进行显著性检验并进行显著性检验3.3.3.3.几种具体的假设检验几种具体的假设检验几种具体的假设检验几种具体的假设检验(1 1)已知的单样本双侧均值检验已知的单样本双侧均值检验(2 2)已知的单样本单侧均值检验已知的单样本单侧均值检验(3 3)未知的单样本双侧均值检验未知的单样本双侧均值检验 先求先求t t值,再计算置信区间,进行值,再计算置信区间,进行t t检验检验(4 4)独立样本方差)独立样本方差S
20、12S12和和S22S22的比较:的比较:F F检验检验1.1.1.1.什么是回归分析:什么是回归分析:什么是回归分析:什么是回归分析:从一组样本数据出发,确定变量之间的数学关系式从一组样本数据出发,确定变量之间的数学关系式对对这这些些关关系系式式的的可可信信程程度度进进行行各各种种统统计计检检验验,并并从从影影响响某某一一特特定定变变量量的的诸诸多多变变量量中中找找出出哪哪些些变变量量的的影影响响显显著著,哪哪些些不显著不显著利利用用所所求求的的关关系系式式,根根据据一一个个或或几几个个变变量量的的取取值值来来预预测测或或控控制制另另一一个个特特定定变变量量的的取取值值,并并给给出出这这种种
21、预预测测或或控控制制的的精精确程度确程度第五节第五节 回归分析回归分析2.2.2.2.回归模型的类型回归模型的类型回归模型的类型回归模型的类型一个自变量一个自变量一个自变量一个自变量两个及两个以上自变量两个及两个以上自变量两个及两个以上自变量两个及两个以上自变量回归模型回归模型多元回归多元回归一元回归一元回归线性线性回归回归非线性非线性回归回归线性回线性回归归非线性非线性回归回归3.3.3.3.回归模型回归模型回归模型回归模型(1 1)回答)回答“变量之间是什么样的关系?变量之间是什么样的关系?”(2 2)方程中运用)方程中运用1 1个数字的因变量个数字的因变量(响应变量响应变量)被预测的被预
22、测的变量变量1 1个或多个数字的或分类的自变量个或多个数字的或分类的自变量 (解释变解释变量量)用于预测的变量用于预测的变量(3 3)主要用于预测和估计)主要用于预测和估计4.4.4.4.概念要点概念要点概念要点概念要点(1 1)当当只只涉涉及及一一个个自自变变量量时时称称为为一一元元回回归归,若若因因变变量量 y y 与与自自变变量量 x x 之之间间为为线线性性关关系系时时称为一元线性回归称为一元线性回归(2 2)对对于于具具有有线线性性关关系系的的两两个个变变量量,可可以以用用一一条线性方程来表示它们之间的关系条线性方程来表示它们之间的关系(3 3)描描述述因因变变量量 y y 如如何何
23、依依赖赖于于自自变变量量 x x 的的方方程称为回归模型程称为回归模型5.5.5.5.简单线性回归方程的形式如下简单线性回归方程的形式如下简单线性回归方程的形式如下简单线性回归方程的形式如下 Y=Y=0+0+1 x1 x 方程的图示是一条直线,因此也称为直线回归方程的图示是一条直线,因此也称为直线回归方程方程 0 0是回归直线在是回归直线在 y y 轴上的截距,是当轴上的截距,是当 x=0 x=0 时时 y y 的期望值的期望值 1 1是直线的斜率,称为回归系数,表示当是直线的斜率,称为回归系数,表示当 x x 每变动一个单位时,每变动一个单位时,y y 的平均变动值的平均变动值6.6.6.6
24、.最小二乘法最小二乘法最小二乘法最小二乘法 回归直线是对若干个数据对(回归直线是对若干个数据对(X,YX,Y)绘制绘制的,但由于遵守正态分布的实验误差,数据对的,但由于遵守正态分布的实验误差,数据对中两个以上的点,不能恰好在一条直线上,即中两个以上的点,不能恰好在一条直线上,即恰好通过所有数据点的直线是找不到的,只能恰好通过所有数据点的直线是找不到的,只能找到一条离所有点都近的直线,所用的客观方找到一条离所有点都近的直线,所用的客观方法叫最小二乘法(法叫最小二乘法(method of least method of least squaressquares)。)。7.7.7.7.最小二乘线最小
25、二乘线最小二乘线最小二乘线 (1 1)定义)定义 给定给定n n个数据对(个数据对(X,YX,Y),),找到一条规定找到一条规定X X,Y Y关系的直线,使所有数据对(关系的直线,使所有数据对(X X,Y Y)与拟规定的与拟规定的直线在直线在Y Y轴方向的距离平方和最小轴方向的距离平方和最小用数学语用数学语言表示就是言表示就是 最小,这样的一条直线就最小,这样的一条直线就是描述是描述X X,Y Y间关系的最佳直线,称为最小二乘线。间关系的最佳直线,称为最小二乘线。(2 2)图示)图示x xy y(x xn n ,y yn n)(x x1 1,y y1 1)(x x2 2,y y2 2)(x x
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十 药学 导论 统计学 信息学 课件
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内