生物统计学考试总结_1.pdf
.1 生物统计学考试总结 第一章 生物统计学:是数理统计在生物学研究中的应用,它是应用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科,属于应用统计学的一个分支。容:试验设计:试验设计的根本原则、试验设计方案的制定和常用试验设计的方法 统计分析:数据资料的搜集、整理和特征数的计算、统计推断、方差分析、回归和相关分析、协方差分析等 生物统计学的作用:1.提供整理、描述数据资料的科学方法并确定其特征 2.判断试验结果的可靠性 3.提供由样本推断总体的方法 4.试验设计的原则 相关概念:1.总体:研究对象的全体,是具有一样性质的个体所组成的集合 2.个体:组成总体的根本单元 3.样本:由总体中抽出的假设干个体所构成的集合n30 大样本;n30 小样本 4.参数:描述总体特征的数量 5.统计数:描述样本特征的数量 由于总体一般很大,有时候甚至不可能取得,所以总体参数一般不可能计算出来,而采用样本统计数来估计总体的参数 6.效应:由因素而引起试验差异的作用 7.互作:两个或两个以上处理因素间的相互作用产生的效应 生物统计学的研究包括了两个过程:1.从总体抽取样本的过程抽样过程 2.从样本的统计数到总体参数的过程统计推断过程 第二章 1算术平均数:是所有观察值的和除以观察的个数 平均数AVERAGE 特性:1样本中各观测值与平均数之差离均差的总和等于零 2样本中各观测值与其平均数之差平方的总和,比各观测值与任一数值离均差的平方和小,即离均差平方和最小 2中位数:将试验或调查资料中所有观测依从大小顺序排列,居于中间位置的观测值称为中位数,以Md表示 3众数:在一个样本的所有观察值中,发生频率最大的一个值称为样本的众数,以Mo 表示 4几何平均数:资料中有 n 个观测值,其乘积开 n 次方所得的数值,以 G 表示。5.极差全距:样本数据资料中最大观测值与最小观测值的差值 Rma*1,*2,*n mi*1,*2,*n 6样本方差:总体方差:以外的任何数值为设xa.1 用n1 代替n作,可以防止偏小估计,从而实现样本方差对总体方差的无偏估计 在统计上,自由度df n1 是指样本独立而能自由变动的观测值的个数 在计算其他统计数时,如果受到k个条件的限制,则其自由度为nk 7样本标准差:总体标准差:1标准差的大小,受多个观测值的影响,如果观测值与观测值间差异大,标准差就大 2在计算标准差的时候,如果对各个观测值加上或者减去一个常数a,其标准差不变;如果乘以或除以一个常数a,则标准差扩大或者缩小a倍 STDEV:基于给定样本的标准偏差 STDEVP:基于给定样本总体的标准偏差 8 变异系数CV:样本标准差除以样本的平均数,得到百分比 1变异系数是样本变量的相对变量,是不带单位的纯数 2用变异系数可以比较不同样本相对变异程度的大小 第三章 概率的计算法则:1乘法定理:如果 A 和 B 为独立事件,则事件 A 和 B 同时发生的概率等于各自事件的概率的乘积 2加法定理:互斥事件A和B的和的概率等于事件 A 和事件 B 的概率之和 加法定理推理 1:如果A1、A2、An为n个互斥事件,则其和事件的概率为:P(A1A2An=P(A1)+P(A2)PAn 加法定理:如果A和B是任何两件事件,则 概率分布:1离散型随机变量的概率分布 变量*1 *2 *3 *n 概率P p1 p2 p3 pn P(*=*i)=pi (i=1,2,n)离散随机变量的方差 2连续型随机变量的概率分布 连续型随机变量的概率分布 1.连续型随机变量可以取*一区间或整个实数轴上的任意一个值 2.它取任何一个特定的值的概率都等于 0 3.不能列出每一个值及其相应的概率 4.通常研究它取*一区间值的概率 5.用数学函数的形式和分布函数的形式来描述 概率密度函数:1设*为一连续型随机变量,*为任意实数,*的概率密度函数记为f(*),它满足条件(2),f(*)不是概率 几种常见的概率分布:适用围,尾函数,自由度 1.二项分布的概率函数 记作B(n,p)或者B(n,)1每次试验只有两个对立结果,分布记为A与,它们出现的概率分布为p与qq)()()(BPAPBAP)()()()(BAPBPAPBAPRiiixXPx122)()(A.1 1-p 2试验具有重复性和独立性 二项式分布的概率累积函数:假设随机变量*服从二项式分布,则有二项分布的总体平均数为 二项分布的总体标准差为:二项成数百分数分布的平均数:二项成数百分数分布的标准差:B(n,p)BINOMDIST *number_s 实验成功次数 n trials 独立实验次数 p probability_s 一次实验中成功的概率 cumulative True:False:例:假设年龄 6064 岁的 100 名男性在 1986 年注射了一种新的流感疫苗而在第二年死亡 5 人,这正常嘛.注:1986 年,6064 岁的男性老人第二年的死亡率约为 0.02 解:要知道 100 个男性的样本死亡 5 人是不是“异常事件,这种估计的一个准则是寻找至少 5 人死亡的概率。注:通常是把概率值为0.05或者更小的概率事件识别为异常 稀有事件。由于至少 5 人死亡的概率是 0.05,可见 100 人中至少死亡 5人是稍微有点异常,但不是很异常。如果至少死亡 10 人,则概率是 3.44*10-5,这就很不正常,因而,在没有其他证据显示此疫苗有效前,应考虑停顿使用。2.泊松分布 二项式分布中,如果p值很小而n值很大p0.1 和np5),则泊松分布 式中:为参数,泊松分布的平均数、方差、标准差 POISSON *事件出现的次数 mean 期望值 cumulative True:False:例:假设我们研究乳腺癌的遗传敏感性。我们发现,母亲 曾患有乳腺癌的 1000 名 4049 岁的妇女,在研究开场后的 1 年中,有 4 人患有乳腺癌,而我们从大总体中知道在这一样的时间,1000 人中有 1 个人发生乳腺癌。试问乳腺癌有没有敏感性.解:如果用二项分布,则n1000,p1/1000,BINOMDIST number_s Trials probability_s cumulative 3 1000 0.001 Ture 0.981 0.019 npxpxiix)(npqxpxiix2)(ixxPxF0)()(,.2,1,0,xnp2)()(iixXPxXP)3(XP)4(XP.1 解:如果用泊松分布,则n1000,p1/1000,则平均值1 POISSION*mean cumulative 3 1 Ture 0.981 0.019 则:这个事件是异常事件,则认为有乳腺癌的妇女,她们的子代具有遗传敏感性 3.正态分布高斯分布 为总体平均数,为总体标准差 正态分布的特征 1.当时,f(*)有最大值 2.当的绝对值相等的时候,f(*)值也相等 3.当的绝对值越大,f(*)值就越小,但永远不等于 0 4.正态分布曲线完全由函数和来决定 5.正态分布曲线在处各有一个拐点 6.正态分布求和为 0 NORMDIST *i*函数值的区间点 Mean 算术平均值 Standard_dev 标准差 cumulative True:累积 False:概率密度函数值 标准正态分布:NORMSDIST *i Z 标准正态分布的区间点 NORMSINV u probability 正态分布概率,介于 01 之间,含 0,1 4 t 分布:是小样本分布,小样本分布一般是指n t)=probability,即P(|*|t)=P(*t)2 单尾 t 值可通过用两倍概率替换概率而求得 eg:如果概率为 0.05 而自由TINV Probability 双尾学生 t 分布的概率 Degrees_freedom 自由度 )3(XP)4(XPxxx1,02xu.1 度为 10,双尾值由 TINV(0.05,10)计算得到 2.28139;而同样概率和自由度的单尾值由 TINV(2*0.05,10)计算得到 1.812462。5.卡方分布 P45 6.F 分布 1、概率抽样:根据的概率选取样本 简单随机抽样:完全随机地抽选样本 分层抽样:总体分成不同的“层,然后在每一层进展抽样 整群抽样:将一组被调查者群作为一个抽样单位 等距抽样:在样本框中每隔一定距离抽选一个被调查者 2、非概率抽样:不是完全按随机原则选取样本 非随机抽样:由调查人员自由选取被调查者 判断抽样:通过*些条件过滤来选择被调查者 3、配额抽样:选择一群特定数目、满足特定条件的被调查者 抽样分布:从一个给定的总体中抽取不管是否有放回容量或大小为n的所有可能的样本,对于每一个样本,计算出*个统计量如样本均值或标准差的值,不同的样本得到的该统计量的值是不一样的,由此得到这个统计量的分布,称之为抽样分布 1.所有样本指标如均值、比例、方差等所形成的分布称为抽样分布 2.是一种理论概率分布 3.随机变量是 样本统计量样本均值,样本比例等 4 结果来自容量一样的所有可能样本 符号 样本平均数的根本性质:1样本均值的均值数学期望等于总体均值x 定义:一个参数 的估计量是,如果)(E,则称 是 的无偏估计 2样本均值的方差等于总体方差的 1/nnx22 3样本平均数的标准误差的定义 4 当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值 也服从正态分布,的数学期望为,方差为2/n。即 N(,2/n)中心极限定理:设从均值为m,方差为s2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布 两个独立样本平均数差数的分布 P44 第四章 假设检验:又称显著性检验:根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际结果,经过一定的计算,做出在一定概率意义上应该承受的那种假设的推断。如果抽样结果使小概率事件发生,则拒绝假设。如果抽样结果没有使小概率事件发生,则承受假设 XXX.1 特点:1采用逻辑上的反证法2依据统计学上的小概率原理 生物统计学上,一般认为:等于或小于 0.05 或 0.01 的概率为小概率 在一次试验中,一个几乎不可能发生的事件发生的概率。假设检验的步骤:1、提出假设 2、确定适当的检验统计量 3、确定显著性水平 a 4、计算概率 5、推断是否承受假设 两类:1弃真错误;2取伪错误 一大样本平均数的假设检验u检验 应用围:1总体方差 2 2总体方差 2未知,但样本为大样本(30n),用s2来代替 2 两个样本平均数比较的 u 检验 二、小样本平均数的假设检验t检验 应用围:总体方差 未知,且样本为小样本(),采用t检验 当总体方差 为未知时,当样本容量小于 30,检验一个样本平均数 是否属于平均数为 的指定总体,其 遵循自由度为dfn1 的t分布 T 分布的计算:2、成组数据平均数比较的t 检验 成组数据资料是两个样本的各个变量从各自总体中抽取的,即两个抽样样本彼此独立。这样,不管两样本容量是否一样,所得数据皆为成组数据。两个样本的总体方差相等,自由度dfn1n22 两个样本的总体方差不相等,但抽样样本数相等,自由度dfn1 3、成对数据平均数比较的t 检验 第五章 统计假设:H0:观测值与理论值的差异是由随机误差引起 HA:观测值与理论值之间有真实差异 所以卡方值是度量实际观测值与理论值偏南程度的一个统计量 卡方值越小,说明观测值与理论值越接近 卡方值越大,说明观测值与理论值相差越大 卡方值为 0,说明H0严格成立,且它不会有下侧否认区,只能进展右尾检验 连续性:由于离散型资料的卡方检验只是近似地服从连续型变量的卡方分布,所以在对离散型资料进展卡方检验计算的时,结果常常偏低,特别是当自由度df=1 时,有较大偏差,为此需要进展矫正,当自由度df1 时,与连续型随机变量卡方分相近似,这时可以不做连续性矫正 注意:要求各个组的理论次数不小于 5,如*组理论次数小于 5,则应把它与其相邻的一组或几组合并,直到理论次数大于 5 为止 适合性检验吻合性检验或拟合优度检验步骤:1.提出无效假设,即认为观测值和理论值之间没有差异 2.规定显著性水平 3.计算样本卡方值 4.根据规定的显著水平和自由度计算出卡方值,再和实际计算的卡方值进展比较 独立性检验步骤:1.提出无效假设,即认为所观测的各属性之间没有关联 230n20 xsxx.1 2.规定显著性水平 3.根据无效假设计算出理论数 4.根据规定的显著水平和自由度计算出卡方值,再和计算的卡方值进展比较。如果承受假设,则说明因子之间无相关联,是相互独立的 如果拒绝假设,则说明因子之间的关联是显著的,不独立 第六章 方差分析又称 F 检验 F-test;方差分析是关于k(k3)个样本平均数的假设测验方法,是将总变异按照来源分为处理效应和试验误差,并做出其数量估计。发现各变异原因在总变异中相对重要程度的一种统计分析方法。总变异分解为组间变异和组变异。组变异是个体差异所致,是抽样误差。组间变异可能由两种原因所致,一是抽样误差;二是处理不同。在抽样研究中抽样误差是不可防止的,故导致组间变异的第一种原因肯定存在;第二种原因是否存在,需通过假设检验作出推断 方差分析根本思想:1、把k个总体当作一个整体对待 2、把观察值的总变异的平方和及自由度分解为不同来源的平方和及自由度 3、计算不同方差估计值的比值 4、检验各样本所属的平均数是否相等 实际上是观察值变异原因的数量分析 方差分析应用条件:1、各样本须是相互独立的随机样本 2、各样本来自正态分布总体 3、各总体方差相等,即方差齐 方差分析根本用途:1、多个样本平均数的比较 2、多个因素间的交互作用 3、回归方程的假设检验 4、方差的同质性检验 总平方和=处理间平方和处理平方和 总自由度=处理间自由度处理自由度 统计假设的显著性检验F检验:F 检验的目的:推断处理间的差异是否存在 方差分析中的F检验总是单尾检验,而且为右尾检验 F越大,越说明组间方差是主要方差来源,因子影响越显著;F越小,越说明随机方差是主要的方差来源,因子的影响越不显著 F检验如果否认了H0,承受了HA,说明试验的总变异主要来源于处理间的变异 多重比较:多个平均数的相互比较 常用的:1、最小显著差数法LSD法 2、最小显著极差法LSR法新复极差检验SSR法q 检验 总结:差异不显著标同一字母,差异显著标不同字母 最小显著极差法LSR 法 把平均数的差异看成是平均数的极差(range)根据极差围所包括的处理数 称为秩次距k的不同,而采用不同的检验尺度叫做 最小显著极差LSR eeetttdfSSsdfSSs22处理内方差处理间方差.1 秩次距是指当平均数由大到小排序后,相比较的两个平均数之间含这两个平均数包含的平均数个数 I 类错误下降、工作量加大 新复极差法 q 检验法 两因素方差分析:互作:*一因素在另一因素的不同水平上所产生的效应不同,则二因素间存在交互作用,简称互作。互作效应实际是由于两个或多个试验因素的相互作用而产生的效应 采用 E*CEL 计算重复观测值的二因素方差分析:1、数据输入区域必须有标题 2、直接分析结果仅适用用固定模型 第七章 相关系数的显著性检验 上述根据实际观测值计算得来的相关系数r是样本相关系数,它是双变量正态总体中的总体相关系数 的估计值。样本相关系数r是否来自 0 的总体,还须对样本相关系数r进展显著性检验。此 时 无 效 假 设、备 择 假 设 为 HO:=0,HA:0。与直线回归关系显著性检验一样,可采用t检验法与 F 检验法对相关系数r的显著性进展检验。第八章 对于同一组实测数据,根据散点图的形状,可用假设干相近的曲线拟合,同时建立假设干曲线回归方程,然后根据R2的大小和生物学等相关专业知识,选择即符合生物学规律,拟合度又较高的曲线回归方程来描述两个变量间的曲线回归关系 第九章 样本容量确实定 第十章 实验设计的根本原则和作用 常用的试验设计的方法:1、比照设计 2、随机区组设计 3、裂区组设计 4、正交设计 比照设计及其统计分析:比照设计试验结果的统计分析:分析步骤:3、试验结论分析:对邻近 CK 的百分数越高大于 100,就越可能优于对照,但绝不能认为超过 100的所有处理都显著地优于对照,因为将处理与相邻 CK 相比只是减少了误差,实际误差仍然存在,要 判断*个处理确实优于对照,一般至少要超过对照 10;凡仅超过对照 5的,均宜继续试验再做结论。该判断方法由于不同试验的误差大小不同,仅是一种参考 随机区组设计及其统计分析:设计方法:1、将试验单位按性质不同分成与重复数一样多的区组;2、每个区组非试验相对一致,并随机排列一套试验处理;3、不同区组间非试验因素允许有所不同,将不同重复也随机排列于各个区组 4、最终使区组非试验因素差异最小,而区组间非试验因素差异最大,每个区组均包括全部处理 5、统计分析采用方差分析,将区组间误差分解出来,从而降低试验误差,提高试验精度 单因素随机区组:把区组看作一个因素,和试验因素一起当作二因素试验,按照二因素无重.1 复观察值的方差分析进展,主要做区组间、处理间和试验误差 3 个方面的方差分析 二因素随机区组:裂区设计及其统计分析:统计分析采用方差分析:区组间、A 因素、B 因素、AB 互作、主区误差和副区误差的方差分析 正交设计及其统计分析:正交表:正交设计法中合理安排实验,并对数据进展统计分析的一种特殊表格。正交设计的根本步骤:1明确试验目的,确定试验指标 2挑选因素,选取水平,列出因素水平表 3选用正交表,进展表头设计 根据试验因素、水平数和是否需要估计因素间的相互作用来选择适宜正交表。原则:能安排下全部试验因素,又要使局部试验的水平组合尽可能小。各因素的水平数减 1 之和加 1,即为所需的最少试验次数或处理组合数,假设因素间有交互作用,需要再加上交互的作用的自由度。表头设计就是将试验因素安排到所选正交表相应的列中。表头设计原则:1、不要让主效应间,主效应与交互作用间有混杂现象;2、存在交互作用,查交互作用表 4明确试验方案,进展试验,得到以试验指标形式表示的试验结果。5对试验结果进展统计分析 通常采用两种方法:直观分析法、方差分析法。通过试验结果分析,可以得到因素主次顺序、最正确水平组等有用信息。6进展验证试验,做进一步分析。