生物统计学复习资料-(重点、名词、问答、计算、模拟)(吐血整理)(共30页).doc
《生物统计学复习资料-(重点、名词、问答、计算、模拟)(吐血整理)(共30页).doc》由会员分享,可在线阅读,更多相关《生物统计学复习资料-(重点、名词、问答、计算、模拟)(吐血整理)(共30页).doc(30页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上生物统计学复习资料第一章生物统计学:是数理统计在生物学研究中的应用,它是应用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科,属于应用统计学的一个分支。内容:试验设计:试验设计的基本原则、试验设计方案的制定和常用试验设计的方法统计分析:数据资料的搜集、整理和特征数的计算、统计推断、方差分析、回归和相关分析、协方差分析等生物统计学的作用:1. 提供整理、描述数据资料的科学方法并确定其特征 2. 判断试验结果的可靠性3. 提供由样本推断总体的方法 4. 试验设计的原则生物统计学的研究包括了两个过程:1. 从总体抽取样本的过程抽样过程2. 从样本的统计
2、数到总体参数的过程统计推断过程第二章7样本标准差: (1)标准差的大小,受多个观测值的影响,如果观测值与观测值间差异大,标准差就大(2)在计算标准差的时候,如果对各个观测值加上或者减去一个常数a,其标准差不变;如果乘以或除以一个常数a,则标准差扩大或者缩小a倍STDEV: 基于给定样本的标准偏差STDEVP:基于给定样本总体的标准偏差8变异系数(CV):样本标准差除以样本的平均数,得到百分比(1)变异系数是样本变量的相对变量,是不带单位的纯数(2)用变异系数可以比较不同样本相对变异程度的大小1次数分布:在不同区间内变量出现的次数所构成的分布。2.资料根据生物的形状特性,可分为数量性状和质量性状
3、3间断性变数:指用计数方法获得的数据,其各个观测值必须以整数表示,在两个相邻整数间不允许带有小数的值存在。4.连续性变数:指称量、度量或测量方法所得到得数据,其各个观测值并不限制于整数,在两个数值之间可以有微量数值差异的第三个数值存在5.质量性状资料的方法:统计次数法,评分法统计次数法:于一定总体或样本内,统计其具有某个性状的个体数目及具有不同性状的个体数目,按类别及其次数或相对次数给分法:给予每类性状以相对数量的方法。6.试验资料搜集方法:调查和试验7.资料调查方法:普查和抽样调查抽样调查:根据一定的原则对研究对象抽取一部分个体进行测量或度量,把得到的数据资料作为样本进行统计处理,然后利用样
4、本特征数对总体进行推断。8.随机抽样满足条件:1)总体中每个个体被抽中的机会均相等;2)总体中任意一个个体是否被抽中是相互独立的9.统计表要求:1)标题:简明扼要,准确地说明表的内容,有时须注明时间、地点 2)标目:分横纵两项,横列在表的左侧,纵列表上端,须注明计算单位 3)数字:一律用阿拉伯数字,以小数点对齐,无数字用“/”表示 4)线条:多用三线条。上下两条边路略粗10.统计图绘制的要求:1) 标题简明扼要,列于图的下方2) 横纵坐标两轴有刻度,注明单位3) 横轴从左至右,纵轴由下而上,数值由小至大,图形长宽约为5.4或6.54) 图中要不同颜色或线条代表不同的事物时,应有图例说明11.计
5、数资料基本采用单项式分组法进行整理12.计量资料的整理一般采用组距式分组法13.次数分布图分类:条形图、饼图、直方图、多边形图、散点图14.变量的基本特征:1) 集中性:变量在趋势上有着向某一中心聚集,或者说以某一数值为中心而分布的性质。特征数是平均值2) 离散性:变量有着离中分散变异的性质。特征数是变异数,常用的指标是极差、方差、标准差和变异系数15.平均数的种类:算术平均数、中位数、纵数、几何平均数17.标准差的作用;1) 表示变量分布的离散度2) 利用标准差的大小,可以概括的估计出变量的次数分布及各类观测值在总体中所占有的比例3) 估计平均数的标准误4) 进行平均数的区间估计和变异系数的
6、计算18.组距:根据极差分成若干组,每组的距离相等,称为组距。组距=极差/组数19.自由度:样本内独立且能自由变动的离均差的个数。20.变异系数:样本的标准差除以平均数的百分比21. 平均数的用处:平均数指出了一组数据的中心位置,标志着资料所代表性状的数量水平和质量水平; 作为样本或资料的代表数据与其他资料进行比较。平均数的特征:离均差之和为零; 离均差平方和为最小。21.标准差的用处: 标准差的大小,受实验后调查资料中的多个观测值的影响,如果观测值之间的差异大,离均差就越大; 在计算标准差是如果对观察值加上一个或减去一个a,标准差不变;如果给各观测值乘以或除以一个常数a,所得的标准差就扩大或
7、缩小a倍; 在正态分布中,X+-S内的观测值个数占总个数的68.26%,X-+2s内的观测值个数占总个数的95.49%,x-+3s 内的观测值个数占总个数的99.73%。标准差的特征: 表示变量分布的离散程度; 标准差的大小可以估计出变量的次数分布及各类观测值在总体中所占的比例; 估计平均数的标准差; 进行平均数区间估计和变异数的计算。22.比较总体和样本的平均数、标准差:总体平均数=x/N,式中分母为总体观察个数N; 样本平均数x=x/n,公式中n是样本容量; 样本平均数是总体平均数的无偏估计值。总体和样本标准差都等于离均差的平方和除以样本容量; 而总体标准差= ,分母上是总体观测值个数N;
8、 而样本标准差是s= ,分母上是样本自由度n-1. 样本标准差s是总体标准差的无偏估计值。第三章:概率的计算法则:(1)乘法定理:如果A和B为独立事件,则事件A和B同时发生的概率等于各自事件的概率的乘积(2)加法定理:互斥事件A和B的和的概率等于事件A和事件B的概率之和加法定理推理1: 如果A1、A2、An为n个互斥事件,则其和事件的概率为: P(A1A2An)=P(A1)+P(A2)P(An)加法定理:如果A和B是任何两件事件,则概率分布:(1)离散型随机变量的概率分布变量(x) x1 x2 x3 xn概率(P) p1 p2 p3 pnP(x=xi)=pi (i=1,2, n)离散随机变量的
9、方差(2)连续型随机变量的概率分布连续型随机变量的概率分布1. 连续型随机变量可以取某一区间或整个实数轴上的任意一个值2. 它取任何一个特定的值的概率都等于03. 不能列出每一个值及其相应的概率4. 通常研究它取某一区间值的概率5. 用数学函数的形式和分布函数的形式来描述概率密度函数:(1)设X为一连续型随机变量,x 为任意实数,X的概率密度函数记为f(x),它满足条件(2) ,f(x)不是概率几种常见的概率分布:(适用范围,尾函数,自由度)1. 二项分布的概率函数 记作B(n,p)或者B(n,)(1)每次试验只有两个对立结果,分布记为A与 它们出现的概率分布为p与q(q1-p)(2)试验具有
10、重复性和独立性二项式分布的概率累积函数:若随机变量x服从二项式分布,则有二项分布的总体平均数为二项分布的总体标准差为:二项成数(百分数)分布的平均数:二项成数(百分数)分布的标准差:例:假设年龄6064岁的100名男性在1986年注射了一种新的流感疫苗而在第二年内死亡5人,这正常嘛?(注:1986年,6064岁的男性老人第二年的死亡率约为0.02)解:要知道100个男性的样本死亡5人是不是“异常”事件,这种估计的一个准则是寻找至少5人死亡的概率。注:通常是把概率值为0.05或者更小的概率事件识别为异常(稀有事件)。由于至少5人死亡的概率是0.05,可见100人中至少死亡5人是稍微有点异常,但不
11、是很异常。 如果至少死亡10人,那么概率是3.44*10-5,这就很不正常,因而,在没有其他证据显示此疫苗有效前,应考虑停止使用。2. 泊松分布二项式分布中,如果p值很小而n值很大( p0.1 和np5 ),则泊松分布 式中: 为参数,泊松分布的平均数、方差、标准差例:假如我们研究乳腺癌的遗传敏感性。我们发现,母亲曾患有乳腺癌的1000名4049岁的妇女,在研究开始后的1年中,有4人患有乳腺癌,而我们从大总体中知道在这相同的时间内,1000人中有1个人发生乳腺癌。试问乳腺癌有没有敏感性?解:如果用二项分布,则n1000,p1/1000,BINOMDISTnumber_sTrialsprobab
12、ility_scumulative310000.001Ture0.9810.019解:如果用泊松分布,则n1000,p1/1000, 则平均值 1则:这个事件是异常事件,则认为有乳腺癌的妇女,她们的子代具有遗传敏感性6. 正态分布求和为04 t分布:是小样本分布,小样本分布一般是指n1时,与连续型随机变量卡方分相近似,这时可以不做连续性矫正 注意:要求各个组内的理论次数不小于5,如某组理论次数小于5,则应把它与其相邻的一组或几组合并,直到理论次数大于5为止适合性检验(吻合性检验或拟合优度检验)步骤: 1. 提出无效假设,即认为观测值和理论值之间没有差异 2. 规定显著性水平 3. 计算样本卡方
13、值 4. 根据规定的显著水平和自由度计算出卡方值,再和实际计算的卡方值进行比较独立性检验步骤: 1. 提出无效假设,即认为所观测的各属性之间没有关联 2. 规定显著性水平 3. 根据无效假设计算出理论数 4. 根据规定的显著水平和自由度计算出卡方值,再和计算的卡方值进行比较。 如果接受假设,则说明因子之间无相关联,是相互独立的 如果拒绝假设,则说明因子之间的关联是显著的,不独立1. 检验主要有三种用途:一个样本方差的同质性检验,适合性检验和独立性检验。一个样本方差的同质性检验用于检验一个样本所属总体方差和给定总体方差是否差异显著,适合性检验是比较观测值与理论值是否符合的假设检验;独立性检验是判
14、断两个或两个以上因素间是否具有关联关系的假设检验。检验用途:一个样本方差的同质性检验、适合性检验、独立性检验1)适合性检验:比较观测值与理论值是否符合的假设检验。这种方法是对样本的理论值先通过一定的理论分布推算出来,然后用实际观测值与理论观测值比较,从而得出实际观测值与理论观测值之间是否吻合的结论,因此适合性检验也叫吻合性检验或拟合优度检验。2)独立性检验:实验九两个或两个以上因子彼此之间的相互独立的还是相互影响的一类统计方法。2.检验基本原理:应用理论推算值E与观测值O之间的偏离程度来决定的。理论推算值与实际观测值之间偏差越大,越不符合;偏差越小,越趋于符合;若两值完全相等时,表明理论值与实
15、际值完全符合。3. 检验的步骤为:(1)提出无效假设H0:观测值与理论值的差异由抽样误差引起即观测值=理论值 备择假设HA:观测值与理论值的差值不等于0,即观测值理论值(2)确定显著水平a.一般可确定为0.05或0.01(3)计算样本的x2,求得各个理论次数Ei,并根据各实际次数Oi,代入公式,计算出样本的x2。(4)进行统计推断4.在计算是应注意:1)任何一组的理论次数Ei都必须大于5,如果Ei5;2)在自由度df=1时,需进行连续性矫正 公式:对同一资料,进行矫正的值要比未校正的值小。当自由度df=2时,一般不需要矫正。第六章方差分析又称 F 检验 (F -test);方差分析是关于k(k
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 统计学 复习资料 重点 名词 问答 计算 模拟 吐血 整理 30
限制150内