统计基础培训幻灯片.ppt
统计基础培训第1页,共55页,编辑于2022年,星期二1 统计基础知识统计基础知识2 统计图和统计表统计图和统计表3 excel在统计分析中的应用在统计分析中的应用主要内容主要内容第2页,共55页,编辑于2022年,星期二1 1 统计基础知识统计基础知识1.1 1.1 统计描述的意义统计描述的意义1.2 1.2 频数表频数表1.3 1.3 集中趋势的描述集中趋势的描述1.4 1.4 离散趋势的描述离散趋势的描述1.5 1.5 抽样误差抽样误差1.6 1.6 正态分布正态分布第3页,共55页,编辑于2022年,星期二1.1 1.1 统计描述的意义统计描述的意义社会活动看似杂乱无章,对个体来说有很多不确定性,但总体上社会活动看似杂乱无章,对个体来说有很多不确定性,但总体上都是服从一些统计规律的。都是服从一些统计规律的。科研工作有很多数据,统计描述就是对这些数据进行加工和提炼,找出科研工作有很多数据,统计描述就是对这些数据进行加工和提炼,找出规律、预测未知。规律、预测未知。统计描述是最简洁有力的语言。统计描述是最简洁有力的语言。统计描述通过描述性指标和统计图(表)反映资料的分布规律及其数量特统计描述通过描述性指标和统计图(表)反映资料的分布规律及其数量特征。征。第4页,共55页,编辑于2022年,星期二1.2 1.2 频数表频数表Table 1.Table 1.某单位某单位19991999年的年的101101名职工的血清总胆固醇含量。名职工的血清总胆固醇含量。频数表:将变量值分为不同数量的组段,清点各组段的例数。频数表:将变量值分为不同数量的组段,清点各组段的例数。意义:概括了解变量值在各组段的意义:概括了解变量值在各组段的分布和规律分布和规律。2.354.213.325.354.174.132.784.263.584.344.844.414.783.953.923.583.664.283.263.52.74.614.752.913.914.594.192.684.524.913.183.684.833.873.953.914.154.554.83.414.123.955.084.533.923.585.353.843.63.514.063.073.554.233.574.833.523.844.53.964.53.274.523.194.593.753.984.134.263.633.875.713.34.734.175.133.784.573.83.933.783.994.484.284.065.265.253.985.033.513.863.023.74.333.293.254.154.364.953.003.26第5页,共55页,编辑于2022年,星期二1.1.确定全距确定全距:R=R=最大值最大值最小值最小值=5.71-2.35=3.36=5.71-2.35=3.362.2.定组数(定组数(8-138-13组)和组距组)和组距:各组段的起点和终点分别称为上限和下限,某组段的组中值为该组段的(上限各组段的起点和终点分别称为上限和下限,某组段的组中值为该组段的(上限+下限)下限)/2/2。相邻两组段的下限之差为组距。常用全距的。相邻两组段的下限之差为组距。常用全距的1/101/10取整做组距。取整做组距。3.36/10=0.3360.3 3.36/10=0.3360.33.3.写出组段的下限:写出组段的下限:第第1 1组段值小于或等于最小变量值,并以整数为好。如组段值小于或等于最小变量值,并以整数为好。如2.32.34.4.列出频数表:列出频数表:变量(变量(x x)归为下限)归为下限x x上限。上限。计量资料频数表的编制步骤计量资料频数表的编制步骤第6页,共55页,编辑于2022年,星期二Table 1.Table 1.100100名职工血清总胆固醇频数表名职工血清总胆固醇频数表组段组段频数频数f ff f(%)2.3-2.3-1 11.01.02.6-2.6-3 33.03.02.9-2.9-6 66.06.03.2-3.2-8 88.08.03.5-3.5-171717.017.03.8-3.8-202020.020.04.1-4.1-171717.017.04.4-4.4-121212.012.04.7-4.7-8 88.08.05.0-5.0-5 55.05.05.3-5.3-2 22.02.05.3-5.65.3-5.61 11.01.0合计合计100100100.0100.0第7页,共55页,编辑于2022年,星期二频数分布图频数分布图直方图直方图正态分布正态分布:频数分布的集中位置在中间,左右两侧大致对称。频数分布的集中位置在中间,左右两侧大致对称。第8页,共55页,编辑于2022年,星期二正偏态分布正偏态分布:频数分布不对称,集中位置偏向数值小的一侧。频数分布不对称,集中位置偏向数值小的一侧。第9页,共55页,编辑于2022年,星期二负偏态分布负偏态分布:集中位置偏向数值大的一侧。集中位置偏向数值大的一侧。第10页,共55页,编辑于2022年,星期二1.3 1.3 集中趋势的描述集中趋势的描述 描述对象:描述同质观察值描述对象:描述同质观察值平均水平平均水平或或中心位置。中心位置。1.3.1 1.3.1 均数(均数(averageaverage,meanmean):):基本公式:基本公式:加权法公式:加权法公式:应用范围:适用于正态或类似正态分布的数值变量资料。应用范围:适用于正态或类似正态分布的数值变量资料。第11页,共55页,编辑于2022年,星期二1.3.2 1.3.2 几何均数几何均数(G)(G)应用范围:适用于数值呈应用范围:适用于数值呈倍数变化倍数变化或数据经过对数变换后或数据经过对数变换后 呈呈正态分布正态分布的数值变量资料。的数值变量资料。基本公式:基本公式:加权法公式:加权法公式:第12页,共55页,编辑于2022年,星期二1.3.3 1.3.3 中位数中位数定义:将一组变量值由小到大依次排列,居以中间位定义:将一组变量值由小到大依次排列,居以中间位 次的观察值即为中位数次的观察值即为中位数使用范围:适用于描述使用范围:适用于描述偏态分布偏态分布资料的平均水平资料的平均水平。n n为偶数为偶数n n为奇数为奇数第13页,共55页,编辑于2022年,星期二1.3.4 1.3.4 百分位数(百分位数(percentilepercentile)定义:将一组变量值由小到大依次排列,定义:将一组变量值由小到大依次排列,nX%nX%为第为第x x百分位数的秩次,其对应百分位数的秩次,其对应的变量值(的变量值(x x)为第)为第x x百分位数,记为百分位数,记为PxPx。中位数即为中位数即为P P5050。第第p p百分位数的计算:百分位数的计算:第第1 1步:以递增顺序排列原始数据(即从小到大排列)。步:以递增顺序排列原始数据(即从小到大排列)。第第2 2步:计算指数步:计算指数i=np%i=np%第第3 3步:步:l l)若)若i i不是整数,将不是整数,将i i向上取整。向上取整。大于大于i i的毗邻整数即为第的毗邻整数即为第p p百分位数的位置。百分位数的位置。2)2)若若i i是整数,则第是整数,则第p p百分位数是第百分位数是第i i项项与第(与第(i il l)项数据的平均值。)项数据的平均值。第14页,共55页,编辑于2022年,星期二1.4 1.4 离散程度的描述离散程度的描述1.4.1 1.4.1 全距(全距(RangeRange,R R):):定义:定义:R=R=最大值最大值 最小值最小值意义:意义:R R值越大,表示该组数据的变异越大。值越大,表示该组数据的变异越大。缺点:缺点:数据利用不全,部分信息损失,在例数少时结果不稳定。数据利用不全,部分信息损失,在例数少时结果不稳定。仅考虑最大值与最小值之差,不能反映组内其他观察值的仅考虑最大值与最小值之差,不能反映组内其他观察值的 变异度。变异度。描述对象:反映一组同质观察值的变异度描述对象:反映一组同质观察值的变异度第15页,共55页,编辑于2022年,星期二1.4.2 1.4.2 四分位数间距四分位数间距(quartile,(quartile,简记为简记为Q)Q):定义:为上四分位数定义:为上四分位数Q QU U与下四分位数与下四分位数Q QL L之差。之差。Q=PQ=P75%75%-P-P25%25%意义:作为变异指标比极差稳定。常用于表示偏态分布资料的变异。意义:作为变异指标比极差稳定。常用于表示偏态分布资料的变异。Q Q越大,变异度越大;反之,越大,变异度越大;反之,Q Q越小,变异度越小。越小,变异度越小。第16页,共55页,编辑于2022年,星期二1.4.3 1.4.3 方差和标准差方差和标准差(standard deviation,STDEV)(standard deviation,STDEV)总体方差总体方差(2)(2)总体标准差总体标准差()()样本标准差样本标准差(s)(s)第17页,共55页,编辑于2022年,星期二1.4.41.4.4 变异系数变异系数(CV)(CV)应用:应用:2.2.比较组单位相同比较组单位相同,但均数相差悬殊的组间变异程度但均数相差悬殊的组间变异程度.CV CV越大,表示数据变异越大。越大,表示数据变异越大。常用于衡量方法、仪器的精密度。常用于衡量方法、仪器的精密度。公式:公式:1.1.组间单位不同时变异程度的比较。组间单位不同时变异程度的比较。意义:意义:第18页,共55页,编辑于2022年,星期二1.5 1.5 抽样误差抽样误差 1.5.1 1.5.1 抽样误差抽样误差抽样误差:抽样误差:由于个体变异的存在,抽样研究所造成的样本统计量与总体参数之间的差异,由于个体变异的存在,抽样研究所造成的样本统计量与总体参数之间的差异,称为抽样误差。称为抽样误差。均数的抽样误差:均数的抽样误差:这种由抽样研究造成的样本均数与总体均数间的差异称为均数的抽样误这种由抽样研究造成的样本均数与总体均数间的差异称为均数的抽样误差。差。第19页,共55页,编辑于2022年,星期二样本均数的标准差称均数的标准误样本均数的标准差称均数的标准误1.5.2 1.5.2 标准误(标准误(standard errorstandard error)定义:定义:公式:公式:意义:意义:反映均数抽样误差大小的指标。反映均数抽样误差大小的指标。标准误大,表示抽样误差大;标准误大,表示抽样误差大;标准误小,表示抽样误差小。标准误小,表示抽样误差小。第20页,共55页,编辑于2022年,星期二1.6 1.6 正态分布正态分布频数分布与正态分布曲线示意图频数分布与正态分布曲线示意图第21页,共55页,编辑于2022年,星期二正态分布曲线下面积的含义正态分布曲线下面积的含义1.1.表示变量值(表示变量值(x x)在)在a-ba-b区间变量值所占全部(总体)变量值的比例或区间变量值所占全部(总体)变量值的比例或概率概率(p)(p)。2.2.变量值在整个曲线下的面积为变量值在整个曲线下的面积为100%,100%,或出现的概率为或出现的概率为1 1。第22页,共55页,编辑于2022年,星期二正态分布曲线理论上的特征正态分布曲线理论上的特征(1 1)以)以X=X=为中心为中心,X X值呈钟型分布。值呈钟型分布。(2 2)在)在 X=X=处,处,f f(x x)取最大值。)取最大值。(3 3)正态分布由)正态分布由 、决定决定 正态分布的位置和形状。正态分布的位置和形状。随随不同,曲线位置不同,称不同,曲线位置不同,称为位置参数。为位置参数。越大,曲线形状不同,越大,曲线形状不同,称称为形状参数。为形状参数。第23页,共55页,编辑于2022年,星期二正态分布参数位置变化示意图正态分布参数位置变化示意图第24页,共55页,编辑于2022年,星期二正态分布变异度不同变化示意图正态分布变异度不同变化示意图第25页,共55页,编辑于2022年,星期二2 2 统计表与统计图统计表与统计图2.1 2.1 统计表统计表2.1.1 2.1.1 统计表的结构统计表的结构医院有效病例无效病例合计甲121830乙31940丙205070合计6377140表2 2002年某地三医院同种感冒药治疗鼻塞的效果横标目横标目纵标目纵标目表号表号 标题标题横标目名称横标目名称第26页,共55页,编辑于2022年,星期二2.1.2 2.1.2 编制统计表的原则编制统计表的原则 重点突出,一张表只表达一个中心内容。重点突出,一张表只表达一个中心内容。主语在左,宾语在右,从左至右构成一句完整而通顺的话。主语在左,宾语在右,从左至右构成一句完整而通顺的话。简单明了,文字、数字与线条尽量简洁。简单明了,文字、数字与线条尽量简洁。第27页,共55页,编辑于2022年,星期二2.1.3 2.1.3 编制统计表的要求编制统计表的要求标题标题:概括说明表的内容,必要时注明时间和地点,列于表的上方居中。字数:概括说明表的内容,必要时注明时间和地点,列于表的上方居中。字数一般不超过一般不超过2020个。个。标目标目:简明确切,有单位的要注明单位。横标目列于表的左侧,为被:简明确切,有单位的要注明单位。横标目列于表的左侧,为被研究的事物;纵标目列于表的上端,为横标目的统计指标。研究的事物;纵标目列于表的上端,为横标目的统计指标。数字数字:一律用阿拉伯字表示;同一指标的小数位数应一致并对齐。表中暂缺:一律用阿拉伯字表示;同一指标的小数位数应一致并对齐。表中暂缺或无数字者分别以或无数字者分别以“”和和“”表示,表示,数字为零者要记做数字为零者要记做“0”0”,表,表内不留内不留空格。空格。线条线条:除表的顶线、底线、纵标目下、合计上的横线外,其余线均省略;顶线:除表的顶线、底线、纵标目下、合计上的横线外,其余线均省略;顶线和底线应略粗。表的左上角不宜用斜线。和底线应略粗。表的左上角不宜用斜线。第28页,共55页,编辑于2022年,星期二2.2 2.2 统计图统计图条图条图 (bar chart)(bar chart)圆图(圆图(pie chartpie chart)百分比条图(百分比条图(percent bar chartpercent bar chart)线图(线图(line graphline graph)直方图(直方图(histogramhistogram)散点图(散点图(scatter diagramscatter diagram)统计地图(统计地图(statistical mapstatistical map)2.2.1 2.2.1 统计图的种类统计图的种类第29页,共55页,编辑于2022年,星期二1.1.按资料的性质和分析目的选用适合的图形:间断性资料选用条图、圆图、百分条图;连按资料的性质和分析目的选用适合的图形:间断性资料选用条图、圆图、百分条图;连续性资料选用线图、直方图。续性资料选用线图、直方图。2.2.要有标题,扼要说明资料的内容,必要时注明时间、地点,一般写在图的下面。要有标题,扼要说明资料的内容,必要时注明时间、地点,一般写在图的下面。3.3.条图、线图和直方图都有纵轴与横轴。纵横坐标长度的比例一般约条图、线图和直方图都有纵轴与横轴。纵横坐标长度的比例一般约5 5:7 7(或(或7 7:5 5)为宜。)为宜。4.4.纵轴和横轴应标注标目及其单位;标明尺度。纵轴和横轴应标注标目及其单位;标明尺度。5.5.比较不同事物时,用不同的线条或颜色表示,要附图例说明。比较不同事物时,用不同的线条或颜色表示,要附图例说明。2.2.2 2.2.2 绘制统计图的基本要求绘制统计图的基本要求第30页,共55页,编辑于2022年,星期二2.2.3 2.2.3 条图条图 用直条的长度表示相互独立的统计指标的大小用直条的长度表示相互独立的统计指标的大小,可分为:可分为:单式条图单式条图;复式条图复式条图;分段条图分段条图 误差条图误差条图图图2-17 20002-17 2000年三大城市四苗接种率年三大城市四苗接种率()第31页,共55页,编辑于2022年,星期二图图2-27 2-27 四种营养素喂养小白鼠三四种营养素喂养小白鼠三周后所增体重(克)周后所增体重(克)图图2-26 2-26 老、中、青三代的结核菌素阳老、中、青三代的结核菌素阳性率与强阳性率()性率与强阳性率()第32页,共55页,编辑于2022年,星期二3 excel3 excel在统计分析中的应用在统计分析中的应用3.1 3.1 利用利用excelexcel进行进行T T检验检验3.2 3.2 利用利用excelexcel进行直线相关方程计算进行直线相关方程计算第33页,共55页,编辑于2022年,星期二3.1 3.1 利用利用excelexcel进行进行T T检验检验小鼠对子号12345678910实验组3.0 2.32.41.14.03.72.71.92.61.3对照组3.6 4.54.24.43.75.67.04.15.04.5表表 1 1 某化合物抑瘤实验的结果某化合物抑瘤实验的结果第34页,共55页,编辑于2022年,星期二Step 1 Step 1 建立建立excelexcel表格表格第35页,共55页,编辑于2022年,星期二Step 2 Step 2 选择选择TTESTTTEST函数函数第36页,共55页,编辑于2022年,星期二第37页,共55页,编辑于2022年,星期二Step 3 Step 3 输入各个参数输入各个参数第38页,共55页,编辑于2022年,星期二第39页,共55页,编辑于2022年,星期二第40页,共55页,编辑于2022年,星期二Step 4 Step 4 点击点击“确定确定”,返回,返回P P值值第41页,共55页,编辑于2022年,星期二Step 5 Step 5 结果分析结果分析P P0.050.05,小概率事件,实验组与对照组存在显著性差异,小概率事件,实验组与对照组存在显著性差异,说明该药物有效。说明该药物有效。在柱状图中,在柱状图中,P P0.050.05 用用*标识,标识,P P 0.010.01时,用时,用*表示。表示。P P0.050.05,实验组与对照组没有显著性差异,说实验组与对照组没有显著性差异,说明该药物无效明该药物无效 第42页,共55页,编辑于2022年,星期二3.2 3.2 利用利用excelexcel进行直线相关方程计算进行直线相关方程计算药物浓度(g/l)00.010.020.030.040.050.060.070.080.1OD76000.1150.2440.3840.5260.6480.7820.9061.0291.262表表 1 1 不同药物浓度的吸收值不同药物浓度的吸收值 第43页,共55页,编辑于2022年,星期二Step 1 Step 1 建立建立excelexcel文件文件第44页,共55页,编辑于2022年,星期二Step 2 Step 2 插入插入-图表图表-散点图散点图第45页,共55页,编辑于2022年,星期二第46页,共55页,编辑于2022年,星期二Step 3 Step 3 输入横标目和纵标目输入横标目和纵标目第47页,共55页,编辑于2022年,星期二Step 4 Step 4 点击点击“完成完成”小数位数小数位数不一致不一致第48页,共55页,编辑于2022年,星期二Step 5 Step 5 修改坐标轴修改坐标轴右键右键-坐标轴格式坐标轴格式-数字数字-选数值,小数位数为选数值,小数位数为2 2第49页,共55页,编辑于2022年,星期二第50页,共55页,编辑于2022年,星期二Step 6 Step 6 添加趋势线添加趋势线第51页,共55页,编辑于2022年,星期二第52页,共55页,编辑于2022年,星期二第53页,共55页,编辑于2022年,星期二天津艾赛博生物技术有限公司(机密)Step 7 Step 7 完成完成第54页,共55页,编辑于2022年,星期二Thank you!第55页,共55页,编辑于2022年,星期二