统计学基础课程学习.pptx
《统计学基础课程学习.pptx》由会员分享,可在线阅读,更多相关《统计学基础课程学习.pptx(112页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、会计学1统计学基础统计学基础(jch)第一页,共112页。第一节第一节 统计学的一些统计学的一些(yxi)(yxi)基本概念基本概念 1.总体与样本2.变量与随机变量3.同质与变异4.参数与统计量5.误差(wch)与错误6.准确性与精确性第2页/共112页第二页,共112页。1.总体总体(zngt)与样本与样本 Population and sample样本:从总体中随机抽取(chuq)的部分观察单位。如某单位男士的身高总体:根据研究目的确定的同质研究对象的全体(集合)。如成年人的身高。分有限(yuxin)总体与无限总体第3页/共112页第三页,共112页。从总体中得到样本的方法:抽样(chu
2、 yn)。(抽样(chu yn)方法与样本量)从样本推论总体的方法:统计推断 (区间估计,假设检验等)抽样抽样(chu yn)与推断与推断第4页/共112页第四页,共112页。p变量可以(ky)测量的任何特征或属性。Anycharacteristicorattributethatcanbemeasured。p如热量值、蛋白质含量、碳水化合物含量。p随机变量在概率论中称变量为随机变量2、变量(binling)与随机变量(binling)Variableandrandomvariable第5页/共112页第五页,共112页。3、变量、变量(binling)(随机变量(随机变量(binling))的
3、分类)的分类pp 离散型变量(binling)(discrete variable):pp 计数资料(15,17,24,)pp 连续性变量(binling)(continuous variable):pp 计量资料(1.65,1.73,1.77,)pp 有序变量(binling)(ordinal variable):pp 等级资料(优、良、中、差)第6页/共112页第六页,共112页。4.参数参数(cnsh)与统计与统计量量 Parameter and statistic参数:总体的统计指标,如总体均数、标准差,采用希腊字母分别记为、。通常(tngchng)是固定的常数。总体总体(zngt)(
4、zngt)样本样本抽样 统计量 参 数 推断统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为。参数附近波动的随机变量。第7页/共112页第七页,共112页。5.误差误差(wch)与错误与错误Error and mistake误差(wch):试验中不可控因素所引起的实际观察值与客观真实值(真值)之差p系统误差systematicerrorp随机误差randomerror错误:试验(shyn)过程中,人为作用引起的差错如药品称量错误,数据录入错误等第8页/共112页第八页,共112页。误差(Error)测量值=真值+随机误差+非随机误差Xi=i+i1随机误差(抽样误差):影响因素众
5、多,变化无方向性,不可避免,但可用统计方法进行分析(fnx)。2系统误差受确定因素影响,大小变化有方向性。3非系统误差(错误)研究者偶然失误而造成的误差。偏差bias可以(ky)避免第9页/共112页第九页,共112页。6.准确性与精确性准确性与精确性准确度(accuracy)或真实性(validity):观察值与真值的接近程度,受系统误差的影响(常用指标:如灵敏度、特异性)。精密度(precision)、也称可靠(kko)度(reliability)或重复性(repeatability):重复观察时观察值与其均值的接近程度,受随机误差的影响(常用指标:一致百分率、Kappa值)。第10页/共
6、112页第十页,共112页。系统误差使数据(shj)偏离了其理论值,影响数据(shj)的准确度。随机误差使数据(shj)相互分散,影响了数据(shj)的精密度。准确度和精密度都好 准确度差、精密度好 准确度?精密度差 准确度和精密度都差 第11页/共112页第十一页,共112页。第二节计量(jling)资料的统计描述连续型变量(可测量的变量)频数表与频数分布平均指标(算术均数、几何均数、中位数、众数(zhnsh))变异指标(极差、百分位数与四分位间距、方差、标准差、变异系数)第12页/共112页第十二页,共112页。一、频数一、频数(pn sh)表与表与频数频数(pn sh)分布分布(freq
7、uency table and frequency distribution)第13页/共112页第十三页,共112页。160名正常成年名正常成年(chngnin)女子的女子的血清甘油三酯(血清甘油三酯(mmol/L)编号编号血清甘油三脂血清甘油三脂编号编号血清甘油三脂血清甘油三脂1 10.510.512 20.520.521531531.651.653 30.590.591541541.661.664 40.610.611551551.671.675 50.610.611561561.671.676 60.620.621571571.691.697 70.630.631581581.71.7
8、8 80.640.641591591.711.711601601.771.77第14页/共112页第十四页,共112页。组段组段 (1)划划 记记(2)频数,频数,f(3)组中值,组中值,X(4)0.5 30.550.6正正90.650.7正正正正120.750.8正正正正130.850.9正正正正正正170.951.0正正正正正正181.051.1正正正正正正正正201.151.2正正正正正正181.251.3正正正正正正171.351.4正正正正131.451.5正正91.551.6正正 81.651.71.8 合计合计 31.75160第15页/共112页第十五页,共112页。男子(nn
9、z)血清总胆固醇水平(mmol/L)Stem-and-Leaf Plot Frequency Stem&Leaf 5.00 2.78999 13.00 3.0111222333444 34.00 3.5555555566666666777778888999999999 32.00 4.00000001111111222223333334444444 35.00 4.55555555566666666677777888888899999 17.00 5.00112222233333344 10.00 5.5555677899 4.00 6.0022 Stem width:1.00 Each le
10、af:1 case(s)茎叶图茎叶图第16页/共112页第十六页,共112页。二二.平均指标平均指标总称为平均数(average)反映了资料的集中趋势(centraltendency)。常用的有:1.算术均数(arithmeticmean),简称均数(mean)2.几何均数(geometricmean)3.中位数(median)4.众数(zhnsh)(mode)5.调和均数(harmonicmean)6.截尾平均值(5%trimmedmean)第17页/共112页第十七页,共112页。1.均数(均数(mean)适用条件(tiojin):资料呈正态或近似正态分布的资料第18页/共112页第十八页
11、,共112页。2.几何均数(几何均数(geometric mean)第19页/共112页第十九页,共112页。几何均数的适用几何均数的适用(shyng)条件与条件与实例实例适用条件(tiojin):呈倍数关系的等比资料或对数正态分布(正偏态)资料;如增长速度、抗体滴度资料抗体(kngt)的效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。此例的算术均数为22222,显然不能代表滴度的平均水平。对于同一资料,几何均数中位数众数(zhnsh)负偏态分布时:均数中位数 几何平均数 调和平均数 上述五种(w zhn)平均数,最常用的是算术平均数。几种(jzhn)平均数
12、之间的关系第28页/共112页第二十八页,共112页。5%trimmedmean:将一组数中去掉(qdio)最小的5数值,再去掉(qdio)最大的5,然后将剩余的90计算平均值得出的数值。减小了极端值的影响。截尾(jiwi)平均值第29页/共112页第二十九页,共112页。三三.变异变异(biny)(variation)指标指标反映(fnyng)数据的离散度(Dispersion)。即个体观察值的变异程度。常用的指标有:1.极差(Range)(全距)2.百分位数与四分位数间距PercentileandQuartilerange3.方差Variance4.标准差StandardDeviation
13、5.变异系数CoefficientofVariation第30页/共112页第三十页,共112页。1.极差(极差(Range)(全距)(全距)优点:简便缺点(qudin):1.只利用了两个极端值2.n大,R也会大3.不稳定第31页/共112页第三十一页,共112页。1.6m1.8m2.百分位数与四分百分位数与四分(s fn)位数间距位数间距 Percentile and quartile range百分位数:数据(shj)从小到大排列,在百分尺度下,所占百分比对应的值。记为Px。四分位间距Quartilerange:QRP75P25四分位半间距Quartiledeviation:QDQR/2X
14、Frequency25%75%第32页/共112页第三十二页,共112页。3.方差方差(fn ch)方差(variance)也称均方差(meansquaredeviation),样本观察值的离均差(jnch)平方和的均值。表示一组数据的平均离散情况。第33页/共112页第三十三页,共112页。4.4.标准差标准差标准差(Standarddeviation,Std,SD)即方差的正平方根;其单位(dnwi)与原变量X的单位(dnwi)相同。总体(zngt)标准差第34页/共112页第三十四页,共112页。样本样本(yngbn)方差为什么要除以(方差为什么要除以(n1)与自由度(degreesof
15、freedom)有关。自由度是数学名词,在统计学中,n个数据(shj)如不受任何条件的限制,则n个数据(shj)可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(nk)个自由度了。例如一个有5个观察值的样本,因为受到统计数的约束,在5个离均差中,只有4个数值可以在一定范围内自由(zyu)变动取值,而第五个离均差必须满足这一限制条件。第35页/共112页第三十五页,共112页。基本概念:样本(yngbn)容量及样本(yngbn)个数 样本容量(n):指一个样本所包含的单位数。一般将样本单位数不少于三十个(50?)的样本称为大样本,样本单位数不到三十个的样本称为小样本。样本个数(g):又
16、称样本可能数目,是指从一个总体(zngt)中抽取了多少个样本。第36页/共112页第三十六页,共112页。基本概念:抽样误差 抽样误差:指按照随机原则抽样时,样本指标与总体(zngt)指标之间存在的误差。主要包括:总体(zngt)平均数和样本平均数的误差;总体(zngt)标准差和样本标准差的误差。第37页/共112页第三十七页,共112页。基本概念:抽样(chu yn)平均误差 为什么要研究抽样平均误差?未知 实际误差未知:即使知道,由于样本均值是随机(su j)的,每次的误差也不一样。第38页/共112页第三十八页,共112页。均数的抽样误差与标准(biozhn)误例如,从总体均数=4.13
17、6mmol/L、标准差=0.817mmol/L的正态分布总体N(4.136,0.8172)中,随机抽取n人为一个样本(n=5,10,20,30),并计算该样本的均数、标准差。如此重复(chngf)抽取1000次(g=1000),可得到1000份样本,可得到1000份均数和标准差S。第39页/共112页第三十九页,共112页。10001000份样本份样本(yngbn)(yngbn)的均数和标准的均数和标准差差均数的抽样误差与标准(biozhn)误第40页/共112页第四十页,共112页。将这1000份样本的均数看成新变量值,按频数分布(fnb)方法,得到这1000份样本均数的直方图。随机抽样所得
18、随机抽样所得(su d)1000(su d)1000份样本均数的分布份样本均数的分布当n5时第41页/共112页第四十一页,共112页。当n10时第42页/共112页第四十二页,共112页。当n20时第43页/共112页第四十三页,共112页。当n30时第44页/共112页第四十四页,共112页。1000份样本均数的抽样分布(fnb)特点样本(yngbn)含量 均数 均数标准差 n mean sd 5 4.14030 0.36305 10 4.14039 0.25024 20 4.13859 0.17849 30 4.14173 0.14954 总体(zngt)均数4.136总体标准差0.81
19、7第45页/共112页第四十五页,共112页。1000份样本均数的抽样分布特点:1000份样本均数中,各样本均数间存在差异,但各样本均数在总体均数周围波动。样本均数的分布曲线为中间高,两边(lingbin)低,左右对称,近似服从正态分布。随着样本量增加,样本均数的标准差明显变小:第46页/共112页第四十六页,共112页。4 4个抽样实验个抽样实验(shyn)(shyn)结果比较结果比较通过(tnggu)增加样本含量n来降低抽样误差。第47页/共112页第四十七页,共112页。5.变异系数变异系数(Coefficientofvariation,CV)适用条件:观察(gunch)指标单位不同,如
20、身高、体重 同单位资料,但均数相差悬殊均数 标准差变异系数青年男子 身高170 cm6 cm3.5体重60 kg7 kg11.7第48页/共112页第四十八页,共112页。6.数据(shj)的标准得分假定两个水平类似的班级(一班和二班)上同一门课,但是由于两个任课老师的评分标准不同,使得两个班成绩的均值(jnzh)和标准差都不一样(SPSS数据:grade.sav)。分数的均值(jnzh)标准差CV一班78.539.4312%二班70.197.0010%那么得到90分的一班的张颖是不是比得到82分的二班的刘涛成绩更好呢?怎么比较才能合理呢?第49页/共112页第四十九页,共112页。数据(sh
21、j)的标准得分均值和标准差不同的数据不能够直接比较,但是可以把它们进行标准化,然后再比较标准化后的数据。一个标准化的方法(fngf)是把原始观测值(亦称得分,score)和均值之差除以标准差;得到的度量称为标准得分(standard score,又称为z-score)。即:第50页/共112页第五十页,共112页。数据(shj)的标准得分然后可以比较来自不同样本的标准得分。这样:张颖的标准得分为刘涛的标准得分为显然如果两个班级水平差不多,刘涛的成绩(chngj)应该优于张颖的成绩(chngj);这是在标准化之前的数据中不易看到的。第51页/共112页第五十一页,共112页。n原始数据是在各自的
22、均值附近,散布也不一样(yyng)。但它们的标准得分则在0周围散布,而且散布也差不多。n实际上,任何样本经过这样的标准化后,就都变换成均值为0、方差为1的样本。标准化后不同样本观测值的比较只有相对意义,没有绝对意义。第52页/共112页第五十二页,共112页。第三节第三节 计数计数(j sh)资料的统计描述资料的统计描述第53页/共112页第五十三页,共112页。按年龄按年龄(ninlng)(ninlng)(2 2岁一组)与职业岁一组)与职业整理整理年龄工人 管理人员 农民 商业服务无知识分子 总计18 2 0 0 0 3 0 520 9 2 610 18 0 452228 71024 701
23、11502450342852153443612650432545133703662834351034 78572483011141122 39171143214 2 314 24 3 6034 4 2 5 3 12 2 2836 2 1 1 4 5 1 1438 3 1 1 0 2 1 840 0 0 2 0 0 0 2合计 207 1411022085372061401第54页/共112页第五十四页,共112页。统计软件(run jin)的种类SPSS:这是一个很受欢迎的统计软件(run jin);容易操作,输出漂亮,功能齐全;对于非统计工作者是很好的选择。Excel:作为数据表格软件(ru
24、n jin),有一定统计计算功能;对于简单分析比较方便;对于较复杂的分析,需要使用函数,甚至根本没有相应的方法了。多数专门一些的统计推断问题还需要其他专门的统计软件(run jin)来处理。第55页/共112页第五十五页,共112页。统计软件(run jin)的种类SAS:功能非常齐全的软件功能非常齐全的软件(run jin);某些美国政府机构认可;某些美国政府机构认可;需要一定的训练才可以使用,对于非专业统计需要一定的训练才可以使用,对于非专业统计人员不那么方便。人员不那么方便。S-plus:统计学家喜爱的软件统计学家喜爱的软件(run jin);其功能齐全,具有强大的编程功能;其功能齐全,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 基础 课程 学习
限制150内