数据的统计分析与描述.pptx
实验目的实验目的实验内容实验内容2、掌握用数学软件包求解统计问题。、掌握用数学软件包求解统计问题。1、直观了解统计基本内容。、直观了解统计基本内容。1 1、统计的基本理论。、统计的基本理论。3 3、实验作业。、实验作业。2、用数学软件包求解统计问题。、用数学软件包求解统计问题。第1页/共46页2023/2/142统计的基本概念参数估计假设检验数数据据的的统统计计描描述述和和分分析析第2页/共46页2023/2/143统计工具箱中的基本统计命令统计工具箱中的基本统计命令1.数据的录入、保存和调用数据的录入、保存和调用2.基本统计量基本统计量3.常见概率分布的函数常见概率分布的函数4.4.频频 数数 直直 方方 图图 的的 描描 绘绘5.参数估计参数估计6.假设检验假设检验返回返回第3页/共46页2023/2/144一、数据的录入、保存和调用一、数据的录入、保存和调用 例例1 上海市区社会商品零售总额和全民所有制职工工资总额的数据如下统计工具箱中的基本统计命令第4页/共46页2023/2/1451、年份数据以1为增量,用产生向量的方法输入。命令格式:x=a:h:bx=a:h:b t=78:872、分别以x和y代表变量职工工资总额和商品零售总额。x=23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4 y=41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.03、将变量t、x、y的数据保存在文件data中。save data t x y 4、进行统计分析时,调用数据文件data中的数据。load data第5页/共46页2023/2/1461、输入矩阵:data=78,79,80,81,82,83,84,85,86,87,88;23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4;41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.02、将矩阵data的数据保存在文件data1中:save data1 data3 3、进行统计分析时,先用命令:load data1load data1 调用数据文件data1中的数据,再用以下命令分别将矩阵data的第一、二、三行的数据赋给变量t、x、y:t=data(1,:)x=data(2,:)y=data(3,:)若要调用矩阵data的第j列的数据,可用命令:data(:,j)第6页/共46页二、统计量mean(x)median(x)std(x)var(x)第7页/共46页偏度:skewness(x)峰度:kurtosis(x)第8页/共46页2023/2/1412三三、常见概率分布的函数常见概率分布的函数Matlab工具箱对每一种分布都提供五类函数,其命令字符为:概率密度:pdf pdf 概率分布:cdfcdf逆概率分布:inv inv 均值与方差:statstat随机数生成:rnd (当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数即可.)第12页/共46页2023/2/1413在Matlab中输入以下命令:x=-6:0.01:6;y=normpdf(x);z=normpdf(x,0,2);plot(x,y,x,z)1、密度函数、密度函数:p=normpdf(x,mu,sigma)(当mu=0,sigma=1时可缺省)如对均值为mu、标准差为sigma的正态分布,举例如下:第13页/共46页2023/2/14143、逆概率分布、逆概率分布:x=norminv(P,mu,sigma).即求出x,使得PXX=0.497,0.506,0.518,0.524,0.498,0.511,0.52,0.515,0.512;H,SIG=ztest(X,0.5,0.015,0.05,0)运行后显示结果如下:运行后显示结果如下:H=1 SIG=0.0248结果表明:结果表明:H=1,说明在水平=0.05下,可拒绝原假设,即认为包装机工作不正常。第33页/共46页1 1 单个正态总体单个正态总体N N()的假设检验)的假设检验 未知,对期望未知,对期望 的假设检验的假设检验t t检验法检验法调用函数调用函数 H=ttest(X,m,sigma)H=ttest(X,m,sigma)%在水平在水平 =sigma=sigma下检验是否成立。下检验是否成立。说明:说明:X X:样本;:样本;m:m:期望值;期望值;alpha:alpha:经验水平经验水平 ;tail:tail:备择假设的选项,若备择假设的选项,若tail=0(tail=0(缺省缺省),则备择假,则备择假设为设为 ;若;若tail=1tail=1,则,则 ;若;若tail=-1tail=-1,则,则 。即。即tail=0(tail=0(缺省缺省)为双边检验,其余为为双边检验,其余为单边检验问题。单边检验问题。H H:检验结果,分两种情况:若:检验结果,分两种情况:若H=0H=0,则在水平,则在水平 下,下,接受原假设;若接受原假设;若H=1H=1,则在水平,则在水平 下,拒绝原假设。下,拒绝原假设。sigsig为当原假设为真时(即为当原假设为真时(即 成立),得到观成立),得到观察值的概率,当察值的概率,当sigsig为小概率时,则对原假设提出质疑。为小概率时,则对原假设提出质疑。Ci:Ci:均值均值 的的1-alpha1-alpha置信区间。置信区间。第34页/共46页应用举例例例7.2 7.2 某种电子元件的寿命某种电子元件的寿命X X(以小时计)服从正态分布,(以小时计)服从正态分布,均未知,现测得均未知,现测得1616只元件寿命如下:只元件寿命如下:159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170问是否有理由认为元件的平均寿命大于问是否有理由认为元件的平均寿命大于225225(小时)?(小时)?第35页/共46页解:解:未知,在水平未知,在水平 =0.05=0.05下检验假设:下检验假设:程序:程序:X=159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170;H,SIG=ttest(X,225,0.05,1)运行后显示结果如下:运行后显示结果如下:H=0 SIG=0.2570结果表明:结果表明:H=0,说明在水平=0.05下,应接受原假设,即认为元件的平均寿命不大于225小时。第36页/共46页2 2、两个正态总体均值差的检验(、两个正态总体均值差的检验(t t检验)检验)调用函数调用函数 h,sig,ci=ttest(X,Y)h,sig,ci=ttest2(X,Y,alpha)h,sig,ci=ttest2(X,Y,alpha,tail)说明:说明:原假设为:当原假设为:当tail=0时,表示时,表示 (缺省);当(缺省);当tail=1时,表示时,表示 ;当当tail=-1时,表示时,表示 。为为X,Y的期望,的期望,h,sig,ci与前面与前面相同。第37页/共46页应用举例例例7.3 7.3 在平炉上进行一项试验以确定改变操作方在平炉上进行一项试验以确定改变操作方法的建议是否会增加钢的得率,试验是在同一平法的建议是否会增加钢的得率,试验是在同一平炉上进行的。每炼一炉钢时除操作方法外,其它炉上进行的。每炼一炉钢时除操作方法外,其它条件都尽可能做到相同。先用标准方法炼一炉,条件都尽可能做到相同。先用标准方法炼一炉,然后用建议的新方法炼一炉,以后交替进行,各然后用建议的新方法炼一炉,以后交替进行,各炼炼1010炉,其得率分别为炉,其得率分别为标准方法:标准方法:78.1 72.4 76.2 74.3 77.4 78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.5 76.7 77.378.4 76.0 75.5 76.7 77.3新方法:新方法:79.1 81.0 77.3 79.1 80.0 79.1 81.0 77.3 79.1 80.0 79.1 77.3 80.2 82.1 79.1 77.3 80.2 82.1 设这两个样本相互独立,且分别来自正态总体设这两个样本相互独立,且分别来自正态总体N N()和)和N N(),均未知。问建议的新),均未知。问建议的新方法能否提高得率?(取方法能否提高得率?(取=0.05=0.05)第38页/共46页解:解:两个总体方差不变时,在水平两个总体方差不变时,在水平 =0.05=0.05下经下经验假设:验假设:程序:程序:X=78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.5 76.7 77.3;Y=79.1 81.0 77.3 79.1 80.0 79.1 77.3 80.2 82.1;H,SIG,CI=ttest2(X,Y,0.05,-1)运行后显示结果如下:运行后显示结果如下:H=1SIG=3.6151e-004CI=-Inf -1.8683结果表明:结果表明:H=1H=1,说明在水平,说明在水平 =0.05=0.05下,应拒绝下,应拒绝原假设,即认为建议的新方法能提高得率,因此,原假设,即认为建议的新方法能提高得率,因此,比原方法好。比原方法好。第39页/共46页2023/2/1440非参数检验:总体分布的检验非参数检验:总体分布的检验Matlab工具箱提供了两个对总体分布进行检验的命令:(1)h=normplot(x)(2)h=weibplot(x)此命令显示数据矩阵x的正态概率图.如果数据来自于正态分布,则图形显示出直线性形态.而其它概率分布函数显示出曲线形态.此命令显示数据矩阵x的Weibull概率图.如果数据来自于Weibull分布,则图形将显示出直线性形态.而其它概率分布函数将显示出曲线形态.第40页/共46页2023/2/1441例例 一道工序用自动化车床连续加工某种零件,由于刀具损坏等会出现故障.故障是完全随机的,并假定生产任一零件时出现故障机会均相同.工作人员是通过检查零件来确定工序是否出现故障的.现积累有100次故障纪录,故障出现时该刀具完成的零件数如下:459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659 775 859 755 49 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 638 699 634 555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 790 581 621 724 531 512 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851试观察该刀具出现故障时完成的零件数属于哪种分布.第41页/共46页2023/2/1442解解 1、数据输入2、作频数直方图 hist(x,10)3、分布的正态性检验 normplot(x)4、参数估计:muhat,sigmahat,muci,sigmaci=normfit(x)(看起来刀具寿命服从正态分布)(刀具寿命近似服从正态分布)估计出该刀具的均值为594,方差204,均值的0.95置信区间为 553.4962,634.5038,方差的0.95置信区间为 179.2276,237.1329.第42页/共46页2023/2/14435、假设检验 已知刀具的寿命服从正态分布,现在方差未知的情况下,检验其均值 m 是否等于594.结果:h=0,sig=1,ci=553.4962,634.5038.检验结果:1.布尔变量h=0,表示不拒绝零假设.说 明提出的假设寿命均值594是合理的.2.95%的置信区间为553.5,634.5,它 完全包括594,且精度很高.3.sig-值为1,远超过0.5,不能拒绝零假 设.返回返回H,sig,ci=ttest(X,594,0.05)第43页/共46页2023/2/14441、某校60名学生的一次考试成绩如下:93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 551)计算均值、标准差、极差、偏度、峰度,画出直方图;2)检验分布的正态性;3)若检验符合正态分布,估计正态分布的参数并检验参数.第44页/共46页2023/2/14452、据说某地汽油的价格是每加仑115美分,为了验证这种说法,一位学者开车随机选择了一些加油站,得到某年一月和二月的数据如下:一月:119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118二月:118 119 115 122 118 121 120 122 128 116 120 123 121 119 117 119 128 126 118 1251)分别用两个月的数据验证这种说法的可靠性;2)分别给出1月和2月汽油价格的置信区间;3)给出1月和2月汽油价格差的置信区间.第45页/共46页2023/2/1446感谢您的观看!第46页/共46页