第17讲 数据的统计分析与描述-Matlab.ppt
《第17讲 数据的统计分析与描述-Matlab.ppt》由会员分享,可在线阅读,更多相关《第17讲 数据的统计分析与描述-Matlab.ppt(70页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2023/1/51数据的统计描述和分析数据的统计描述和分析实验目的实验目的实验内容实验内容2、掌握用数学软件包求解统计问题。、掌握用数学软件包求解统计问题。1、直观了解统计基本内容。、直观了解统计基本内容。1 1、统计的基本理论。、统计的基本理论。3 3、实验作业。、实验作业。2、用数学软件包求解统计问题。、用数学软件包求解统计问题。2023/1/53统计的基本概念统计的基本概念参数估计参数估计假设检验假设检验数数据据的的统统计计描描述述和和分分析析2023/1/54统计工具箱中的基本统计命令统计工具箱中的基本统计命令1.数据的录入、保存和调用数据的录入、保存和调用2.基本统计量基本统计量3.
2、常见概率分布的函数常见概率分布的函数4.4.频频 数数 直直 方方 图图 的的 描描 绘绘5.参数估计参数估计6.假设检验假设检验7.综合实例综合实例返回返回2023/1/55一、数据的录入、保存和调用一、数据的录入、保存和调用 例例1 上海市区社会商品零售总额和全民所有制职工工资总额的数据如下统计工具箱中的基本统计命令统计工具箱中的基本统计命令2023/1/561、年份数据以1为增量,用产生向量的方法输入。命令格式:x=x=a:h:ba:h:b t=78:872、分别以x和y代表变量职工工资总额和商品零售总额。x=23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8
3、,63.8,73.4 y=41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.03、将变量t、x、y的数据保存在文件data中。save data t x y 4、进行统计分析时,调用数据文件data中的数据。load dataTo MATLAB(txy)2023/1/571、输入矩阵:data=78,79,80,81,82,83,84,85,86,87,88;23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4;41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,15
4、5.0,175.02、将矩阵data的数据保存在文件data1中:save data1 data3 3、进行统计分析时,先用命令:load data1load data1 调用数据文件data1中的数据,再用以下命令分别将矩阵data的第一、二、三行的数据赋给变量t、x、y:t=data(1,:)x=data(2,:)y=data(3,:)若要调用矩阵data的第j列的数据,可用命令:data(:,j)To MATLAB(data)返回返回2023/1/58二、基本统计量二、基本统计量对随机变量x,计算其基本统计量的命令如下:均值:mean(xmean(x)中位数:median(xmedian
5、(x)标准差:std(xstd(x)方差:var(xvar(x)偏度:skewness(x)峰度:kurtosis(x)例例 对例1中的职工工资总额x,可计算上述基本统计量。To MATLAB(tjl)返回返回2023/1/59三三、常见概率分布的函数常见概率分布的函数Matlab工具箱对每一种分布都提供五类函数,其命令字符为:概率密度:pdfpdf 概率分布:cdfcdf逆概率分布:inv inv 均值与方差:statstat随机数生成:rnd (当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数即可.)2023/1/51
6、0在Matlab中输入以下命令:x=-6:0.01:6;y=normpdf(x);z=normpdf(x,0,2);plot(x,y,x,z)1、密度函数、密度函数:p=normpdf(x,mu,sigma)(当mu=0,sigma=1时可缺省)To MATLAB(liti2)如对均值为mu、标准差为sigma的正态分布,举例如下:2023/1/511To MATLAB(liti3)3、逆概率分布、逆概率分布:x=norminv(P,mu,sigma).即求出x,使得PX50),按中心极限定理,它近似地 服从正态分布;二.使用Matlab工具箱中具有特定分布总体的估计命令.(1)muhat,m
7、uci=expfit(X,alpha)-在显著性水平alpha下,求指数分布的数据X的均值的点估计及其区间估计.(2)lambdahat,lambdaci=poissfit(X,alpha)-在显著性水平alpha下,求泊松分布的数据X 的参数的点估计及其区间估计.(3)phat,pci=weibfit(X,alpha)-在显著性水平alpha下,求Weibull分布的数据X 的参数的点估计及其区间估计.返回返回2023/1/516六、假设检验六、假设检验 在总体服从正态分布的情况下,可用以下命令进行假设检验.1、总体方差总体方差sigma2已知时,总体均值的检验使用已知时,总体均值的检验使用
8、 z-检验检验 h,sig,ci=ztest(x,m,sigma,alpha,tail)检验数据 x 的关于均值的某一假设是否成立,其中sigma 为已知方差,alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值:tail=0,检验假设“x 的均值等于 m”tail=1,检验假设“x 的均值大于 m”tail=-1,检验假设“x 的均值小于 m”tail的缺省值为 0,alpha的缺省值为 0.05.返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间.2023/1/517 例例7 Ma
9、tlab统计工具箱中的数据文件gas.mat.中提供了美国1993年一月份和二月份的汽油平均价格(price1,price2分别是一,二月份的油价,单位为美分),它是容量为20的双样本.假设一月份油价的标准偏差是一加仑四分币(=4),试检验一月份油价的均值是否等于115.解解 作假设:m=115.首先取出数据,用以下命令:load gas然后用以下命令检验 h,sig,ci=ztest(price1,115,4)返回:h=0,sig=0.8668,ci=113.3970 116.9030.检验结果:1.布尔变量h=0,表示不拒绝零假设.说明提出的假设均值115 是合理的.2.sig-值为0.8
10、668,远超过0.5,不能拒绝零假设 3.95%的置信区间为113.4,116.9,它完全包括115,且精度很 高.To MATLAB(liti7)2023/1/5182、总体方差总体方差sigma2未知时,总体均值的检验使用未知时,总体均值的检验使用t-检验检验 h,sig,ci=ttest(x,m,alpha,tail)检验数据 x 的关于均值的某一假设是否成立,其中alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值:tail=0,检验假设“x 的均值等于 m”tail=1,检验假设“x 的均值大于 m”tail=-1,检验假设“x 的均值小于 m”tail的缺省值为 0,
11、alpha的缺省值为 0.05.返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间.2023/1/519返回:h=1,sig=4.9517e-004,ci=116.8 120.2.检验结果:1.布尔变量h=1,表示拒绝零假设.说明提出的假 设油价均值115是不合理的.2.95%的置信区间为116.8 120.2,它不包括 115,故不能接受假设.3.sig-值为4.9517e-004,远小于0.5,不能接受零 假设.To MATLAB(liti8)例例8 试检验例8中二月份油价 Price2的均值是
12、否等于115.解解 作假设:m=115,price2为二月份的油价,不知其方差,故用以下命令检验h,sig,ci=ttest(price2,115)2023/1/5203、两总体均值的假设检验两总体均值的假设检验使用使用 t-检验检验 h,sig,ci=ttest2(x,y,alpha,tail)检验数据 x,y 的关于均值的某一假设是否成立,其中alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值:tail=0,检验假设“x 的均值等于 y 的均值”tail=1,检验假设“x 的均值大于 y 的均值”tail=-1,检验假设“x 的均值小于 y 的均值”tail的缺省值为 0,
13、alpha的缺省值为 0.05.返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为与x与y均值差的的 1-alpha 置信区间.2023/1/521返回:h=1,sig=0.0083,ci=-5.8,-0.9.检验结果:1.布尔变量h=1,表示拒绝零假设.说明提出的 假设“油价均值相同”是不合理的.2.95%的置信区间为-5.8,-0.9,说明一月份油 价比二月份油价约低1至6分.3.sig-值为0.0083,远小于0.5,不能接受“油价均 相同”假设.To MATLAB(liti9)例例9 试检验例8中一月份油价Price1与二
14、月份的油价Price2均值是否相同.解解 用以下命令检验h,sig,ci=ttest2(price1,price2)2023/1/5224、非参数检验:总体分布的检验非参数检验:总体分布的检验Matlab工具箱提供了两个对总体分布进行检验的命令:(1)h=normplot(x)(2)h=weibplot(x)此命令显示数据矩阵x的正态概率图.如果数据来自于正态分布,则图形显示出直线性形态.而其它概率分布函数显示出曲线形态.此命令显示数据矩阵x的Weibull概率图.如果数据来自于Weibull分布,则图形将显示出直线性形态.而其它概率分布函数将显示出曲线形态.返回返回2023/1/523例例1
15、0 一道工序用自动化车床连续加工某种零件,由于刀具损坏等会出现故障.故障是完全随机的,并假定生产任一零件时出现故障机会均相同.工作人员是通过检查零件来确定工序是否出现故障的.现积累有100次故障纪录,故障出现时该刀具完成的零件数如下:459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659 775 859 755 49 697 515
16、 628 954 771 609 402 960 885 610 292 837 473 677 358 638 699 634 555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 790 581 621 724 531 512 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851试观察该刀具出现故障时完成的零件数属于哪种分布.2023/1/524解解 1、数据输入To MATLAB(liti101)2、作频数直方图 hist(x,10)3、分布
17、的正态性检验 normplot(x)4、参数估计:muhat,sigmahat,muci,sigmaci=normfit(x)(看起来刀具寿命服从正态分布)(刀具寿命近似服从正态分布)估计出该刀具的均值为594,方差204,均值的0.95置信区间为 553.4962,634.5038,方差的0.95置信区间为 179.2276,237.1329.To MATLAB(liti104)To MATLAB(liti102)To MATLAB(liti103)2023/1/5255、假设检验To MATLAB(liti105)已知刀具的寿命服从正态分布,现在方差未知的情况下,检验其均值 m 是否等于5
18、94.结果:h=0,sig=1,ci=553.4962,634.5038.检验结果:1.布尔变量h=0,表示不拒绝零假设.说 明提出的假设寿命均值594是合理的.2.95%的置信区间为553.5,634.5,它 完全包括594,且精度很高.3.sig-值为1,远超过0.5,不能拒绝零假 设.返回返回2023/1/5261、某校60名学生的一次考试成绩如下:93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 7
19、4 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 551)计算均值、标准差、极差、偏度、峰度,画出直方图;2)检验分布的正态性;3)若检验符合正态分布,估计正态分布的参数并检验参数.2023/1/5272、据说某地汽油的价格是每加仑115美分,为了验证这种说法,一位学者开车随机选择了一些加油站,得到某年一月和二月的数据如下:一月:119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118二月:118 119 115 122 118 1
20、21 120 122 128 116 120 123 121 119 117 119 128 126 118 1251)分别用两个月的数据验证这种说法的可靠性;2)分别给出1月和2月汽油价格的置信区间;3)给出1月和2月汽油价格差的置信区间.确定性模型和随机性模型确定性模型和随机性模型随机因素可以忽略随机因素可以忽略随机因素影响可以简单随机因素影响可以简单地以平均值的作用出现地以平均值的作用出现随机因素影响必须考虑随机因素影响必须考虑概率模型概率模型统计回归模型统计回归模型马氏链模型马氏链模型确定性模型确定性模型随机性模型随机性模型概概 率率 模模 型型例例:报童的利润报童的利润为了获得最大的
21、利润,报童每天应购进多少份报纸?为了获得最大的利润,报童每天应购进多少份报纸?162天报纸需求量的调查天报纸需求量的调查 报童早上购进报纸零售,晚上将未卖掉的报纸退回。报童早上购进报纸零售,晚上将未卖掉的报纸退回。购进价购进价b(=0.8元元)零售价零售价a (=1元元)退回价退回价c(=0.75元元)售出一份赚售出一份赚 a-b退回一份赔退回一份赔 b-c199 136 214 195 219 224 197 213 187 187 230 172 227 157 114 156 问题分析问题分析购进太多购进太多卖不完退回卖不完退回赔钱赔钱购进太少购进太少不够销售不够销售赚钱少赚钱少应根据需
22、求确定购进量应根据需求确定购进量每天需求量是随机的每天需求量是随机的目标函数应是长期的日平均利润目标函数应是长期的日平均利润每天收入是随机的每天收入是随机的存在一个合存在一个合适的购进量适的购进量=每天收入的期望值每天收入的期望值随机性优化模型随机性优化模型需求量的随机规律由需求量的随机规律由162天报纸需求量的调查得到天报纸需求量的调查得到 每天需求量为每天需求量为 r 的概率的概率 f(r),r=0,1,2模型建立模型建立 设每天购进设每天购进 n 份,份,日平均收入为日平均收入为 G(n)求求 n 使使 G(n)最大最大 已知售出一份赚已知售出一份赚 a-b;退回一份赔;退回一份赔 b-
23、cr视为连续变量视为连续变量模型建立模型建立模型建立模型建立由(由(1)或()或(2)得到的)得到的n是每天是每天平均利润最大的最佳购进量。平均利润最大的最佳购进量。结果解释结果解释nP1P2取取n使使 a-b 售出一份赚的钱售出一份赚的钱 b-c 退回一份赔的钱退回一份赔的钱0rpMATLAB 统计工具箱常用命令统计工具箱常用命令(一一)命令命令名称名称输入输入输出输出n,y=hist(x,k)频数表频数表x:原始数据行向原始数据行向量量k:等分区间数:等分区间数n:频数行向量频数行向量y:区间中点行向区间中点行向量量hist(x,k)直方图直方图同上同上直方图直方图m=mean(x)均值均
24、值x:原始数据行向原始数据行向量量均值均值ms=std(x)标准差标准差同上同上标准差标准差s功能功能概率概率密度密度分布分布函数函数逆概率逆概率分布分布均值与均值与方差方差随机数随机数生成生成字符字符pdfcdfinvstatrnd分布分布均匀均匀分布分布指数指数分布分布正态正态分布分布 2 2分布分布t t分布分布F F分布分布二项二项分布分布泊松泊松分布分布字符字符 unifexpnormchi2 t fbinopoissMATLAB 统计工具箱常用命令统计工具箱常用命令(一一)y=normpdf(1.5,1,2)正态分布正态分布x=1.5的概率密度的概率密度(=1,=2)y=fcdf(
25、1,10,50)F分布分布x=1的分布函数的分布函数(自由度自由度n1=10,n2=50)y=tinv(0.9,10)概率概率=0.9的逆的逆t分布分布(分位数分位数,自由度自由度n=10)由由 计算计算 n用用MATLAB 统计工具箱求解报童模型统计工具箱求解报童模型 根据数据确定需求量的概率分布根据数据确定需求量的概率分布 p(x)baotongdata.mbaotong1.m回回 归归 模模 型型拟合问题实例拟合问题实例 给药方案给药方案 1.在快速静脉注射的给药方式下,研究血药浓在快速静脉注射的给药方式下,研究血药浓度(单位体积血液中的药物含量)的变化规律。度(单位体积血液中的药物含量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第17讲 数据的统计分析与描述-Matlab 17 数据 统计分析 描述 Matlab
限制150内