05_MATLAB数理统计.ppt





《05_MATLAB数理统计.ppt》由会员分享,可在线阅读,更多相关《05_MATLAB数理统计.ppt(46页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2023年4月9日MATLAB和R软件1第五讲第五讲MATLAB数理统计数理统计2023年4月9日MATLAB和R软件2引言引言数理统计研究的对象是受随机因素影响的数据数理统计研究的对象是受随机因素影响的数据数据样本少则几个,多则成千上万,人们希望能用数据样本少则几个,多则成千上万,人们希望能用少数几个包含其最多相关信息的数值来体现数据样少数几个包含其最多相关信息的数值来体现数据样本总体的规律。本总体的规律。面对一批数据如何进行描述与分析,需要掌握参数面对一批数据如何进行描述与分析,需要掌握参数估计和假设检验这两个数理统计的最基本方法。估计和假设检验这两个数理统计的最基本方法。我们将用我们将用
2、MATLAB 的统计工具箱的统计工具箱(Statistics Toolbox)来实现数据的统计描述和分析。来实现数据的统计描述和分析。2023年4月9日MATLAB和R软件3频数表和直方图一组数据(样本)往往是杂乱无章的,作出它的频一组数据(样本)往往是杂乱无章的,作出它的频数表和直方图,可以看作是对这组数据的一个初步数表和直方图,可以看作是对这组数据的一个初步整理和直观描述。整理和直观描述。将数据的取值范围划分为若干个区间,然后统计这将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的次数,称为频数,由此组数据在每个区间中出现的次数,称为频数,由此得到一个频数表。以数据的取值
3、为横坐标,频数为得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出一个阶梯形的图,称为直方图,或频纵坐标,画出一个阶梯形的图,称为直方图,或频数分布图。数分布图。若样本容量不大,能够手工作出频数表和直方图,若样本容量不大,能够手工作出频数表和直方图,当样本容量较大时则可以借助当样本容量较大时则可以借助MATLAB 这样的软件这样的软件了。了。2023年4月9日MATLAB和R软件4例1 学生的身高和体重 学校随机抽取学校随机抽取100名学生,测量他们的身高和体重,名学生,测量他们的身高和体重,所得数据如表所得数据如表身高 体重172 75171 62166 62160 55155 571
4、73 58166 55170 63167 53173 60身高 体重169 55168 67168 65175 67176 64168 50161 49169 63171 61178 64身高 体重169 64165 52164 59173 74172 69169 52173 57173 61166 70163 57身高 体重171 65169 62170 58172 64169 58167 72175 76164 59166 63169 54身高 体重167 47168 65165 64168 57176 57170 57158 51165 62172 53169 662023年4月9日MA
5、TLAB和R软件5数据输入两种方法一种是在交互环境中直接输入如果在统计中数据量比较大,这样作不太方便;另一种办法是先把数据写入一个纯文本数据文件data.txt中,数据列之间用空格键或Tab键分割,该数据文件data.txt存放在matlabwork子目录下,在MATLAB中用load命令读入数据具体作法是:load data.txt这样在内存中建立了一个变量data,它是一个数据矩阵。2023年4月9日MATLAB和R软件6作频数表及直方图用hist命令实现,其用法是:N,X=hist(Y,M)数组(行、列均可)Y的频数表它将区间min(Y),max(Y)等分为M份(缺省时M设定为10),N
6、返回M个小区间的频数,X返回M个小区间的中点。hist(Y,M)数组Y的直方图。2023年4月9日MATLAB和R软件7例1的程序load data.txt;high=data(:,1:2:9);high=high(:);weight=data(:,2:2:10);weight=weight(:);n1,x1=hist(high)n2,x2=hist(weight)subplot(1,2,1)hist(high)subplot(1,2,2)hist(weight)2023年4月9日MATLAB和R软件8例2 统计字符出现的频数统计下列五行字符串中字符统计下列五行字符串中字符a、g、c、t出现的
7、频数出现的频数1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggagg2.cggaggacaaacgggatggcggtattggaggtggcggactgttcgggga3.gggacggatacggattctggccacggacggaaaggaggacacggcggacataca4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagctta5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggc2023年4月9日MATLAB和R软件
8、9例例2的程序的程序clcfid1=fopen(shuju.txt,r);i=1;while(feof(fid1)data=fgetl(fid1);a=length(find(data=97);b=length(find(data=99);c=length(find(data=103);d=length(find(data=116);e=length(find(data=97&data X=0 1 2;3 4 5;Y=mean(X)Y=1.5000 2.5000 3.5000 Y=mean(X,2)Y=1 42023年4月9日MATLAB和R软件15计算统计量的函数计算统计量的函数样本方差样本
9、方差:var调用格式调用格式:(1)Y=var(X)(2)Y=var(X,1)用用n-1标准化标准化用用n标准化标准化 X=4-2 1;9 5 7;Y=var(X)Y=12.5000 24.5000 18.0000 Y=var(X,1)Y=6.2500 12.2500 9.00002023年4月9日MATLAB和R软件16计算统计量的函数计算统计量的函数样本标准差样本标准差:std调用格式调用格式:(1)Y=std(X)(2)Y=std(X,1)X=4-2 1;9 5 7;Y=std(X)Y=3.5355 4.9497 4.2426 Y=std(X,1)Y=2.5000 3.5000 3.00
10、002023年4月9日MATLAB和R软件17计算统计量的函数计算统计量的函数协方差矩阵协方差矩阵:cov调用格式调用格式:(1)C=cov(X)(2)C=cov(X,Y)(3)C=cov(X,1)(4)C=cov(X,Y,1)X=-1 1 2;-2 3 1;4 0 3;Y=cov(X)Y=10.3333 -4.1667 3.0000 -4.1667 2.3333 -1.5000 3.0000 -1.5000 1.00002023年4月9日MATLAB和R软件18计算统计量的函数计算统计量的函数相关系数相关系数:corrcoef调用格式调用格式:R=corrcoef(X)中心矩中心矩:mome
11、nt调用格式调用格式:M=moment(X,order)X=-1 1 2;-2 3 1;4 0 3;Y=corrcoef(X)Y=1.0000 -0.8486 0.9333 -0.8486 1.0000 -0.9820 0.9333 -0.9820 1.0000 Y=moment(X,3)Y=11.4074 0.7407 02023年4月9日MATLAB和R软件19参数估计与假设检验参数估计与假设检验最大似然估计和区间估计最大似然估计和区间估计:mle调用格式调用格式:(1)phat=mle(dist,data)(2)phat,pci=mle(dist,data,alpha)data=0.95
12、01,0.2311,0.6068,0.4860,.0.8913,0.7621,0.4565,0.0185,0.8214,0.4447;phat=mle(normal,data)phat=0.5669 0.2835正态分布的均值和均方差正态分布的均值和均方差的最大似然估计的最大似然估计2023年4月9日MATLAB和R软件20参数估计与假设检验参数估计与假设检验单总体的单总体的U检验检验:ztest调用格式调用格式:(1)H=ztest(X,m,sigma)(2)H=ztest(X,m,sigma,alpha)(3)H=ztest(X,m,sigma,alpha,tail)(4)H,p=ztes
13、t(.)(5)H,p,ci=ztest(.)例例3 某车间用一台包装机包装糖果。包某车间用一台包装机包装糖果。包得的袋装糖重是一个随机变量,它服从得的袋装糖重是一个随机变量,它服从正态分布。当机器正常时,其均值为正态分布。当机器正常时,其均值为0.5公斤,标准差为公斤,标准差为0.015公斤。某日开工后公斤。某日开工后为检验包装机是否正常,随机地抽取它为检验包装机是否正常,随机地抽取它所包装的糖所包装的糖9袋,称得净重为(公斤):袋,称得净重为(公斤):0.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512,问机器是否正常?问机器是否正常?解
14、:总体解:总体已知,已知,XN(,.0152),未知。于是提出假设未知。于是提出假设H0:=0.500和和H1:0.5。Matlab实现如下:实现如下:x=0.497 0.506 0.518 0.524 0.498.0.511 0.520 0.515 0.512;h,p,ci=ztest(x,0.5,0.015)求得求得h=1,p=0.0248,说明在,说明在0.05的水平下,可拒绝原假设,即认为这天包装机的水平下,可拒绝原假设,即认为这天包装机工作不正常。工作不正常。2023年4月9日MATLAB和R软件21参数估计与假设检验参数估计与假设检验单总体的单总体的t检验检验:ttest调用格式调
15、用格式:(1)H=ttest(X)(2)H=ttest(X,m)(3)H=ttest(.,alpha)(4)H=ttest(.,tail)(5)H,p=ttest(.)(6)H,p,ci=ttest(.)例例4 某种电子元件的寿命某种电子元件的寿命x(以小时计以小时计)服从服从正态分布正态分布,2均未知均未知.现得现得16只元件的寿只元件的寿命如下命如下:159 280 101 212 224 379 179 264222 362 168 250 149 260 485 170问是否有理由认为元件的平均寿命大于问是否有理由认为元件的平均寿命大于225(小时小时)?解解 按题意需检验按题意需检验
16、H0:225,取取=0.05。Matlab实现如下:实现如下:x=159 280 101 212 224 379 179 264.222 362 168 250 149 260 485 170;h,p,ci=ttest(x,225,0.05,1)求得求得h=0,p=0.2570,说明在显著水平为,说明在显著水平为0.05的情况下,不能拒绝原假设,认为的情况下,不能拒绝原假设,认为元件的平均寿命不大于元件的平均寿命不大于225小时。小时。2023年4月9日MATLAB和R软件22参数估计与假设检验参数估计与假设检验双总体的双总体的t检验检验:ttest2调用格式调用格式:(1)H=ttest2(
17、X,Y)(2)H=ttest2(X,Y,alpha)(3)H=ttest2(X,Y,alpha,tail)(4)H,p=ttest2(.)(5)H,p,ci=ttest2(.)例例5 在平炉上进行一项试验以确定改变操作方法的建在平炉上进行一项试验以确定改变操作方法的建议是否会增加钢的得率议是否会增加钢的得率,试验是在同一平炉上进行的。试验是在同一平炉上进行的。每炼一炉钢时除操作方法外每炼一炉钢时除操作方法外,其它条件都可能做到相同。其它条件都可能做到相同。先用标准方法炼一炉先用标准方法炼一炉,然后用建议的新方法炼一炉然后用建议的新方法炼一炉,以以后交换进行后交换进行,各炼了各炼了10炉炉,其得
18、率分别为其得率分别为1标准方法标准方法 78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.6 76.7 77.32新方法新方法 79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1设这两个样本相互独立且分别来自正态总体设这两个样本相互独立且分别来自正态总体N(1,2)和和N(2,2),1,2,2均未知,问建议的新方法能否提均未知,问建议的新方法能否提高得率高得率?(取取=0.05)解解(i)需要检验假设)需要检验假设H0:1=2,H1:1 X=binocdf(0:20,20,0.5);H,p,k,c=kstest(X,0.
19、05,0)H=1p=2.8173e-005k=0.5000c=0.2873X服从二项分布服从二项分布,不服不服从标准正态分布从标准正态分布,拒拒绝原假设绝原假设2023年4月9日MATLAB和R软件24非参数假设检验非参数假设检验例例6 下面列出了下面列出了84 个伊特拉斯坎个伊特拉斯坎(Etruscan)人男子的头颅的最大宽度)人男子的头颅的最大宽度(mm),试检验这些数据是否来自正态总),试检验这些数据是否来自正态总体(取体(取=0.1)。141 148 132 138 154 142 150 146 155 158150 140 147 148 144 150 149 145 149 1
20、58143 141 144 144 126 140 144 142 141 140145 135 147 146 141 136 140 146 142 137148 154 137 139 143 140 131 143 141 149148 135 148 152 143 144 141 143 147 146150 132 142 142 143 153 149 146 149 138142 149 142 137 134 144 146 147 140 142140 137 152 145min(x),max(x)%求数据中的最小数和最大数求数据中的最小数和最大数hist(x,8)%画
21、直方图画直方图fi=length(find(x=135&x=138&x=142&x=146&x=150&x=152)%各区间上出现的频率各区间上出现的频率mu=mean(x),sigma=std(x)%均值和标准差均值和标准差fendian=135,138,142,146,150,152%区间的分点区间的分点p0=normcdf(fendian,mu,sigma)%分点处分布函数的值分点处分布函数的值p1=diff(p0)%中间各区间的概率中间各区间的概率p=p0(1),p1,1-p0(6)%所有区间的概率所有区间的概率chi=(fi-84*p).2./(84*p)chisum=sum(chi
22、)%皮尔逊统计量的值皮尔逊统计量的值x_a=chi2inv(0.9,4)%chi2分布的分布的0.9分位数分位数解解 编写编写Matlab程序如下:程序如下:clcx=141 148 132 138 154 142 150 146 155 158.150 140 147 148 144 150 149 145 149 158.143 141 144 144 126 140 144 142 141 140.145 135 147 146 141 136 140 146 142 137.148 154 137 139 143 140 131 143 141 149.148 135 148 152
23、143 144 141 143 147 146.150 132 142 142 143 153 149 146 149 138.142 149 142 137 134 144 146 147 140 142.140 137 152 145;求得皮尔逊统计量求得皮尔逊统计量chisum=1.9723,0.1 2(7-2-1)=0.1 2(4)=7.7794,故在水平,故在水平0.1下接受下接受 H0,即认为数据来自正,即认为数据来自正态分布总体。态分布总体。2023年4月9日MATLAB和R软件25非参数假设检验非参数假设检验双样本双样本K-S检验检验:kstest2调用格式调用格式:(1)H=
24、kstest2(X1,X2)(2)H=kstest2(X1,X2,alpha)(3)H=kstest2(X1,X2,alpha,tail)(4)H,p,ksstat,cv=kstest2(.)X=-1:1:5;Y=randn(20,1);H,p,k=kstest2(X,Y)H=1p=0.0219k=0.6143Y是由是由randn生成的生成的正态分布随机数正态分布随机数,拒拒绝绝X和和Y具有相同的具有相同的分布的假设分布的假设2023年4月9日MATLAB和R软件26非参数假设检验非参数假设检验符号检验符号检验:signtest调用格式调用格式:(1)p=signtest(X)(2)p=sig
25、ntest(X,m)(3)p=signtest(X,Y)(4)p=signtest(.,alpha)(5)p,H=signtest(.)(6)p,H,stats=signtest(.)X=normrnd(0,1,20,1);Y=normrnd(0,2,20,1);p,H=signtest(X,Y,0.05)p=0.8238H=0不能拒绝原假设不能拒绝原假设2023年4月9日MATLAB和R软件27非参数假设检验非参数假设检验秩和检验秩和检验:ranksum调用格式调用格式:(1)p=ranksum(X,Y)(2)p=ranksum(X,Y,alpha)(3)p,H=ranksum(.)(4)p
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 05 _MATLAB 数理统计

限制150内