MATLAB数据分析方法-(2).ppt
《MATLAB数据分析方法-(2).ppt》由会员分享,可在线阅读,更多相关《MATLAB数据分析方法-(2).ppt(90页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第3章章回归分析回归分析 普通高等院校计算机课程规划普通高等院校计算机课程规划教材教材MATLAB数据分析方法数据分析方法 李柏年 吴礼斌 主编 张孔生 丁 华 参编 2/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第3章章回归分析回归分析 回归分析是最常用的数据分析方法之一。它回归分析是最常用的数据分析方法之一。它是根据已得的试验结果以
2、及以往的经验来建立统是根据已得的试验结果以及以往的经验来建立统计模型,并研究变量间的相关关系,建立起变量计模型,并研究变量间的相关关系,建立起变量之间关系的近似表达式即经验公式,并由此对相之间关系的近似表达式即经验公式,并由此对相应的变量进行预测和控制等应的变量进行预测和控制等.3.1一元回归模型一元回归模型 3.1.1一元线性回归模型一元线性回归模型1.一元线性回归的基本概念一元线性回归的基本概念3/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第3章章回归分析回归分析 通常,我们对总体通
3、常,我们对总体(x,Y)进行进行n次的独立观测,获得次的独立观测,获得n组数据(称为样本观测值)组数据(称为样本观测值)(x1,y1),(x2,y2),(xn,yn)利用最小二乘法可以得到回归模型参数利用最小二乘法可以得到回归模型参数 0,1的最的最小二乘估计小二乘估计 设设Y是一个可观测的随机变量,它受到一个非随机变量是一个可观测的随机变量,它受到一个非随机变量因素因素x和随机误差和随机误差 的影响。若的影响。若Y与与x有如下线性关系:有如下线性关系:(3.1.1)且且E=0,D=2,则称则称(3.1.1)为一元线性回归模为一元线性回归模型型.其中其中 0,1为回归系数,为回归系数,x为自变
4、量,为自变量,Y为因变量为因变量.4/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第3章章回归分析回归分析 (3.1.2)其中其中 于是建立经验公式模型:于是建立经验公式模型:(3.1.3)一元线性回归分析的主要任务:一是利用样本观测值一元线性回归分析的主要任务:一是利用样本观测值对回归系数对回归系数 0,1和和 作点估计;二是对方程的线性关作点估计;二是对方程的线性关系即系即 1作显著性检验;三是在作显著性检验;三是在x=x0处对处对Y作预测等作预测等.以下举例说明建立经验公式(以下举例
5、说明建立经验公式(3.1.3)的方法。)的方法。5/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第3章章回归分析回归分析 例例3.1.1 近近10年来,某市社会商品零售总额与职工工年来,某市社会商品零售总额与职工工资总额(单位:亿元)数据如下表资总额(单位:亿元)数据如下表3.1。表表3.1 商品零售总额与职工工资表商品零售总额与职工工资表 (单位:亿元)(单位:亿元)建立社会商品零售总额与职工工资总额数据的回归模型建立社会商品零售总额与职工工资总额数据的回归模型工工资总额资总额23.82
6、7.631.632.433.734.943.252.863.873.4零售零售总额总额41.451.861.767.968.777.595.9137.4155.0175.0解:解:%首先输入数据首先输入数据x=23.80,27.60,31.60,32.40,33.70,34.90,43.20,52.80,63.80,73.40;y=41.4,51.8,61.70,67.90,68.70,77.50,95.90,137.40,155.0,175.0;6/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版
7、社)第第3章章回归分析回归分析%然后作散点图然后作散点图plot(x,y,*)%作散点图作散点图xlabel(x(职工工资总额职工工资总额)%横坐标名横坐标名ylabel(y(商品零售总额商品零售总额)%纵坐标名纵坐标名图图3.1商品零售总额与职工工资总额数据散点图商品零售总额与职工工资总额数据散点图7/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第3章章回归分析回归分析%计算最佳参数计算最佳参数Lxx=sum(x-mean(x).2);Lxy=sum(x-mean(x).*(y-mean
8、(y);b1=Lxy/Lxx;b0=mean(y)-b1*mean(x);运行后得到:运行后得到:b1=2.7991,b0=-23.5493所以,回归模型为所以,回归模型为 问题问题1:当:当x=0,得到,得到y=-23.5493亿元如何理解?亿元如何理解?问题问题2:如何检验:如何检验E=0?D=2?8/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第3章章回归分析回归分析 2.一元多项式回归模型一元多项式回归模型在一元回归模型中,如果变量在一元回归模型中,如果变量y与与x的关系是的关系是
9、n次多次多项式,即项式,即其中其中 是随机误差,服从正态分布是随机误差,服从正态分布N(0,2)a0,a1,an为回归系数为回归系数,则称则称(3.1.4)为多项式回归模型为多项式回归模型.(3.1.4)(1)多项式曲线拟合多项式曲线拟合在在MATLAB7的统计工具箱中,有多项式曲线拟合的的统计工具箱中,有多项式曲线拟合的命令命令polyfit,其调用格式有以下三种:,其调用格式有以下三种:9/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第3章章回归分析回归分析 p=polyfit(x,y
10、,n)p,S=polyfit(x,y,n)p,S,mu=polyfit(x,y,n)其中,输入其中,输入x,y分别为自变量与因变量的样本观测数据分别为自变量与因变量的样本观测数据向量;向量;n是多项式的阶数,对于一元线性回归则取是多项式的阶数,对于一元线性回归则取n=1;输出输出p是按照降幂排列的多项式的系数向量,是按照降幂排列的多项式的系数向量,S是是一个矩阵,用于估计预测误差或供一个矩阵,用于估计预测误差或供MATLAB的其它函的其它函数的调用数的调用。例例3.1.2某种合金中的主要成分为某种合金中的主要成分为A,B两种金属,经过两种金属,经过试验发现:这两种金属成分之和试验发现:这两种金
11、属成分之和x与合金的膨胀系数与合金的膨胀系数y有如下关系,建立描述这种关系的数学表达式有如下关系,建立描述这种关系的数学表达式.10/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第3章章回归分析回归分析 表表3.2 合金的膨胀系数表合金的膨胀系数表解:解:%首先输入数据首先输入数据x=37:0.5:43;y=3.4,3,3,2.27,2.1,1.83,1.53,1.7,1.8,1.9,2.35,2.54,2.9;%其次做散点图其次做散点图plot(x,y,*)xlabel(x(两种合金之和
12、两种合金之和)%横坐标名横坐标名ylabel(y(合金膨胀系数合金膨胀系数)%纵坐标名纵坐标名%然后根据散点图猜测曲线类别然后根据散点图猜测曲线类别(2.1.7)x3737.5 3838.5 3939.5 4040.5 4141.5 4242.5 43y3.4332.27 2.11.83 1.53 1.71.81.92.35 2.54 2.911/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第3章章回归分析回归分析 由于散点图呈抛物线,故选择二次函数曲线进行拟合由于散点图呈抛物线,故选择二
13、次函数曲线进行拟合.p=polyfit(x,y,2)%注意取注意取n=2运行得到回归系数:运行得到回归系数:p=0.1660-13.3866271.6231即二次回归模型为:即二次回归模型为:12/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第3章章回归分析回归分析 多项式曲线拟合预测的命令多项式曲线拟合预测的命令polyval,其调用格,其调用格式有以下两种:式有以下两种:Y=polyval(p,x0)Y,Delta=polyconf(p,x0,S,alpha)其中其中,输入输入p,S是
14、由多项式拟合命是由多项式拟合命p,S=polyfit(x,y,n)的输出的输出,x0是要预测的自变量的值是要预测的自变量的值.输出输出Y是是polyfit所所得的回归多项式在得的回归多项式在x处的预测值。处的预测值。(2)多项式回归的预测与置信区间多项式回归的预测与置信区间如果输入数据的误差相互独立,且方差为常数,则如果输入数据的误差相互独立,且方差为常数,则YDelta至少包含至少包含95%的预测值;的预测值;alpha缺省时为缺省时为0.05。(Y-Delta,Y+Delta)即即95%的置信区间的置信区间13/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工
15、业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第3章章回归分析回归分析 (3)多项式回归的多项式回归的GUI界面命令界面命令多项式回归的多项式回归的GUI界面命令界面命令polytool,其典型调用格式,其典型调用格式 polytool(x,y,n,alpha)其中,输入其中,输入x,y分别为自变量与因变量的样本观测数据分别为自变量与因变量的样本观测数据向量;向量;n是多项式的阶数;置信度为是多项式的阶数;置信度为(1-alpha)%,alpha缺省时为缺省时为0.05。该命令可以绘出总体拟合图形以及该命令可以绘出总体拟合图形以及(1-alpha)上、下置信区间的直线
16、(屏幕上显示为红色)上、下置信区间的直线(屏幕上显示为红色).此此外,用鼠标拖动图中纵向虚线,就可以显示出对于外,用鼠标拖动图中纵向虚线,就可以显示出对于不同的自变量数值所对应的预测状况,与此同时图不同的自变量数值所对应的预测状况,与此同时图形左端数值框中会随着自变量的变化而得到的预报形左端数值框中会随着自变量的变化而得到的预报数值以及数值以及(1-alpha)置信区间长度一半的数值。置信区间长度一半的数值。14/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第3章章回归分析回归分析 15/
17、24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第3章章回归分析回归分析 例例3.1.3为了分析为了分析X射线的杀菌作用,用射线的杀菌作用,用200千伏的千伏的X射线来照射细菌,每次照射射线来照射细菌,每次照射6分钟用平板计数法估分钟用平板计数法估计尚存活的细菌数,照射次数记为计尚存活的细菌数,照射次数记为t,照射后的细菌,照射后的细菌数数y如表如表3.3所示。所示。t123456789101112131415y3522111971601421061046056383632211915表表3.
18、3 X射线照射次数与残留细菌数射线照射次数与残留细菌数试求:试求:给出给出y与与t的二次函数回归模型;的二次函数回归模型;在同一坐标系内做出原始数据与拟合结果的散点图在同一坐标系内做出原始数据与拟合结果的散点图 预测预测t=16时残留的细菌数;时残留的细菌数;根据问题实际意义选择多项式函数是否合适?根据问题实际意义选择多项式函数是否合适?数据来源:数据来源:http/www.ilr.cornell.edu/hadi/RABE16/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第3章章回归分析
19、回归分析 解:解:%输入原始数据输入原始数据t=1:15;y=352,211,197,160,142,106,104,60,56,38,36,32,21,19,15;p=polyfit(t,y,2);%作二次多项式回归作二次多项式回归y1=polyval(p,t);%模型估计与作图模型估计与作图plot(t,y,-*,t,y1,-o);legend(原始数据原始数据,二次函数二次函数)xlabel(t(照射次数照射次数)ylabel(y(残留细菌数残留细菌数)t0=16;yc1=polyconf(p,t0)%预测预测t0=16时残留的细菌数时残留的细菌数运行结果为运行结果为p=1.9897 -
20、51.1394 347.8967,yc1=39.0396即二次回归模型为即二次回归模型为17/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第3章章回归分析回归分析 yc1=39.0396,表明照射表明照射16次后,用二次函数计算出次后,用二次函数计算出细菌残留数为细菌残留数为39.0396,显然与实际不相符合。,显然与实际不相符合。调用多项式回归的调用多项式回归的GUI界面命令界面命令polytool,如图如图3.4原始数据与拟合结果的散点图如图原始数据与拟合结果的散点图如图3.3所示,从
21、所示,从图形可知拟合效果较好图形可知拟合效果较好.图图 3.3 原始数据与拟合结果的散点图原始数据与拟合结果的散点图18/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第3章章回归分析回归分析 根据实际问题的意义可知:尽管二次多项式拟合效根据实际问题的意义可知:尽管二次多项式拟合效果较好,但是用于预测并不理想。因此如何根据原果较好,但是用于预测并不理想。因此如何根据原始数据散点图的规律,选择适当的回归曲线是非常始数据散点图的规律,选择适当的回归曲线是非常重要的,因此有必要研究非线性回归分析重
22、要的,因此有必要研究非线性回归分析.图图 3.4 二次函数预测交互图二次函数预测交互图19/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第3章章回归分析回归分析 3.1.2一元非线性回归模型一元非线性回归模型 为了便于正确地选择合适的函数进行回归分析为了便于正确地选择合适的函数进行回归分析建模,我们给出通常选择的六类曲线如下所示:建模,我们给出通常选择的六类曲线如下所示:1.非线性曲线选择非线性曲线选择(1)双曲线)双曲线1/y=a+b/x(见图见图3.5)。图图3.5双曲线双曲线图图3.
23、5双曲线双曲线20/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第3章章回归分析回归分析(2)幂函数曲线幂函数曲线y=axb,其中其中x0,a0(图图3.6)。图图3.6 幂函数曲线幂函数曲线(3)指数曲线)指数曲线y=aebx,其中参数,其中参数a0(见图见图3.7)。图图3.7 指数曲线指数曲线21/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第3章章回归分析回归分析(4)倒指数曲
24、)倒指数曲线线 ,其中a0(图3.8)。图图3.8倒指数曲倒指数曲线线(5)y=a+blnx(见图见图3.9)。图图3.9 对数曲线对数曲线22/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第3章章回归分析回归分析(6)S型曲型曲线线(见图3.10)。图图3.10S型曲型曲线线 对于非线性回归建模通常有两种方法:一是通过适对于非线性回归建模通常有两种方法:一是通过适当的变换转化为线性回归模型,例如双曲线模型当的变换转化为线性回归模型,例如双曲线模型(图图3.5)。如果无法实现线性化,可以利
25、用最小二乘法直接建立。如果无法实现线性化,可以利用最小二乘法直接建立非线性回归模型,求解最佳参数。非线性回归模型,求解最佳参数。23/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第3章章回归分析回归分析 2.非线性回归的非线性回归的MATLAB命令命令MATLAB统计工具箱中实现非线性回归的命令有统计工具箱中实现非线性回归的命令有nlinfit、nlparci、lpredci和和nlintool。下面逐一介绍。下面逐一介绍调用格式。调用格式。非线性拟合命令非线性拟合命令nlinfit,调用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- MATLAB 数据 分析 方法
限制150内