欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    数据分析处理.ppt

    • 资源ID:82768569       资源大小:753.50KB        全文页数:119页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据分析处理.ppt

    数据处理专题数据处理专题 数据处理是指用简明而严格的方法把获得的实验数据所代表的事物内在的规律提炼出来,得出结果的加工过程,包括数据记录、描绘曲线,从带有误差的数据中提取参数,验证和寻找经验规律,外推实验数据等等。本章介绍一些最基本的数据处理方法。3 协方差及相关系数 对于二维随机变量(X,Y),除了讨论X与Y的数学期望和方差外,还需讨论描述X与Y之间相互关系的数字特征。这就是本节的内容。定义:数据处理的过程:数据处理的过程:1、获得数据(标准化处理)。2、将数据分类(聚类分析)。3、提取主要影响因素(主成分分析)。4、数据分析(相关性分析,回归分析)。聚类分析聚类也就是分类,在社会经济领域中存在大量的分类问题,比如三十个省市自治区独立核算工业企业经济效益进行分析,一般不是逐个省市自治区去分析,而较好的做法是选取具有代表性的指标如,百元固定资产实现利税,资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等,根据这些指标对省市自治区分类,然后根据分类结果对企业经济效益进行综合评价。聚类分析方法系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。我们着重讲述系统聚类法。对样品分类成Q分类,对指标分类称R分类聚类的三种尺度:1、间隔尺度:变量是用连续量来表示,如长度、重量等2、有序尺度:用一些等级来表示。如上中下三等。3、名义尺度:既没有数量表示也没有次序表示。如红黄蓝三色等我们通过距离来分类。方法有:最短距离法、最长距离法、中间距离法、重心法等。我们用最短距离法来讲述,其它方法读者自己翻阅相关的多元统计教材。最短距离法步骤如下:【1】定义样品之间的距离,计算样品两两距离,得一距离记为D(0)开始每个样品自成一类,显然这时Dij=dij。其中D表示类G之间的距离,d表示样品之间的距离。【2】找出D(0)的非对角线最小元素,设为Dpq,则将Gp和Gq合并为一新类,记为Gr 。【3】给出计算新类与其他的类的距离公式:距离公式距离公式有:欧氏距离,马氏距离,兰氏距离等。我们一般用马氏距离,应为它即排除了各指标之间相关性的干扰,而且还不受各指标量纲的影响。两个样本间的距离定义:其中,Xi 为样品的p个指标组成的向量。协方差阵的逆矩阵协方差阵定义如下:样品到总体的距离定义:总体均值向量 Dkr=minDkp,Dkq将D(0)中的第p、q行及p、q列用上面公式并成一个新行新列,新行新列对应Gr,所得到得矩阵记为D(1)【4】对D(1)重复上述对D(0)的(2)(3)两步得D(2);如此下去,直到所有的元素并为一类。注意:如果某一步中非对角线最小的元素不止一个,则对应这些最小元素的类可以同时合并。为了大家便于掌握我们举例如下:例:设抽取五个样品,每个样品只测一个指标,它们是1,2,3.5,7,9,试用最短距离法对这五个样品进行分类。解:我们距离选用我们所熟悉的绝对值距离。G1=X1G2=X2G3=X3G4=X4G5=X5G1=X10G2=X210G3=X32.51.50G4=X4653.50G5=X5875.520G6=X1,x2G3=X3G4=X4G5=X5G6=X1,x20G3=X31.50G4=X453.50G5=X575.520G6=X1,x2,x3G4=X4G5=X5G6=X1,x2,x30G4=X43.50G5=X55.520G6=X1,x2,x3G7=x4,X5G6=X1,x2,x30G7=x4,X520最终我们分为两类比较合适,最终我们分为两类比较合适,x1,x2,x3与与x4,x5Step1 寻找变量之间的相似性用pdist函数计算相似矩阵,有多种方法可以计算距离,进行计算之前最好先将数据用zscore函数进行标准化。X=1,2,3.5,7,9X2=zscore(X);%标准化数据Y2=pdist(X2);%计算距离Step2 定义变量之间的连接Z2=linkage(Y2);Step3 评价聚类信息C2=cophenet(Z2,Y2);/0.94698Step4 创建聚类,并作出谱系图T=cluster(Z2,2);H=dendrogram(Z2);%画出聚类图matlab做聚类分析分步聚类:(分步聚类:(1)找到数据集合中变量两两之间的相似性和非相似)找到数据集合中变量两两之间的相似性和非相似性,用性,用pdist函数计算变量之间的距离;(函数计算变量之间的距离;(2)用)用 linkage函数定义函数定义变量之间的连接;(变量之间的连接;(3)用)用 cophenetic函数评价聚类信息;(函数评价聚类信息;(4)用用cluster函数创建聚类。函数创建聚类。例 为了更深入了解我国人口的文化程度状况,1990年全国人口普查数据对全国30个省直辖市、自治区进行聚类分析。分析选用了三个指标:【1】大学以上文化程度的人口占全部人口的比例(DXBZ);【2】初中以上文化程度的人口占全部人口的比例(CZBZ);【3】文盲半文盲的人口占全部人口的比例(WMBZ);分别用来反映较高、中等、较低文化程度人口的状况,原始数据如附件:clearclcX=load(data1.txt)Y2=pdist(X);%计算距离Z2=linkage(Y2);C2=cophenet(Z2,Y2);T=cluster(Z2,4);H=dendrogram(Z2);%画出聚类图 pdist函数调用格式:Y=pdist(X,metric)说明:用 metric指定的方法计算 X 数据矩阵中对象之间的距离。X:一个mn的矩阵,它是由m个对象组成的数据集,每个对象的大小为n。metric取值如下:euclidean:欧氏距离(默认);seuclidean:标准化欧氏距离;mahalanobis:马氏距离;cityblock:布洛克距离;minkowski:明可夫斯基距离;cosine:chebychev:Chebychev距离。linkage函数调用格式:Z=linkage(Y,method)说 明:用method参数指定的算法计算系统聚类树。Y:pdist函数返回的距离向量;method:可取值如下:single:最短距离法(默认);complete:最长距离法;average:未加权平均距离法;weighted:加权平均法;centroid:质心距离法;median:加权质心距离法;ward:内平方距离法(最小方差算法)练习题练习题 根据信息基础设施的发展状况,对二十个国家的地根据信息基础设施的发展状况,对二十个国家的地区进行分类。区进行分类。主成分分析在实际问题中,研究多指标的问题是经常遇到的,然而在多数情况下,不同指标之间是有一定关系的。由于指标较多再加上指标之间有一定的相关性,势必增加了分析问题的复杂性。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多滴反映原来指标的信息。这种多个指标化为少数互不干扰的综合指标的统计方法叫做主成分分析法,如某人要做一件上衣要测量很多尺寸,如身长、袖长、胸围、腰围、肩宽、肩厚等十几项指标。但是某服装产生产一批新型服装绝不可能吧尺寸型号分的过多。而是从其中选取几个综合性的指标作为分类型号。1、反映胖瘦。2、反映特体。3反映长度。计算步骤设有n个样品,每个样品观测p个指标,将原始数据写成矩阵形式1、将原始数据标准化2、建立变量的相关系数阵3、求R的特征根及相应的单位特征向量a1,a2,.ap4、写出主成分一般取累计贡献率达一般取累计贡献率达858595%的特征值的特征值所对应的第一、第二,所对应的第一、第二,第,第m m(mp)个主成分。个主成分。特征值大的贡献大。特征值大的贡献大。贡献率贡献率=特征值特征值/所有特征值和所有特征值和例 中国大陆35个大城市某年的10项社会经济统计指标指标做主成分分析数据见下表。相关系数矩阵相关系数矩阵:std=1.0000 -0.3444 0.8425 0.3603 0.7390 0.6215 0.4039 0.4967 0.6761 0.4689-0.3444 1.0000 -0.4750 0.3096 -0.3539 0.1971 0.3571 0.2600 0.1570 0.30900.8425 -0.4750 1.0000 0.3358 0.5891 0.5056 0.3236 0.4456 0.5575 0.37420.3603 0.3096 0.3358 1.0000 0.1507 0.7664 0.9412 0.8480 0.7320 0.86140.7390 -0.3539 0.5891 0.1507 1.0000 0.4294 0.1971 0.3182 0.3893 0.25950.6215 0.1971 0.5056 0.7664 0.4294 1.0000 0.8316 0.8966 0.9302 0.90270.4039 0.3571 0.3236 0.9412 0.1971 0.8316 1.0000 0.9233 0.8376 0.95270.4967 0.2600 0.4456 0.8480 0.3182 0.8966 0.9233 1.0000 0.9201 0.97310.6761 0.1570 0.5575 0.7320 0.3893 0.9302 0.8376 0.9201 1.0000 0.93960.4689 0.3090 0.3742 0.8614 0.2595 0.9027 0.9527 0.9731 0.9396 1.0000pcacov 功能:运用协方差矩阵进行主成分分析 格式:PC=pcacov(X)PC,latent,explained=pcacov(X)说明:PC,latent,explained=pcacov(X)通过协方差矩阵X进行主成分分析,返回主成分(PC)、协方差矩阵X的特征值(latent)和每个特征向量表征在观测量总方差中所占的百分数(explained)。特征值特征值(val)val=0.0039 0 0 0 0 0 0 0 0 00 0.0240 0 0 0 0 0 0 0 00 0 0.0307 0 0 0 0 0 0 0 0 0 0 0.0991 0 0 0 0 0 0 0 0 0 0 0.1232 0 0 0 0 0 0 0 0 0 0 0.2566 0 0 0 00 0 0 0 0 0 0.3207 0 0 00 0 0 0 0 0 0 0.5300 0 00 0 0 0 0 0 0 0 2.3514 00 0 0 0 0 0 0 0 0 6.2602特征根排序:特征根排序:6.26022 2.35138 0.530047 0.320699 0.256639 0.123241 0.0990915 0.0307088 0.0240355 0.00393387特征向量特征向量(vec):-0.1367 0.2282 -0.2628 0.1939 0.6371 -0.2163 0.3176 -0.1312 -0.4191 0.2758-0.0329 -0.0217 0.0009 0.0446-0.1447 -0.4437 0.4058 -0.5562 0.5487 0.0593-0.0522 -0.0280 0.2040 -0.0492-0.5472 -0.4225 0.3440 0.3188 -0.4438 0.2401 0.0067 -0.4176 -0.2856 -0.2389 0.1926 -0.4915 -0.4189 0.2726 0.2065 0.3403 0.0404 0.1408 0.0896 0.0380-0.1969 -0.0437 -0.4888 -0.6789 -0.4405 0.1861-0.0343 0.2360 0.0640 -0.8294 0.0377 0.2662 0.1356 -0.1290 0.0278 0.3782 0.2981 0.4739 0.5685 0.2358 0.1465 -0.1502 -0.2631 0.1245 0.2152 0.3644 0.1567 0.3464 -0.6485 0.2489-0.4043 0.2058 -0.0704 0.0462 0.1214 0.3812 0.4879 -0.5707 0.1217 0.1761 0.0987 0.3550 0.3280 -0.0139 0.0071 0.3832-0.7894 -0.1628 0.1925 0.2510-0.0422 0.2694 0.0396 0.0456 0.1668 0.3799于是的三个指标为:于是的三个指标为:Y1=-0.1312*x1-0.5562*x2+0.3188*x3+.+0.0456*x10Y2=-0.4191*x1+0.5487*x2+.+0.1668*x10Y3=0.2758*x1+0.0593*x2+.+0.3799*x10通过观察我们发现Y1当中x2,x5的系数比较大,即影响Y1比较明显因此我们可将Y1看做反映非农业非农业人口人口比与客运总量的与客运总量的综合指标。练习练习、我们给出了各地的企业的经济效益状况,通过相关的方法对各地的经济效益做分析。数据如下表:进一步还可做因子分析。相关性分析 在一元统计分析中,研究两入随机变量之间的线性相关关系、可用相关系数(称为简单相关系数);研究一个随机变量与多个随机变量之间的线性相关关系,可用复相关系数(称为全相关系数)将它推广到研究多个随机变量与多个随机变量之间的相关关系的讨论中,提出了典型相关分析。实际问题中,两组变量之间具有相关关系的问题很多,例如几种主要产品如猪肉、牛肉、鸡蛋的价格(作为第一组变量)和相应这些产品的销售量(作为第二组变量)有相关关系;投资性变量(如劳动各人数、货物周转量、生产建设投资等)与国民收入变量(如工农业国民收入、运输业国民收入、建筑业国民收入等)只有相关关系;患某种疾病的病人的各种症状程度(第一组变量)和用物理化学方法检验的结果(第二组变量)具有相关关系;运动员的体力测试指标(如反复横向跳、纵跳、背力、握力等)与运动能力测试指标(如耐力跑、跳远、投球等)之间具有相关关系等等。典型相关分析就是研究两组变量之间相关关系的一种多元统计方法,设两组变量用x1,x2,xn和y1,y2yn表示,要研究两组变量的相关关系,一种方法是分别研究X和Y之间的相关关系,然后列出相关系数表进行分析,当两组变量较多时,这样做法不仅烦琐也不易抓住问题的实际;另一种方法采用类似主成分分析的做法在每一组变量中都选择若干个有代表性的综合指标(变量的线性组合),通道研究两组的综合指标之间的关系来反映两组变量之间关系比如猪肉价格和牛肉价格用x1,X2表示,它们的销售售量用X,xl表示,研究它们之间的相又关系,从经济学观点就是希望构造一个X1、x2的线性函数入y1a11X1十a12x2称为价格指数及x3、x4的线性函数y2a21x3十a22X4称为销售指数,要求它们之间具有最大相关性,这就是一个典型相关分析问题。1.插值拟合2.线性回归4.灰色分析5.神经网络 在解决实际问题的生产(或工程)实践和科学实验过程中,通常需要通过研究某些变量之间的函数关系来帮助我们认识事物的内在规律和本质属性,而这些变量之间的未知函数关系又常常隐含在从试验、观测得到的一组数据之中。因此,能否根据一组试验观测数据找到变量之间相对准确的函数关系就成为解决实际问题的关键。例如在工程实践和科学实验中,常常需要从一组试验观测数据(xi,yi),i=0,1,.,n之中找到自变量x与因变量y 之间的函数关系,一般可用一个近似函数y=f(x)来表示。函数y=f(x)的产生办法因观测数据和要求不同而异,通常可采用数据拟合与函数插值两种办法来实现。数据拟合主要是考虑到观测数据受随机观测误差的影响,进而寻求整体误差最小、能较好反映观测数据的近似函数y=f(x),此时并不要求所得到的近似函数y=f(x)满足yi=f(xi),i=0,1,n。函数插值则要求近似函数y=f(x)在每一个观测点i x 处一定要满足y i=f(xi),i=0,1,n,在这种情况下,通常要求观测数据相对比较准确,即不考虑观测误差的影响。在实际问题中,通过观测数据能否正确揭示某些变量之间的关系,进而正确认识事物的内在规律与本质属性,往往取决于两方面因素。其一是观测数据的准确性或准确程度,这是因为在获取观测数据的过程中一般存在随机测量误差,导致所讨论的变量成为随机变量。其二是对观测数据处理方法的选择,即到底是采用插值方法还是用拟合方法,插值方法之中、拟合方法之中又选用哪一种插值或拟合技巧来处理观测数据。插值问题忽略了观测误差的影响,而拟合问题则考虑了观测误差的影响。但由于观测数据客观上总是存在观测误差,而拟合函数大多数情况下是通过经验公式获得的,因此要正确揭示事物的内在规律,往往需要对大量的观测数据进行分析,尤为重要的是进行统计分析。统计分析的方法有许多,如方差分析、回归分析等。数据拟合虽然较有效地克服了随机观测误差的影响,但从数理统计的角度看,根据一个样本计算出来的拟合函数(系数),只是拟合问题的一个点估计,还不能完全说明其整体性质。因此,还应该对拟合函数作区间估计或假设检验,如果置信区间太大或包含零点,则由计算得到的拟合函数系数的估计值就毫无意义。这里所采用的统计分析方法就是所谓的回归分析。另外还可用方差分析的方法对模型的误差作定量分析。对于插值方法,本章简单介绍最常用的插值法的基本结论及其Matlab实现问题。由于数据拟合问题必须作区间估计或假设检验,所以除了在本章介绍最基本的数据拟合方法最小二乘法的基本结论及其Matlab实现问题外,我们在专门介绍了对数值拟合问题进行区间估计或假设检验的统计方法,即介绍回归分析方法及其Matlab实现。数据处理问题通常情况下只是某个复杂实际问题的一个方面或部分内容,因而这里所介绍的数据处理方法函数插值和数据拟合的方法(包括回归分析)通常只能解决实际问题中的部分问题计算问题。一般来说,对实际问题进行数学建模需要用到多方面知识,只有很少的情况下可以单独使用本章所介绍的内容,故我们只在本章最后一节以修改后的美国以修改后的美国91年数学建模年数学建模A题题为例说明如何使用数值计算知识建立数学模型,从而解为例说明如何使用数值计算知识建立数学模型,从而解决实际问题的方法。决实际问题的方法。插值方法插值方法1、拉格朗日插值法2、分段线性插值法分段线性插值的分段线性插值的Matlab实现实现用用Matlab实现分段线性插值不需要编制函数实现分段线性插值不需要编制函数程序,程序,Matlab中有现成的一维插值函数中有现成的一维插值函数interp1。y=interp1(x0,y0,x,method)method指定插值的方法,默认为线性插值。指定插值的方法,默认为线性插值。其值可为:其值可为:nearest 最近项插值最近项插值linear 线性插值线性插值spline 立方样条插值立方样条插值cubic 立方插值。立方插值。3、三次样条插值法三次样条插值法Matlab中三次样条插值也有现成的函数:中三次样条插值也有现成的函数:y=interp1(x0,y0,x,spline);y=spline(x0,y0,x);pp=csape(x0,y0,conds),pp=csape(x0,y0,conds,valconds),y=ppval(pp,x)。其中其中x0,y0是已知数据点,是已知数据点,x是插值点,是插值点,y是是插值点的函数值。插值点的函数值。对于三次样条插值,我们提倡使用函数对于三次样条插值,我们提倡使用函数csape,csape的返回值是的返回值是pp形式,要求形式,要求插值点的函数值,必须调用函数插值点的函数值,必须调用函数ppval。例例1 机床加工机床加工待加工零件的外形根据工艺要求由一组数据(x,y)给出(在平面情况下),用程控铣床加工时每一刀只能沿x方向和y 方向走非常小的一步,这就需要从已知数据得到加工所要求的步长很小的(x,y)坐标。表中给出的x,y数据位于机翼断面的下轮廓线上,假设需要得到x坐标每改变0.1时的y坐标。试完成加工所需数据,画出曲线,并求出x=0处的曲线斜率和13 x 15范围内y 的最小值。x 0 3 5 7 9 11 12 13 14 15y 0 1.2 1.7 2.0 2.1 2.0 1.8 1.2 1.0 1.6要求用分段线性和三次样条two种插值方法计算。x0=0 3 5 7 9 11 12 13 14 15;y0=0 1.2 1.7 2.0 2.1 2.0 1.8 1.2 1.0 1.6;x=0:0.1:15;y2=interp1(x0,y0,x,linear);y3=interp1(x0,y0,x,spline);pp1=csape(x0,y0);y4=ppval(pp1,x);pp2=csape(x0,y0,second);y5=ppval(pp2,x);subplot(2,2,2)plot(x0,y0,+,x,y2)title(Piecewise linear)subplot(2,2,3)plot(x0,y0,+,x,y3)title(Spline1)subplot(2,2,4)plot(x0,y0,+,x,y4)title(Spline2)dx=diff(x);dy=diff(y3);dy_dx=dy./dx;dy_dx0=dy_dx(1)ytemp=y3(131:151);ymin=min(ytemp);index=find(y3=ymin);xmin=x(index);xmin,ymin计算结果略。计算结果略。可以看出,分段线性插值的光滑性较差(特别是在可以看出,分段线性插值的光滑性较差(特别是在x=14附近弯曲处),附近弯曲处),建议选用三次样条插值的结果。建议选用三次样条插值的结果。五 一维插值总结插值函数一般是已知函数的线性组合或者称为加权平均。在已知数据点较少时,插值技术在工程实践和科学实验中有着广泛而又十分重要的应用。例如在信息技术中的图像重建、图像放大过程中为避免图像失真、扭曲而增加的插值补点,建筑工程的外观设计,化学工程试验数据与模型分析,天文观测数据、地理信息数据的处理,社会经济现象的统计分析等方面,插值技术的应用是不可或缺的。插值技术(插值技术(或方法)远不止这里所介绍的这些,但在解决实际问题时,对于一维插值问题而言,前面介绍的插值方法已经足够了。剩下的问题关键在于什么情况下使用、怎样使用和使用何种插值方法的选择上。拉格朗日插值函数在整个插值区间上有统一的解析表达式,其形式关于节点对称,光滑性好。但缺点同样明显,这主要体现在高次插值收敛性差(龙格现象);增加节点时前期计算作废,导致计算量大;一个节点函数值的微小变化(观测误差存在)将导致整个区间上插值函数都发生改变,因而稳定性差等几个方面。因此拉格朗日插值法多用于理论分析,在采用拉格朗日插值方法进行插值计算时通常选取n Fa,则两者有显著的线性关系。反之没有。Matlab计算公式计算公式x=finv(1-,n1,n2)Yi为根据回归公式计算的到值。关于xi的偏差平方和关于yi的偏差平方和关于xi,yi的相关偏差平方和xi,yi 为实际数据,Yi为根据回归公式计算的到值。(b)t检验法判别指标当|t|ta(n-2)时,x,y存在明显的线性关系,当|t|Ra解:clearclc x=20 25 30 35 40 45 50 55 60 65 y=13.2 15.1 16.4 17.1 17.9 18.7 19.6 21.2 22.5 24.3plot(x,y,r*)%y=a*x+by1=ones(10,1),xA=inv(y1*y1)*y1*y%求的系数a,by0=A(2).*x+A(1);%假设检验1考察温度x对产量y的影响,测得下列10组数据:求y关于x的线性回归方程,检验回归效果是否显著,并预测x=42时产量的估值及预测区间(置信度95%).假设H0:a=0,H1:a0我们分别采用t检验和F检验来考察x,y的关系是否正确。clearclc x=20 25 30 35 40 45 50 55 60 65 ;y=13.2 15.1 16.4 17.1 17.9 18.7 19.6 21.2 22.5 24.3;plot(x,y,r*)y1=ones(10,1),x;A=inv(y1*y1)*y1*y%求的系数a,by0=A(2).*x+A(1);Lyy=sum(y-mean(y).2);Lxx=sum(x-mean(x).2);Lxy=sum(x-mean(x).*(y-mean(y);U=sum(y0-mean(y).2);Q=Lyy-U;%F检验F=U*(10-2)/QFa=finv(1-0.05,1,8)%t检验t=sqrt(10-2)*Lxx)*A(2)/sqrt(Q)ta=-tinv(0.025,8)回归分析的Matlab实现Matlab统计工具箱中提供了一些回归分析的命令,现介绍如下。1 多元线性回归多元线性回归的命令是regress,此命令也可用于一元线性回归。其格式为:(1)确定回归系数的点估计,用命令:b=regress(Y,X)。(2)求回归系数的点估计和区间估计,并检验回归模型,用命令:b,bint,r,rint,stats=regress(Y,X,alpha)。(3)画出残差及其置信区间,用命令:rcoplot(r,rint)。在上述命令中,各符号的含义为:(i)b为回归方程的系数,Y,X的定义同本部分前面所述。对一元线性 回归,Y,X中取k=1即可;(ii)alpha为显著性水平(缺省时为0.05);(iii)bint为回归系数的区间估计;(iv)r与rint分别为残差及其置信区间;(v)stats是用于检验回归模型的统计量,有三个数值,第一个是R2,第二个是F值,第三个是与F对应的概率P。其中R2与F定义同前,值越大,说明回归方程越显著,P 0,a 0。两边求对数则有 lny=lna+blnx,那么我们令 y=lny,x=lnx,则会有 y=a+bx3 指数函数曲线 y=aebx,其中a 0。两边求对数则有 lny=lna+bx,那么我们令 y=lny,a=lna,则会有 y=a+bx4 倒指数函数曲线y=aeb/x,其中a 0。两边求对数则有 lny=lna+b/x,那么我们令 y=lny,a=lna,x=1/x则会有 y=a+bx5 对数函数曲线y=a+bln x,其中x 0。6 S型函数曲线 y=1/(a+be-x)那么我们令y=1/y,x=e-x则会有 y=a+bx注:对于非线性回归问题的Matlab实现问题,一种方法是化为相应的线性模型实现,另一种方法是直接应用Matlab中相应的命令,其结果是一致的。详见本节第五部分。三 多元线性回归分析一般地,在实际问题中影响应变量y 的自变量往往不止一个,不妨设有k 个为 x1,x2,xk。通过观测得到一组(k+1维)相互独立的试验观测数据(x1j,x2j,xkj,yj)y,i=1,2,n,其中n k+1。假设变量y 与变量x1,x2,xk 之间有线性关系:y=b0+b1*x1+.+bk*xk+e,将观测数据带入的 y=b0+b1*x1j+.+bk*xkj+ej Y=Xb+e注:b代表 e代表对线性模型y=b0+b1*x1+.+bk*xk+e 所要考虑的主要问题是:(i)用实验观测数据对未知参数b0,bk 和做点估计和假设检验,从而建立因变量y 和自变量 x1,xk 之间的线性关系;(ii)在x1=x10,xk=x1k 处对y 的值作预测和控制,并对y 作区间估计。本部分总是假设n k+1。1 未知参数bi估计XTXb=XTYb=(XTX)-1 XTY2 多元线性回归中的假设检验在实际问题中,往往事先不知道或不能确定随机变量y 与自变量x1,xk 之间确有线性关系。因而(10.13)往往是一种假设,因此在求出线性回归方程之后,还必须对求出的线性回归方程同实际观测数据拟合效果进行检验。类似于一元线性回归,可提出以下原假设 H0:b1=b2=bk=0。当拒绝H0时表示线性关系成立,否则不成立。检验指标知知F检验法的检验规则为:检验法的检验规则为:如果如果FFa,则拒绝,则拒绝H0,认为因变量,认为因变量y 与自变量与自变量1 x,k x 之间的线之间的线性关系显著;否则,认为性关系显著;否则,认为y 与与x1,xk 之间的线性关系不显著。之间的线性关系不显著。需要注意的是,需要注意的是,y 与与x1,xk 之间的线性关系不显著,可能出现几种情况:之间的线性关系不显著,可能出现几种情况:如如y 于其中某些自变量无关系,可以去掉这些自变量;于其中某些自变量无关系,可以去掉这些自变量;y 与与1 x,k x 之间之间的存在非线性关系;还有其它变量与的存在非线性关系;还有其它变量与y 有关系等。当然还有其它检验方法。有关系等。当然还有其它检验方法。例8 某厂生产的一种电器的销售量y 与竞争对手的价格x1和本厂的价格x2有关。下表是该厂商品在10个城市的销售记录。试根据这些数据建立y与x1和x2的关系式,对得到的模型和系数进行检验。若某市本厂产品售价160(元),竞争对手售价170(元),预测商品在该市的销售量。x1元 120 140 190 130 155 175 125 145 180 150 x2元 100 110 90 150 210 150 250 270 300 250Y个 102 100 120 77 46 93 26 69 65 85解 分别画出y关于x1和y关于x2的散点图,可以看出y与x2有较明显的线性关系,而y与x1之间的关系则难以确定,我们将作几种尝试,用统计分析决定优劣。设回归模型为y=b0+b1 x1+b2 x2。编写如下程序:x1=120 140 190 130 155 175 125 145 180 150 ;x2=100 110 90 150 210 150 250 270 300 250 ;y=102 100 120 77 46 93 26 69 65 85 ;x=ones(10,1),x1,x2;b,bint,r,rint,stats=regress(y,x);b,bint,stats得到b=66.5176 0.4139 -0.2698bint=-32.5060 165.5411 -0.2018 1.0296 -0.4611 -0.0785stats=0.6527 6.5786 0.0247可以看出结果不是太好,p=0.0247,取a=0.05时所设回归模型可用,但取a=0.01时所设回归模型不能用;R2=0.6527较小;b0,b1的置信区间包含了零点。后面将试图用x1,x2的二次函数改进它。软件有关结果软件有关结果Root MSE (残差标准差反映了回归方程的精度,其值越小说明回归效果越好R-Square (决定系数)说明所有自变量能解释Y变化的百分比。取值(0,1),越接近1模型拟合越好Adj R-Sq (校正决定系数)说明所有自变量与Y间的线性相关程度,即观察值Y与估计值 之间的相关程度。反映了回归方程的精度,其值越小说明回归效果越好 投资额与国民生产总值和物价指数投资额与国民生产总值和物价指数 问问题题建立投资额模型,研究建立投资额模型,研究某地区某地区实际投资额与国实际投资额与国民生产总值民生产总值(GNP)及物价指数及物价指数(PI)的关系的关系2.06883073.0424.5201.00001185.9195.0101.95142954.7474.9190.96011077.6166.491.78422631.7401.9180.9145 992.7144.281.63422417.8423.0170.8679 944.0149.371.50422163.9386.6160.8254 873.4133.361.40051918.3324.1150.7906 799.0122.851.32341718.0257.9140.7676 756.0125.741.25791549.2206.1130.7436 691.1113.531.15081434.2228.7120.7277 637.797.421.05751326.4 229.8110.7167 596.7 90.91物价物价指数指数国民生国民生产总值产总值投投资额资额年份年份序号序号物价物价指数指数国民生国民生产产总值总值投投资额资额年份年份序号序号根据对未来根据对未来GNP及及PI的估计,预测未来投资额的估计,预测未来投资额 该地区该地区连续连续20年的统计数据年的统计数据 四 逐步线性回归分析从多元线性回归分析中我们知道,采用的自变量越多,则回归平方和越大,残差平方和越小。然而,采用较多的变量来拟合回归方程,得到的方程稳定性差,每个自变量的区间误差的积累将影响总体误差,用这样建立起来的回归方程作预测的可靠性差、精度低。另一方面,如果采用了对因变量影响小的自变量而遗漏了重要变量,可导致估计量产生偏倚和不一致性。因而希望得到最优的回归方程。逐步线性回归分析方法就是一种自动从大量可供选择的变量中选择那些对建立回归方程比较重要的变量的方法,它是在多元线性回归基础上派生的一种算法技巧,详可参阅相应的文献。其基本思路为:从一个自变量开始,视自变量对y 作用的显著程度,从大到小依次逐个引入回归方程。当引入的自变量由于后面自变量的引入而变得不显著时,要将其剔除掉。引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。对于每一步,都要进行y 值检验,以确保每次引入新的显著性变量前回归方程中只包含对y 作用显著的变量。这个过程反复进行,直至即无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程止。使用逐步线性回归时要注意:要适当选择引入变量的显著性水平和剔除变量的显著性水平;应尽量选择那些相互独立性强的变量。4 逐步回归逐步回归的命令是stepwise,它提供了一个交互式画面,通过此工具可以自由地选择变量,进行统计分析。通常用法是:stepwise(x,y,inmodel,alpha),其中x是自变量数据,y 是因变量数据,分别为n m和n 1矩阵,inmodel是矩阵的列数指标,给出初始模型中包括的子集(缺省时设定为全部自变量),alpha为显著水平(缺省时为0.05)。运行stepwise命令时产生三个图形窗口:Stepwise Plot,Stepwise Table Stepwise History。所有这些图形界面都由热区,即当鼠标移到图形的某个区域时,鼠标的指针会变成一个小圆,点击后会产生交互作用。在Stepwise Plot窗口,显示出各项的回归系数及其置信区间。其中:点表示回归系数的值,点两边的水平(实或虚)直线段表示其置信区间(虚线表示该变量的拟合与0无显著差异,实线表示有显著差异);绿色的线表示当前在模型中的项,红色的线表示当前不在模型中的项。点击一条线会改变其状态,即在模型中的项(绿线)会被移去(变为红线),不在模型中的项(红线)会被加入(变为绿线)。次窗口中的Export下拉式菜单可以向Matlab工作区传送各种数据。次窗口中的Scale Inputs可对输入数据的每列进行正态化处理,使其标准差为1。在Stepwise Table窗口中列出了一个统计表,包括回归系数及其置信区间,以及模型的统计量剩余标准差(RMSE)、相关系数(R-square)、F值、与F值对应的概率P。例11 水泥凝固时放出的热量y与水泥中4种化学成分x1,x2,x3,x4有关,今测得一组数据如下,试用逐步回归来确定一个线性模型。序号 x1 x2 x3 x4 y1 7 26 6 60 78.52 1 29 15 52 74.33 11 56 8 20 104.34 11 31 8 47 87.65 7 52 6 33 95.96 11 55 9 22 109.

    注意事项

    本文(数据分析处理.ppt)为本站会员(s****8)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开