数据分析处理.ppt
《数据分析处理.ppt》由会员分享,可在线阅读,更多相关《数据分析处理.ppt(119页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据处理专题数据处理专题 数据处理是指用简明而严格的方法把获得的实验数据所代表的事物内在的规律提炼出来,得出结果的加工过程,包括数据记录、描绘曲线,从带有误差的数据中提取参数,验证和寻找经验规律,外推实验数据等等。本章介绍一些最基本的数据处理方法。3 协方差及相关系数 对于二维随机变量(X,Y),除了讨论X与Y的数学期望和方差外,还需讨论描述X与Y之间相互关系的数字特征。这就是本节的内容。定义:数据处理的过程:数据处理的过程:1、获得数据(标准化处理)。2、将数据分类(聚类分析)。3、提取主要影响因素(主成分分析)。4、数据分析(相关性分析,回归分析)。聚类分析聚类也就是分类,在社会经济领域中
2、存在大量的分类问题,比如三十个省市自治区独立核算工业企业经济效益进行分析,一般不是逐个省市自治区去分析,而较好的做法是选取具有代表性的指标如,百元固定资产实现利税,资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等,根据这些指标对省市自治区分类,然后根据分类结果对企业经济效益进行综合评价。聚类分析方法系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。我们着重讲述系统聚类法。对样品分类成Q分类,对指标分类称R分类聚类的三种尺度:1、间隔尺度:变量是用连续量来表示,如长度、重量等2、有序尺度:用一些等级来表示。如上中下三等。3、名义尺度:既没有数量表示也没
3、有次序表示。如红黄蓝三色等我们通过距离来分类。方法有:最短距离法、最长距离法、中间距离法、重心法等。我们用最短距离法来讲述,其它方法读者自己翻阅相关的多元统计教材。最短距离法步骤如下:【1】定义样品之间的距离,计算样品两两距离,得一距离记为D(0)开始每个样品自成一类,显然这时Dij=dij。其中D表示类G之间的距离,d表示样品之间的距离。【2】找出D(0)的非对角线最小元素,设为Dpq,则将Gp和Gq合并为一新类,记为Gr 。【3】给出计算新类与其他的类的距离公式:距离公式距离公式有:欧氏距离,马氏距离,兰氏距离等。我们一般用马氏距离,应为它即排除了各指标之间相关性的干扰,而且还不受各指标量
4、纲的影响。两个样本间的距离定义:其中,Xi 为样品的p个指标组成的向量。协方差阵的逆矩阵协方差阵定义如下:样品到总体的距离定义:总体均值向量 Dkr=minDkp,Dkq将D(0)中的第p、q行及p、q列用上面公式并成一个新行新列,新行新列对应Gr,所得到得矩阵记为D(1)【4】对D(1)重复上述对D(0)的(2)(3)两步得D(2);如此下去,直到所有的元素并为一类。注意:如果某一步中非对角线最小的元素不止一个,则对应这些最小元素的类可以同时合并。为了大家便于掌握我们举例如下:例:设抽取五个样品,每个样品只测一个指标,它们是1,2,3.5,7,9,试用最短距离法对这五个样品进行分类。解:我们
5、距离选用我们所熟悉的绝对值距离。G1=X1G2=X2G3=X3G4=X4G5=X5G1=X10G2=X210G3=X32.51.50G4=X4653.50G5=X5875.520G6=X1,x2G3=X3G4=X4G5=X5G6=X1,x20G3=X31.50G4=X453.50G5=X575.520G6=X1,x2,x3G4=X4G5=X5G6=X1,x2,x30G4=X43.50G5=X55.520G6=X1,x2,x3G7=x4,X5G6=X1,x2,x30G7=x4,X520最终我们分为两类比较合适,最终我们分为两类比较合适,x1,x2,x3与与x4,x5Step1 寻找变量之间的相似
6、性用pdist函数计算相似矩阵,有多种方法可以计算距离,进行计算之前最好先将数据用zscore函数进行标准化。X=1,2,3.5,7,9X2=zscore(X);%标准化数据Y2=pdist(X2);%计算距离Step2 定义变量之间的连接Z2=linkage(Y2);Step3 评价聚类信息C2=cophenet(Z2,Y2);/0.94698Step4 创建聚类,并作出谱系图T=cluster(Z2,2);H=dendrogram(Z2);%画出聚类图matlab做聚类分析分步聚类:(分步聚类:(1)找到数据集合中变量两两之间的相似性和非相似)找到数据集合中变量两两之间的相似性和非相似性,
7、用性,用pdist函数计算变量之间的距离;(函数计算变量之间的距离;(2)用)用 linkage函数定义函数定义变量之间的连接;(变量之间的连接;(3)用)用 cophenetic函数评价聚类信息;(函数评价聚类信息;(4)用用cluster函数创建聚类。函数创建聚类。例 为了更深入了解我国人口的文化程度状况,1990年全国人口普查数据对全国30个省直辖市、自治区进行聚类分析。分析选用了三个指标:【1】大学以上文化程度的人口占全部人口的比例(DXBZ);【2】初中以上文化程度的人口占全部人口的比例(CZBZ);【3】文盲半文盲的人口占全部人口的比例(WMBZ);分别用来反映较高、中等、较低文化
8、程度人口的状况,原始数据如附件:clearclcX=load(data1.txt)Y2=pdist(X);%计算距离Z2=linkage(Y2);C2=cophenet(Z2,Y2);T=cluster(Z2,4);H=dendrogram(Z2);%画出聚类图 pdist函数调用格式:Y=pdist(X,metric)说明:用 metric指定的方法计算 X 数据矩阵中对象之间的距离。X:一个mn的矩阵,它是由m个对象组成的数据集,每个对象的大小为n。metric取值如下:euclidean:欧氏距离(默认);seuclidean:标准化欧氏距离;mahalanobis:马氏距离;cityb
9、lock:布洛克距离;minkowski:明可夫斯基距离;cosine:chebychev:Chebychev距离。linkage函数调用格式:Z=linkage(Y,method)说 明:用method参数指定的算法计算系统聚类树。Y:pdist函数返回的距离向量;method:可取值如下:single:最短距离法(默认);complete:最长距离法;average:未加权平均距离法;weighted:加权平均法;centroid:质心距离法;median:加权质心距离法;ward:内平方距离法(最小方差算法)练习题练习题 根据信息基础设施的发展状况,对二十个国家的地根据信息基础设施的发展
10、状况,对二十个国家的地区进行分类。区进行分类。主成分分析在实际问题中,研究多指标的问题是经常遇到的,然而在多数情况下,不同指标之间是有一定关系的。由于指标较多再加上指标之间有一定的相关性,势必增加了分析问题的复杂性。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多滴反映原来指标的信息。这种多个指标化为少数互不干扰的综合指标的统计方法叫做主成分分析法,如某人要做一件上衣要测量很多尺寸,如身长、袖长、胸围、腰围、肩宽、肩厚等十几项指标。但是某服装产生产一批新型服装绝不可能吧尺寸型号分的过多。而是从其中选取几个综合
11、性的指标作为分类型号。1、反映胖瘦。2、反映特体。3反映长度。计算步骤设有n个样品,每个样品观测p个指标,将原始数据写成矩阵形式1、将原始数据标准化2、建立变量的相关系数阵3、求R的特征根及相应的单位特征向量a1,a2,.ap4、写出主成分一般取累计贡献率达一般取累计贡献率达858595%的特征值的特征值所对应的第一、第二,所对应的第一、第二,第,第m m(mp)个主成分。个主成分。特征值大的贡献大。特征值大的贡献大。贡献率贡献率=特征值特征值/所有特征值和所有特征值和例 中国大陆35个大城市某年的10项社会经济统计指标指标做主成分分析数据见下表。相关系数矩阵相关系数矩阵:std=1.0000
12、 -0.3444 0.8425 0.3603 0.7390 0.6215 0.4039 0.4967 0.6761 0.4689-0.3444 1.0000 -0.4750 0.3096 -0.3539 0.1971 0.3571 0.2600 0.1570 0.30900.8425 -0.4750 1.0000 0.3358 0.5891 0.5056 0.3236 0.4456 0.5575 0.37420.3603 0.3096 0.3358 1.0000 0.1507 0.7664 0.9412 0.8480 0.7320 0.86140.7390 -0.3539 0.5891 0.1
13、507 1.0000 0.4294 0.1971 0.3182 0.3893 0.25950.6215 0.1971 0.5056 0.7664 0.4294 1.0000 0.8316 0.8966 0.9302 0.90270.4039 0.3571 0.3236 0.9412 0.1971 0.8316 1.0000 0.9233 0.8376 0.95270.4967 0.2600 0.4456 0.8480 0.3182 0.8966 0.9233 1.0000 0.9201 0.97310.6761 0.1570 0.5575 0.7320 0.3893 0.9302 0.8376
14、 0.9201 1.0000 0.93960.4689 0.3090 0.3742 0.8614 0.2595 0.9027 0.9527 0.9731 0.9396 1.0000pcacov 功能:运用协方差矩阵进行主成分分析 格式:PC=pcacov(X)PC,latent,explained=pcacov(X)说明:PC,latent,explained=pcacov(X)通过协方差矩阵X进行主成分分析,返回主成分(PC)、协方差矩阵X的特征值(latent)和每个特征向量表征在观测量总方差中所占的百分数(explained)。特征值特征值(val)val=0.0039 0 0 0 0
15、0 0 0 0 00 0.0240 0 0 0 0 0 0 0 00 0 0.0307 0 0 0 0 0 0 0 0 0 0 0.0991 0 0 0 0 0 0 0 0 0 0 0.1232 0 0 0 0 0 0 0 0 0 0 0.2566 0 0 0 00 0 0 0 0 0 0.3207 0 0 00 0 0 0 0 0 0 0.5300 0 00 0 0 0 0 0 0 0 2.3514 00 0 0 0 0 0 0 0 0 6.2602特征根排序:特征根排序:6.26022 2.35138 0.530047 0.320699 0.256639 0.123241 0.099091
16、5 0.0307088 0.0240355 0.00393387特征向量特征向量(vec):-0.1367 0.2282 -0.2628 0.1939 0.6371 -0.2163 0.3176 -0.1312 -0.4191 0.2758-0.0329 -0.0217 0.0009 0.0446-0.1447 -0.4437 0.4058 -0.5562 0.5487 0.0593-0.0522 -0.0280 0.2040 -0.0492-0.5472 -0.4225 0.3440 0.3188 -0.4438 0.2401 0.0067 -0.4176 -0.2856 -0.2389 0
17、.1926 -0.4915 -0.4189 0.2726 0.2065 0.3403 0.0404 0.1408 0.0896 0.0380-0.1969 -0.0437 -0.4888 -0.6789 -0.4405 0.1861-0.0343 0.2360 0.0640 -0.8294 0.0377 0.2662 0.1356 -0.1290 0.0278 0.3782 0.2981 0.4739 0.5685 0.2358 0.1465 -0.1502 -0.2631 0.1245 0.2152 0.3644 0.1567 0.3464 -0.6485 0.2489-0.4043 0.2
18、058 -0.0704 0.0462 0.1214 0.3812 0.4879 -0.5707 0.1217 0.1761 0.0987 0.3550 0.3280 -0.0139 0.0071 0.3832-0.7894 -0.1628 0.1925 0.2510-0.0422 0.2694 0.0396 0.0456 0.1668 0.3799于是的三个指标为:于是的三个指标为:Y1=-0.1312*x1-0.5562*x2+0.3188*x3+.+0.0456*x10Y2=-0.4191*x1+0.5487*x2+.+0.1668*x10Y3=0.2758*x1+0.0593*x2+.+
19、0.3799*x10通过观察我们发现Y1当中x2,x5的系数比较大,即影响Y1比较明显因此我们可将Y1看做反映非农业非农业人口人口比与客运总量的与客运总量的综合指标。练习练习、我们给出了各地的企业的经济效益状况,通过相关的方法对各地的经济效益做分析。数据如下表:进一步还可做因子分析。相关性分析 在一元统计分析中,研究两入随机变量之间的线性相关关系、可用相关系数(称为简单相关系数);研究一个随机变量与多个随机变量之间的线性相关关系,可用复相关系数(称为全相关系数)将它推广到研究多个随机变量与多个随机变量之间的相关关系的讨论中,提出了典型相关分析。实际问题中,两组变量之间具有相关关系的问题很多,例
20、如几种主要产品如猪肉、牛肉、鸡蛋的价格(作为第一组变量)和相应这些产品的销售量(作为第二组变量)有相关关系;投资性变量(如劳动各人数、货物周转量、生产建设投资等)与国民收入变量(如工农业国民收入、运输业国民收入、建筑业国民收入等)只有相关关系;患某种疾病的病人的各种症状程度(第一组变量)和用物理化学方法检验的结果(第二组变量)具有相关关系;运动员的体力测试指标(如反复横向跳、纵跳、背力、握力等)与运动能力测试指标(如耐力跑、跳远、投球等)之间具有相关关系等等。典型相关分析就是研究两组变量之间相关关系的一种多元统计方法,设两组变量用x1,x2,xn和y1,y2yn表示,要研究两组变量的相关关系,
21、一种方法是分别研究X和Y之间的相关关系,然后列出相关系数表进行分析,当两组变量较多时,这样做法不仅烦琐也不易抓住问题的实际;另一种方法采用类似主成分分析的做法在每一组变量中都选择若干个有代表性的综合指标(变量的线性组合),通道研究两组的综合指标之间的关系来反映两组变量之间关系比如猪肉价格和牛肉价格用x1,X2表示,它们的销售售量用X,xl表示,研究它们之间的相又关系,从经济学观点就是希望构造一个X1、x2的线性函数入y1a11X1十a12x2称为价格指数及x3、x4的线性函数y2a21x3十a22X4称为销售指数,要求它们之间具有最大相关性,这就是一个典型相关分析问题。1.插值拟合2.线性回归
22、4.灰色分析5.神经网络 在解决实际问题的生产(或工程)实践和科学实验过程中,通常需要通过研究某些变量之间的函数关系来帮助我们认识事物的内在规律和本质属性,而这些变量之间的未知函数关系又常常隐含在从试验、观测得到的一组数据之中。因此,能否根据一组试验观测数据找到变量之间相对准确的函数关系就成为解决实际问题的关键。例如在工程实践和科学实验中,常常需要从一组试验观测数据(xi,yi),i=0,1,.,n之中找到自变量x与因变量y 之间的函数关系,一般可用一个近似函数y=f(x)来表示。函数y=f(x)的产生办法因观测数据和要求不同而异,通常可采用数据拟合与函数插值两种办法来实现。数据拟合主要是考虑
23、到观测数据受随机观测误差的影响,进而寻求整体误差最小、能较好反映观测数据的近似函数y=f(x),此时并不要求所得到的近似函数y=f(x)满足yi=f(xi),i=0,1,n。函数插值则要求近似函数y=f(x)在每一个观测点i x 处一定要满足y i=f(xi),i=0,1,n,在这种情况下,通常要求观测数据相对比较准确,即不考虑观测误差的影响。在实际问题中,通过观测数据能否正确揭示某些变量之间的关系,进而正确认识事物的内在规律与本质属性,往往取决于两方面因素。其一是观测数据的准确性或准确程度,这是因为在获取观测数据的过程中一般存在随机测量误差,导致所讨论的变量成为随机变量。其二是对观测数据处理
24、方法的选择,即到底是采用插值方法还是用拟合方法,插值方法之中、拟合方法之中又选用哪一种插值或拟合技巧来处理观测数据。插值问题忽略了观测误差的影响,而拟合问题则考虑了观测误差的影响。但由于观测数据客观上总是存在观测误差,而拟合函数大多数情况下是通过经验公式获得的,因此要正确揭示事物的内在规律,往往需要对大量的观测数据进行分析,尤为重要的是进行统计分析。统计分析的方法有许多,如方差分析、回归分析等。数据拟合虽然较有效地克服了随机观测误差的影响,但从数理统计的角度看,根据一个样本计算出来的拟合函数(系数),只是拟合问题的一个点估计,还不能完全说明其整体性质。因此,还应该对拟合函数作区间估计或假设检验
25、,如果置信区间太大或包含零点,则由计算得到的拟合函数系数的估计值就毫无意义。这里所采用的统计分析方法就是所谓的回归分析。另外还可用方差分析的方法对模型的误差作定量分析。对于插值方法,本章简单介绍最常用的插值法的基本结论及其Matlab实现问题。由于数据拟合问题必须作区间估计或假设检验,所以除了在本章介绍最基本的数据拟合方法最小二乘法的基本结论及其Matlab实现问题外,我们在专门介绍了对数值拟合问题进行区间估计或假设检验的统计方法,即介绍回归分析方法及其Matlab实现。数据处理问题通常情况下只是某个复杂实际问题的一个方面或部分内容,因而这里所介绍的数据处理方法函数插值和数据拟合的方法(包括回
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 处理
限制150内