最新引言课件PPT课件.ppt
《最新引言课件PPT课件.ppt》由会员分享,可在线阅读,更多相关《最新引言课件PPT课件.ppt(58页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、引言课件引言课件10.3 数据的标准化处理数据的标准化处理(一)一)“中心化中心化”处理处理平移变换平移变换 性质性质:不改变样本点集合中点与点的相互位置;PACPAC算法推导:算法推导:不妨设变量不妨设变量 都是中心化的,都是中心化的,求第主成分求第主成分经过旋转变换得到的,是的线性组合经过旋转变换得到的,是的线性组合因此因此 是矩阵是矩阵 的特征向量,的特征向量,对应的特征值是对应的特征值是 三三.PCA的计算方法的计算方法(一般情况下)(一般情况下)(1)数据的标准化 为方便起见,仍记 。(2)计算标准化数据表 的协方差矩阵V。(3)求V的前m个特征值12m0,以及对应的特征向量:u1,
2、u2,,um(主轴)它们是标准正交的:(4)在 uh主轴上,ei 的投影坐标是yh(i)第第h主成分为:主成分为:yh是原变量是原变量x1,xP的线性组合,组合系数为的线性组合,组合系数为uh(1),uh(p)四、主成分的统计特征四、主成分的统计特征 第h主成分 yh 的均值为的均值为0。yh的方差等于的方差等于 h。yj与与yk 的协方差等于的协方差等于0:总结:总结:PCA算法的输入与输出算法的输入与输出 12m Var(y1),Var(y2),,Var(ym)u1,u2,umRP(主轴)y1,y2,ymRn(主成分)n个样本点,p个变量n个样本点,m个变量 总结:总结:经过主成分分析,1
3、0.5 PCA的辅助分析技术的辅助分析技术 一一.怎样选取精度合适的主超平面怎样选取精度合适的主超平面 1.m维主超平面的精度测量维主超平面的精度测量 主成分分析前,Xnp数据中的全部变异信息:主成分分析后保留的数据变差:Var(y1)=1,Var(y2)=2,Var(ym)=m标准化 形象地看:方差:注意:所以,定义“累计贡献率累计贡献率”:标准化 2.、如何选取合适精度的如何选取合适精度的u1,um 。根据累计贡献率可以确定所要选取的成分的个数。(2)若希望Qm在80%左右,应选取 3 个主成分。一些科技问题的累计贡献率要求在90%以上。但对复杂的社会科学、行为科学或经济学中的数据,能达到
4、60%也可以考虑。例例.管理期刊评价管理期刊评价二二.主成分的命名主成分的命名 主成分y1,ym 是原变量x1,,xp 的线性组合。原变量x1,,xp 都有明确的物理含意。问题:问题:y1,ym的物理含意是什么?的物理含意是什么?1.1.作用:作用:指出影响系统结构的主要因素和主要特征。例 :分析各阶层人员生活状态 发展中国家:y1食品,y2穿着 发达国家:y1住宅,y2旅游 以此可以划分不同社会阶层的生活档次。(在这个方向,人们的生活水平差距最大)例:中国城市经济分析:1984:y1综合水平,y2工农业投入国家。1988:y1综合水平,y2外贸,科技。中国改革开放以来,由于开放程度不同,使中
5、国各地区经济水平差距逐渐拉大。所以,加大开放力度,发展高科技产业是城市发展的重要工作方面。2.2.方法:方法:专业知识专业知识 +数学手段数学手段 数学手段:数学手段:研究 yh与 x1,,xp 的相关关系。对于标准化数据可以证明:所以:第一个主轴:由此可见,仅差一个常量倍 :是 y1与 x1,,xp 的相关系数。因此,可以通过观察因此,可以通过观察 来确定来确定y1的含意。的含意。例例.管理期刊分类评估管理期刊分类评估(2 2)相关圆图()相关圆图(Component Plot)Component Plot)若 m=2y1y2xjComponent Plot三三.判断判断“特异点特异点”(e
6、 ek)“特异点特异点”:在PCA中,若有ek远离数据分布的平均水平,可以用“点对主成分方差的贡献”来测量。如:则定义“ei 对Var(y1)的贡献”为:一般地,定义“ei 对对Var(yh)的贡献的贡献”CTRh(i):CTR(i)过大解原因:(1)数据本身的特异性(BJ,SH,GZ,SZ,TJ)(2)数据统计上的错误 处处理理方方法法:除去这些特异点,可以提高分析精度,图示也更加清楚。四四.主平面图主平面图 PCA将一个高维变量系统有效的降至将一个高维变量系统有效的降至 1 维维 例例1:Kendall 英 评估英国各地区农业生产水平。48个郡,10种农作物:小麦(x1)、大麦(x2)、燕
7、麦(x3)、土豆(x4)、菜豆(x5)、马铃薯(x6)、萝卜(x7)、饲料甜菜(x8)、临时牧场干草(x9)、永久牧场干草(x10)。(精度:47.6%)Y1=0.39 x1+0.37 x2+0.39 x3+0.27 x4+0.22 x5 +0.30 x6+0.32 x7+0.26 x8+0.24 x9+0.34 x10第一主成分y1与 x1,,x10 均正相关。所以y1称为“水平水平因子因子”,可用于评估排序。即:某个样本点在y1上取值很大时,它在x1,,x10取值都会很大。10.6 利用主成分分析构造评估函数利用主成分分析构造评估函数1 1、“主成分主成分”是否等同于是否等同于“主要因素主
8、要因素”?例如:利用主成分分析构造评估函数例如:利用主成分分析构造评估函数(1)样本点:n个有关专家(2)变量:p个评估指标 问题:问题:用第一主成分构造的评估指标完全不符合人们对实际情 况的认识。原因:原因:第一主成分对应数据方差最大的方向,第一主成分对应数据方差最大的方向,这是专家意见分歧最大的方向!这是专家意见分歧最大的方向!2 2、y y2 2 一般不可以用于评估!一般不可以用于评估!应用中要注意的问题:应用中要注意的问题:例如:并不说明:沈阳(SY)的外贸比拉萨(LS)差。10.7 10.7 时序立体数据表分析时序立体数据表分析平面数据表主成分分析:平面数据表主成分分析:时序立体数据
9、表主成分分析:时序立体数据表主成分分析:PCA时序立体数据表主成分分析方法时序立体数据表主成分分析方法 :X1X2XTY1Y2YTPCA0y2y1时序立体数据表分析内容时序立体数据表分析内容 1.主轴随时间的变化主轴随时间的变化 2.总体水平的运动轨迹总体水平的运动轨迹 3.类的生成与变化规律类的生成与变化规律 4.类轨迹的比较分析类轨迹的比较分析 5.评估排序的比较研究评估排序的比较研究 6.群点运动预测模型群点运动预测模型19851988,中国城市的国民生产总值平均年增长率为10.7%。1989年国民生产总值比上年增长4%。10.8 10.8 因素分析因素分析 Varimax旋转旋转0y1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 引言 课件 PPT
限制150内