多元统计分析——主成分分析法只是课件.ppt
《多元统计分析——主成分分析法只是课件.ppt》由会员分享,可在线阅读,更多相关《多元统计分析——主成分分析法只是课件.ppt(59页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多元统计分析主成分分析法 为了对常用的100种食品的生产进行经营决策,需要就消费者对食品的嗜好程度进行调查。要求每个消费者对食品进行评价,按对食品的喜好程度评分,最受欢迎的给予最高分9分,最不受欢迎的给予最低分1分。思考2 为了较好地满足市场的需要,服装生产厂要了解所生产的一种服装究竟设计几种型号几种型号合适?这些型号的服装应按怎样的比例怎样的比例分配生产计划才能达到较好的经济效益?思考思考33服装的定型分类问题服装的定型分类问题大纲 1.基本思想 2.定义 3.主成分的性质、计算等 4.案例 5.主成分回归 E.g.Hotelling(1939)用两个主成分反映入学考试成绩:文科能力 数理能
2、力预备知识:v方差为零的变量不能区分总体中的个体成员;v可以用一个变量的方差来度量其所传递的信息量。主成分分析的基本概念一个假设的例子:N=100均数 101.63 50.71方差 109.63 55.40标准差 10.47 7.44 的均数=0 的均数=0 x2X1预备知识:向量等方向都是同一个方向ab2a2b(1)创建使得 尽可能大,即寻找一个方向,使得所有点在此方向上的投影的方差尽可能大(2)创建使得 与 不相关 尽可能大。即寻找另一个方向垂直于所有点在 上的投影方差最大。例 1985年中国人口普查资料:各省汉族青年(19-22岁)形态学指标的平均值。如何综合多个随机变量?我们想要一个或
3、几个综合变量,概括6个形态指标的大部分信息.注意:若某指标在人群中方差较大,它就是一个好的指标。寻找综合变量标准化(1)找第1个最佳的综合变量 找适宜的系数 ,使得与其他线性组合相比,有最大的方差 最大我们关心的是 之间的比值故限定(2)找第2个最佳的综合变量 找适宜的 使得 最大 限定(3)找第3个最佳的综合变量 最大 限定原有6个变量,最多可找到6个独立的综合变量主成分的一般定义 一般地,样本均数样本标准差标准化(1)在所有线性组合中,限定使得 最大的便是第1主成分。(2)在所有线性组合中,限定使得 最大的便是第2主成分.类似地,我们可以定义第3,第4,直到第p个主成分。主成分的性质(1)
4、主成分之间不相关Corr(Ci,Cj)=0(2)系数(ai1,ai2,aip)是单位向量ai12+ai22+aip2=1(3)方差递降Var(C1)Var(C2)Var(Cp)(4)主成分的方差之和等于原变量的方差之和信息总量不增不减VarVar(C C1 1)+)+VarVar(C C2 2)+)+VarVar(C Cp p)=)=Var Var(x x1 1)+)+VarVar(x x2 2)+)+VarVar(x xp p)=)=p p主成分的计算和解释(1)计算 的相关矩阵(2)计算R的特征根(特征值)即求解方程(3)计算特征向量即求解方程 得到 表1 例1的相关矩阵只有前几个才是名副
5、其实的“主成分”表2 例1的相关矩阵的主成分表4 例1 的特征向量主成分的个数实践中,(1)粗略地决定欲保留的方差百分比;仅保留前几个主成分或(2)若某个主成分的方差大于1,就保留它 因为原变量的方差都是1究竟保留几个?取决于课题本身的需要碎石图碎石图主成分与原变量的相关性 和 的关系::主要反映身体的大小;身高、坐高、体重、胸围 :反映宽度 肩宽和骨盆宽度总之,(1)主成分有助于综合多个变量 (2)主成分的意义有时不易解释例:抑郁症问卷的综合得分表1 标准CESD问卷的主成分(抑郁症数据)C1:多数条目的加权和C2:反映懒散和精力状况C3:有关“别人怎样看待自己”的感觉例2关于下颚6个前齿的
6、结石1.右犬齿2.右、侧门牙3.右、中门牙4.左、侧门牙5.左、中门牙6.左犬齿PC1:加权和,总的结石状况PC2:门牙与犬齿比较PC3:左右比较主成分分析的应用 综合评价综合评价 市场研究市场研究 定型分类问题定型分类问题反映地区社会经济发展的指标体系X1:国内生产总值(GDP)X2:人均GDPX3:第三产业产值占GDP比重X4:人均出口额X5:工业企业劳动生产率X6:人均社会消费品零售额X7:每万人拥有卫生技术人员数X8:每万人高等学校在校生数X9:教育经费投入占GDP比重X10:人均货运总量X11:人均邮电业务总量X12:每万人电话机装机数X13:人均固定资产投资X14:人均实际利用外资
7、X15:地方财政收入占GDP比重X16:每万人科研机构数X17:科研经费占GDP比重对全国31个地区上述17项指标的数据进行主成分分析,应用SAS软件进行处理。例1、主成分分析用于综合评价1、求相关系数矩阵R2、计算R的特征值主成分Y1Y2Y3Y4特征根贡献率(%)累 计 贡 献 率11.113465.3765.372.665615.6881.050.91265.3786.420.70524.1590.573、求特征根所对应的单位特征向量0.5132250.203116-0.1828580.1936180.2172900.113642-0.164527-0.114637-0.509240-0.
8、0258320.0834710.1325920.1054020.199407-0.181330-0.261367-0.2957560.0384660.2760200.2436540.2634870.1805460.2908340.2598420.2805230.0942330.2159460.2920160.2882680.2820160.2590060.2167930.2599620.212293X1X2X3X4X5X6X7X8X9X10X11X12X13X14X15X16X17Y2Y1特征向量第一主成分名次地区Y1得分Y2得分123456789101112131415北京上海天津广东辽宁福
9、建浙江江苏海南新疆吉林黑龙江山西宁夏云南11.725710.17765.12352.74221.13250.55860.27180.18170.0795-0.3075-0.4873-0.6307-0.7467-0.7791-0.8203-3.943962.435050.125513.349070.619421.902482.315762.53147-0.79528-1.07448-1.094130.61915-1.13709-1.92281-0.483134、主成分的表达式及其含义解释5、计算主成分得分第一主成分名次地区Y1得分Y2得分16171819202122232425262728293
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 成分 分析 只是 课件
限制150内