欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    多元统计分析——主成分分析法只是课件.ppt

    • 资源ID:64386527       资源大小:654.50KB        全文页数:59页
    • 资源格式: PPT        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    多元统计分析——主成分分析法只是课件.ppt

    多元统计分析主成分分析法 为了对常用的100种食品的生产进行经营决策,需要就消费者对食品的嗜好程度进行调查。要求每个消费者对食品进行评价,按对食品的喜好程度评分,最受欢迎的给予最高分9分,最不受欢迎的给予最低分1分。思考2 为了较好地满足市场的需要,服装生产厂要了解所生产的一种服装究竟设计几种型号几种型号合适?这些型号的服装应按怎样的比例怎样的比例分配生产计划才能达到较好的经济效益?思考思考33服装的定型分类问题服装的定型分类问题大纲 1.基本思想 2.定义 3.主成分的性质、计算等 4.案例 5.主成分回归 E.g.Hotelling(1939)用两个主成分反映入学考试成绩:文科能力 数理能力预备知识:v方差为零的变量不能区分总体中的个体成员;v可以用一个变量的方差来度量其所传递的信息量。主成分分析的基本概念一个假设的例子:N=100均数 101.63 50.71方差 109.63 55.40标准差 10.47 7.44 的均数=0 的均数=0 x2X1预备知识:向量等方向都是同一个方向ab2a2b(1)创建使得 尽可能大,即寻找一个方向,使得所有点在此方向上的投影的方差尽可能大(2)创建使得 与 不相关 尽可能大。即寻找另一个方向垂直于所有点在 上的投影方差最大。例 1985年中国人口普查资料:各省汉族青年(19-22岁)形态学指标的平均值。如何综合多个随机变量?我们想要一个或几个综合变量,概括6个形态指标的大部分信息.注意:若某指标在人群中方差较大,它就是一个好的指标。寻找综合变量标准化(1)找第1个最佳的综合变量 找适宜的系数 ,使得与其他线性组合相比,有最大的方差 最大我们关心的是 之间的比值故限定(2)找第2个最佳的综合变量 找适宜的 使得 最大 限定(3)找第3个最佳的综合变量 最大 限定原有6个变量,最多可找到6个独立的综合变量主成分的一般定义 一般地,样本均数样本标准差标准化(1)在所有线性组合中,限定使得 最大的便是第1主成分。(2)在所有线性组合中,限定使得 最大的便是第2主成分.类似地,我们可以定义第3,第4,直到第p个主成分。主成分的性质(1)主成分之间不相关Corr(Ci,Cj)=0(2)系数(ai1,ai2,aip)是单位向量ai12+ai22+aip2=1(3)方差递降Var(C1)Var(C2)Var(Cp)(4)主成分的方差之和等于原变量的方差之和信息总量不增不减VarVar(C C1 1)+)+VarVar(C C2 2)+)+VarVar(C Cp p)=)=Var Var(x x1 1)+)+VarVar(x x2 2)+)+VarVar(x xp p)=)=p p主成分的计算和解释(1)计算 的相关矩阵(2)计算R的特征根(特征值)即求解方程(3)计算特征向量即求解方程 得到 表1 例1的相关矩阵只有前几个才是名副其实的“主成分”表2 例1的相关矩阵的主成分表4 例1 的特征向量主成分的个数实践中,(1)粗略地决定欲保留的方差百分比;仅保留前几个主成分或(2)若某个主成分的方差大于1,就保留它 因为原变量的方差都是1究竟保留几个?取决于课题本身的需要碎石图碎石图主成分与原变量的相关性 和 的关系::主要反映身体的大小;身高、坐高、体重、胸围 :反映宽度 肩宽和骨盆宽度总之,(1)主成分有助于综合多个变量 (2)主成分的意义有时不易解释例:抑郁症问卷的综合得分表1 标准CESD问卷的主成分(抑郁症数据)C1:多数条目的加权和C2:反映懒散和精力状况C3:有关“别人怎样看待自己”的感觉例2关于下颚6个前齿的结石1.右犬齿2.右、侧门牙3.右、中门牙4.左、侧门牙5.左、中门牙6.左犬齿PC1:加权和,总的结石状况PC2:门牙与犬齿比较PC3:左右比较主成分分析的应用 综合评价综合评价 市场研究市场研究 定型分类问题定型分类问题反映地区社会经济发展的指标体系X1:国内生产总值(GDP)X2:人均GDPX3:第三产业产值占GDP比重X4:人均出口额X5:工业企业劳动生产率X6:人均社会消费品零售额X7:每万人拥有卫生技术人员数X8:每万人高等学校在校生数X9:教育经费投入占GDP比重X10:人均货运总量X11:人均邮电业务总量X12:每万人电话机装机数X13:人均固定资产投资X14:人均实际利用外资X15:地方财政收入占GDP比重X16:每万人科研机构数X17:科研经费占GDP比重对全国31个地区上述17项指标的数据进行主成分分析,应用SAS软件进行处理。例1、主成分分析用于综合评价1、求相关系数矩阵R2、计算R的特征值主成分Y1Y2Y3Y4特征根贡献率(%)累 计 贡 献 率11.113465.3765.372.665615.6881.050.91265.3786.420.70524.1590.573、求特征根所对应的单位特征向量0.5132250.203116-0.1828580.1936180.2172900.113642-0.164527-0.114637-0.509240-0.0258320.0834710.1325920.1054020.199407-0.181330-0.261367-0.2957560.0384660.2760200.2436540.2634870.1805460.2908340.2598420.2805230.0942330.2159460.2920160.2882680.2820160.2590060.2167930.2599620.212293X1X2X3X4X5X6X7X8X9X10X11X12X13X14X15X16X17Y2Y1特征向量第一主成分名次地区Y1得分Y2得分123456789101112131415北京上海天津广东辽宁福建浙江江苏海南新疆吉林黑龙江山西宁夏云南11.725710.17765.12352.74221.13250.55860.27180.18170.0795-0.3075-0.4873-0.6307-0.7467-0.7791-0.8203-3.943962.435050.125513.349070.619421.902482.315762.53147-0.79528-1.07448-1.094130.61915-1.13709-1.92281-0.483134、主成分的表达式及其含义解释5、计算主成分得分第一主成分名次地区Y1得分Y2得分16171819202122232425262728293031陕西山东青海湖北内蒙古河北甘肃重庆湖南西藏广西四川江西河南安徽贵州-0.9116-1.0207-1.1131-1.1943-1.2295-1.4456-1.8358-1.8603-1.8806-1.9085-1.9098-2.1979-2.3049-2.3383-2.4358-2.6347-2.064812.32993-1.471450.66326-0.871811.25757-1.40987-0.364390.04577-2.04139-0.420780.331260.076600.869090.45974-0.83575 为了对常用的100种食品的生产进行经营决策,需要就消费者对食品的嗜好程度进行调查。对785名消费者进行调查,要求每个消费者对100种食品进行评价,按对食品的喜好程度评分,最受欢迎的给予最高分9分,最不受欢迎的给予最低分1分。例2 市场研究中的应用将被调查者按性别与年龄分成10组假若你是该食品加工业决策部门的高级顾问,为了对食品生产作出合理决策,请你对调查资料进行分析,为决策者提供建议。以组为单位,在每组中每个成员都对100种食品给予评分,然后计算每组成员对每种食品评分的每组成员对每种食品评分的平均值平均值。食品组号12345678910123.1007.85.43.93.53.08.16.05.43.81.62.84.44.03.56.27.27.57.0.3.12.83.33.02.53.93.53.02.82.59.03.015组表示男性,610组表示女性15,610年龄从小到大排序特征向量y1y2y3X1X2X3X4X5X6X7X8X9X100.2860.3310.3230.2990.2610.3090.3440.3480.3460.3030.4430.235-0.172-0.364-0.5090.4090.2560.036-0.164-0.2670.1940.3360.4420.3750.123-0.034-0.171-0.290-0.322-0.522特征根方差贡献率累 计 方 差贡献率6.82668.26%68.26%1.76917.69%85.95%0.757.5%93.45%y1反映了公共平均嗜好程度,y1得分越大,表示大众越喜欢吃此食品。y2反映了年龄的作用。y2得分为正时,表示孩子喜欢吃;y2得分为负时,表示孩子不喜欢吃。y3反映性别的作用。y3得分为正时,表示男性喜欢吃;y3得分为负时,表示女性喜欢吃。主成分的含义用得分来表示食品嗜好程度可有七成把握。在充分注意到人们普遍的嗜好程度基础上,进一步考虑到青少年和老年人的嗜好程度,对食品业的开发方针作出决策时,将有85%的把握。特别喜欢吃的醋拌生鱼片、冰激棱一般喜欢男性喜欢女性喜欢孩子成人咖喱饭鸡蛋烩饭、炸猪排炸肉饼、火腿面包酸汤、大头鱼一般不喜欢孩子成人干咖喱、浓汤煮牛肉、生蛋饼干、带馅面包酱面条、烧鱼特别不喜欢菜粥、清汤为了较好地满足市场的需要,服装生产厂要了解所生产的一种服装究竟设计几种型号几种型号合适?这些型号的服装应按怎样的比例怎样的比例分配生产计划才能达到较好的经济效益?例例3 3 服装的定型分类问题服装的定型分类问题X1:身长X2:坐高X3:胸围X4:头高X5:裤长X6:下裆X7:手长X8:领围X9:前胸X10:后背X11:肩厚X12:肩宽X13:袖长X14:肋围X15:腰围X16:腿肚对128名成年男子按16项指标进行测量。特征值贡献率累计贡献率7.032.611.630.840.770.640.580.460.360.310.240.220.170.140.070.0444%16%10%6%5%4%3%3%2%2%2%1%1%1%0044%60%70%76%81%85%88%91%93%95%97%98%99%100%特特征征向向量量y1y2y3X1身长X2坐高X3胸围X4头高X5裤长X6下裆X7手长X8领围X9前胸X10后背X11肩厚X12肩宽X13袖长X14肋围X15腰围X16腿肚0.340.270.230.340.330.290.290.190.090.150.100.240.320.180.270.160.200.14-0.330.180.200.270.19-0.370.07-0.17-0.35-0.020.11-0.37-0.27-0.360.01-0.060.140.030.03-0.030.02-0.150.63-0.53-0.20-0.31-0.020.250.140.24y1是刻画尺寸大小的因子。y2反映人的胖瘦情况,是一个体形因子。反映“长”的尺寸前面的系数为正;反映“围”的尺寸前的系数为负。y3系数多数取值很小,接近于0。只有三个系数绝对值较大。y3是反映特殊体形的因子,区分有无畸形。区分有几种型号 (分类)各种型号的生产量(比例)要解决的问题:主成分回归数据分析过程中的一个工具可应用于下列分析的中间过程:多重回归判别分析因子分析聚类分析回归中的共线性当自变量高度相关时,回归系数估计值不稳定,结果不易解释.主成分有助于重新组织原变量,高度相关的变量往往会构成同一个主成分,不同主成分之间不相关.将主成分作为自变量,就没有自变量之间相关的问题了。表5 孕周和胎儿的形态学指标Y关于 和 的回归方程回归系数:头围的系数为负?!违背常识?为什么?表6 例2的相关矩阵三个变量高度相关!头围 的系数为负是因为它必须挽回 和 的过度贡献。主成分分析表7 例2的主成分分析保留前两个主成分 和关于主成分的回归 将 和 的表达式代入这个回归方程,得到新的回归方程前面直接关于 ,和 回归时出现的问题消失了!小结1.预备知识:方差为零的变量不能区分总体中的个体成员:可以用一个变量的方差来度量其所传递的信息量。2.如果有多个自变量,我们希望用少数几个综合变量来概括大部分信息;主成分是寻找综合变量的方法之一。3.主成分是原变量的线性组合;第一主成分应当最大,第2主成分是在和第1主成分不相关的前提下方差最大,第3主成分是。4.理论上,若由p个变量,我们可以有p个主成分,但只有前几个主成分才涵盖原来p个变量的部分信息。“几个”?两种做法:保留方差大于或等于1者作为主成分;保留前几个主成分,使累积百分比达到要求。5.主成分的应用之一是对付回归中自变量高度相关的问题:综合高度相关的自变量主成分;作为Y关于主成分的回归;将主成分的表达式代入上述回归方程6.坏消息:有时,主成分的意义很难解释,于是,我们转向因子分析。结束谢谢!此课件下载可自行编辑修改,仅供参考!此课件下载可自行编辑修改,仅供参考!感谢您的支持,我们努力做得更好!谢谢感谢您的支持,我们努力做得更好!谢谢

    注意事项

    本文(多元统计分析——主成分分析法只是课件.ppt)为本站会员(豆****)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开