第11章-主成分分析和因子分析课件.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第11章-主成分分析和因子分析课件.ppt》由会员分享,可在线阅读,更多相关《第11章-主成分分析和因子分析课件.ppt(61页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、模型选择是艺术,而不是科学。William Navidi统计名言August 3,2010第 11 章 主成分分析和因子分析11.1 主成分分析11.2 因子分析 August 3,2010nn在在研研究究实实际际问问题题时时,往往往往需需要要收收集集多多个个变变量量。但但这这样样会会使使多多个个变变量量间间存存在在较较强强的的相相关关关关系系,即即这这些些变变量量间间存存在在较较多多的的信信息息重重复复,直直接接利利用用它它们们进进行行分分析析,不不但但模模型型复复杂杂,还还会会因因为为变变量量间间存存在在多多重重共共线线性性而而引引起起较较大的误差大的误差nn为为能能够够充充分分利利用用数
2、数据据,通通常常希希望望用用较较少少的的新新变变量量代代替替原原来来较较多多的的旧旧变变量量,同同时时要要求求这这些些新新变变量量尽尽可可能能反反映映原变量的信息原变量的信息nn主主成成分分分分析析和和因因子子分分子子正正式式解解决决这这类类问问题题的的有有效效方方法法。它它们们能能够够提提取取信信息息,使使变变量量简简化化降降维维,从从而而使使问问题题更更加简单直观加简单直观主成分分析和因子分析(Principal Component Analysis&Factor Analysis)(Principal Component Analysis&Factor Analysis)August 3
3、,2010因子分析得到的是什么?因子分析方法在部分领域应用的一些例子 因子分析方法在部分领域应用的一些例子l l 心 心 理 理 学 学:心 心 理 理 学 学 家 家 瑟 瑟 斯 斯 登 登 对 对56 56 项 项 测 测 验 验 的 的 得 得 分 分 进 进 行 行 因 因 子 子 分 分析 析,得 得 出 出 了 了7 7 中 中 主 主 要 要 智 智 利 利 因 因 子 子:词 词 语 语 理 理 解 解 能 能 力 力,语 语 言 言 流 流 畅 畅能 能 力 力、计 计 数 数 能 能 力 力、空 空 间 间 能 能 力 力、记 记 忆 忆 力 力、知 知 觉 觉 速 速 度
4、 度 和 和 推 推 理 理能力 能力l l 教 教 育 育 学 学:某 某 师 师 范 范 大 大 学 学 在 在 对 对 以 以 幼 幼 儿 儿 园 园3 3 6 6 岁 岁 幼 幼 儿 儿 为 为 对 对 象 象,通 通 过 过80 80 名 名 幼 幼 儿 儿 教 教 师 师 对 对480 480 名 名 幼 幼 儿 儿 好 好 奇 奇 心 心 行 行 为 为 特 特 征 征 描 描 述 述 的 的 开 开放 放 式 式 问 问 卷 卷 调 调 查 查,编 编 制 制 出 出60 60 个 个 项 项 目 目 的 的 初 初 始 始 问 问 卷 卷,对 对500 500 名 名 幼 幼
5、儿 儿 的 的 初 初 测 测 结 结 果 果 进 进 行 行 探 探 索 索 性 性 因 因 子 子 分 分 析 析 后 后,形 形 成 成 了 了33 33 个 个 项 项 目 目的 的 正 正 式 式 问 问 卷 卷,对 对1000 1000 名 名 幼 幼 儿 儿 的 的 评 评 价 价 结 结 果 果 进 进 行 行 验 验 证 证 性 性 因 因 子 子分 分 析 析,结 结 果 果 表 表 明 明:教 教 师 师 评 评 价 价 的 的3 3 6 6 岁 岁 幼 幼 儿 儿 好 好 奇 奇 心 心 结 结 构 构 包 包括 括 敏 敏 感 感、对 对 未 未 知 知 事 事 物
6、物 的 的 关 关 注 注、好 好 问 问、喜 喜 欢 欢 摆 摆 弄 弄、探 探 索 索 持 持久和好奇体验 久和好奇体验6 6 个因子 个因子August 3,2010因子分析得到的是什么?l医医学学:一一位位研研究究者者对对山山东东某某县县2000200020022002年年33年年的的全全死死因因调调查查资资料料中中不不同同地地区区各各恶恶性性肿肿瘤瘤标标化化死死亡亡率率进进行行因因子子分分析析后后发发现现,该该县县居居民民恶恶性性肿肿瘤瘤的的发发病病和和死死亡亡具具有有明明显显的的地地区区分分布布。在在地地区区分分布布中中,各各种种恶恶性性肿肿瘤瘤的的死死亡亡具具有有一一定定程程度度
7、的的聚聚集集性性。经经因因子子分分析析得得到到的的44个个主主因因子子可可以以解解释释1010种种恶恶性性肿肿瘤瘤死死亡亡率率的的74.5474.54;1010种种恶恶性性肿肿瘤瘤中中,被被解解释释的的比比例例最最小小也也在在6262以以上上;而而胃胃癌癌、白白血血病病、膀膀胱胱癌癌、乳乳腺腺癌癌、结结肠肠癌癌死死亡亡率率被被解解释释的的比比例例均均在在7777以以上上,表表明明这这1010种种恶恶性性肿肿瘤瘤之之间间存存在在中中等等偏偏强的内在联系和地区分布特点强的内在联系和地区分布特点August 3,2010因子分析得到的是什么?l l 地 地 质 质 学 学:海 海 南 南 岛 岛 的
8、 的 石 石 绿 绿 铁 铁 矿 矿 及 及 外 外 围 围 地 地 区 区 有 有 透 透 辉 辉 石 石 透 透 闪 闪 岩 岩 石 石 和 和 阳 阳起 起 石 石 两 两 种 种 岩 岩 石 石。地 地 质 质 工 工 作 作 者 者 对 对 两 两 种 种 岩 岩 石 石 标 标 本 本 的 的11 11 种 种 化 化 验 验 数 数 据 据 进 进行 行 了 了 因 因 子 子 分 分 析 析,分 分 别 别 得 得 到 到5 5 种 种 和 和4 4 种 种 主 主 要 要 因 因 子 子。结 结 果 果 表 表 明 明,透 透 辉 辉石 石 透 透 闪 闪 岩 岩 石 石 与
9、 与 阳 阳 起 起 石 石 有 有 明 明 显 显 区 区 别 别,前 前 者 者 的 的 元 元 素 素 组 组 合 合 属 属 碳 碳 酸 酸 盐 盐 沉 沉积 积 型 型,后 后 者 者 属 属 岩 岩 浆 浆 分 分 异 异 型 型。透 透 辉 辉 石 石 透 透 闪 闪 岩 岩 石 石 中 中 铁 铁 的 的 沉 沉 积 积 与 与 泥 泥 质 质成 成 分 分 有 有 关 关,属 属 于 于 正 正 常 常 沉 沉 积 积。由 由 此 此 推 推 断 断 石 石 绿 绿 铁 铁 矿 矿 的 的 主 主 要 要 成 成 矿 矿 为 为 沉 沉积作用,并据此提出了找矿标志和找矿方向
10、积作用,并据此提出了找矿标志和找矿方向l l 上 上 市 市 公 公 司 司 评 评 价 价:某 某 研 研 究 究 者 者 选 选 择 择35 35 家 家 能 能 源 源 类 类 上 上 市 市 公 公 司 司,根 根 据 据2007 2007 年 年 的 的12 12 项 项 经 经 营 营 指 指 标 标 数 数 据 据,采 采 用 用 因 因 子 子 分 分 析 析 法 法 分 分 别 别 按 按 盈 盈 利 利 能 能力 力、资 资 产 产 管 管 理 理 能 能 力 力、偿 偿 债 债 能 能 力 力 及 及 经 经 营 营 业 业 绩 绩 综 综 合 合 评 评 分 分 等 等
11、 方 方 面 面 对 对35 35家 家 上 上 市 市 公 公 司 司 进 进 行 行 了 了 排 排 名 名。其 其 中 中:盈 盈 利 利 能 能 力 力 排 排 在 在 前 前5 5 位 位 的 的 是 是:神 神火 火 股 股 份 份、海 海 油 油 工 工 程 程、兰 兰 花 花 科 科 创 创、潞 潞 安 安 环 环 能 能 和 和 中 中 国 国 石 石 油 油;经 经 营 营 业 业绩 绩 综 综 合 合 得 得 分 分 排 排 在 在 前 前5 5 位 位 的 的 是 是:神 神 火 火 股 股 份 份、潞 潞 安 安 环 环 能 能、兰 兰 花 花 科 科 创 创、海油工
12、程和开滦股份 海油工程和开滦股份August 3,201011.1 主成分分析 11.1.1 主成分分析的基本原理 11.1.2 主成分分析的数学模型 11.1.3 主成分分析的步骤第 11 章 主成分分析和因子分析August 3,201011.1.1 主成分分析的基本原理11.1 主成分分析August 3,2010n主成分的概念由主成分的概念由Karl PearsonKarl Pearson在在19011901年提出年提出n考察多个变量间相关性一种多元统计方法考察多个变量间相关性一种多元统计方法n研研究究如如何何通通过过少少数数几几个个主主成成分分(principal(principal
13、 component)component)来来解解释释多多个个变变量量间间的的内内部部结结构构。即即从从原原始始变变量量中中导导出出少少数数几几个个主主分分量量,使使它它们们尽尽可可能能多地保留原始变量的信息,且彼此间互不相关多地保留原始变量的信息,且彼此间互不相关n主成分分析的目的:数据的压缩;数据的解释主成分分析的目的:数据的压缩;数据的解释l l 常 常 被 被 用 用 来 来 寻 寻 找 找 判 判 断 断 事 事 物 物 或 或 现 现 象 象 的 的 综 综 合 合 指 指 标 标,并 并 对 对 综 综合指标所包含的信息进行适当的解释 合指标所包含的信息进行适当的解释什么是主成分
14、分析?(principal component analysis)August 3,2010nn对对这这两两个个相相关关变变量量所所携携带带的的信信息息(在在统统计计上上信信息息往往往往是是指数据的变异指数据的变异)进行浓缩处理进行浓缩处理nn假假定定只只有有两两个个变变量量xx11和和xx22,从从散散点点图图可可见见两两个个变变量量存存在相关关系,这意味着两个变量提供的信息有重叠在相关关系,这意味着两个变量提供的信息有重叠主成分分析的基本思想(以两个变量为例)nn如如果果把把两两个个变变量量用用一一个个变变量量来来表表示示,同同时时这这一一个个新新的的变变量量又又尽尽可可能能包包含含原原来
15、来的的两两个个变变量量的的信信息息,这这就就是是降降维维的的过程过程August 3,2010n n 椭 椭 圆 圆 中 中 有 有 一 一 个 个 长 长 轴 轴 和 和 一 一 个 个 短 短 轴 轴,称 称 为 为 主 主 轴 轴。在 在 长 长 轴 轴 方 方 向 向,数 数 据 据的变化明显较大,而短轴方向变化则较小 的变化明显较大,而短轴方向变化则较小n n 如 如 果 果 沿 沿 着 着 长 长 轴 轴 方 方 向 向 设 设 定 定 一 一 个 个 新 新 的 的 坐 坐 标 标 系 系,则 则 新 新 产 产 生 生 的 的 两 两 个 个 变 变 量 量和 和 原 原 始
16、始 变 变 量 量 间 间 存 存 在 在 一 一 定 定 的 的 数 数 学 学 换 换 算 算 关 关 系 系,同 同 时 时 这 这 两 两 个 个 新 新 变 变 量 量 之 之间彼此不相关,而且长轴变量携带了大部分的数据变化信息,间彼此不相关,而且长轴变量携带了大部分的数据变化信息,而 而主成分分析的基本思想(以两个变量为例)短 短 轴 轴 变 变 量 量 只 只 携 携 带 带 了 了 一 一 小 小部分变化的信息 部分变化的信息(变异 变异)n n 此 此 时 时,只 只 需 需 要 要 用 用 长 长 轴 轴 方 方向 向 的 的 变 变 量 量 就 就 可 可 以 以 代 代
17、 表 表 原 原来 来 两 两 个 个 变 变 量 量 的 的 信 信 息 息。这 这样 样 也 也 就 就 把 把 原 原 来 来 的 的 两 两 个 个 变 变量 量 降 降 维 维 成 成 了 了 一 一 个 个 变 变 量 量。长 长 短 短 轴 轴 相 相 差 差 越 越 大 大,降 降 维 维也就越合理 也就越合理August 3,2010nn多多维维变变量量的的情情形形类类似似,只只不不过过是是一一个个高高维维椭椭球球,无无法法直观地观察直观地观察nn每每个个变变量量都都有有一一个个坐坐标标轴轴,所所以以有有几几个个变变量量就就有有几几主主轴轴。首首先先把把椭椭球球的的各各个个主
18、主轴轴都都找找出出来来,再再用用代代表表大大多多数数数数据据信信息息的的最最长长的的几几个个轴轴作作为为新新变变量量,这这样样,降降维维过程也就完成了过程也就完成了主成分分析的基本思想(以两个变量为例)nn找找出出的的这这些些新新变变量量是是原原来来变变量量的的线线性性组合,叫做主成分组合,叫做主成分August 3,201011.1.2 主成分分析的数学模型11.1 主成分分析August 3,2010n n 数 数 学 学 上 上 的 的 处 处 理 理 是 是 将 将 原 原 始 始 的 的 p p 个 个 变 变 量 量 作 作 线 线 性 性 组 组 合 合,作 作 为 为 新 新
19、的 的变量 变量n n 设 设 p p 个 个 原 原 始 始 变 变 量 量 为 为,新 新 的 的 变 变 量 量(即 即 主 主 成 成 分 分)为 为,主成分和原始变量之间的关系表示为,主成分和原始变量之间的关系表示为主成分分析的数学模型主成分分析的数学模型 主成分分析的数学模型a aij ij为 为 第 第 i i 个 个 主 主 成 成 分 分 y yi i和 和 原 原来 来 的 的 第 第j j 个 个 变 变 量 量x xj j之 之 间 间 的 的线 线 性 性 相 相 关 关 系 系 数 数,称 称 为 为 载 载荷 荷(loading)(loading)。比 比 如 如
20、,a a11 11表 表 示 示 第 第1 1 主 主 成 成 分 分 和 和 原 原 来 来的 的 第 第1 1 个 个 变 变 量 量 之 之 间 间 的 的 相 相 关 关系 系 数 数,a a21 21表 表 示 示 第 第 2 2 主 主 成 成分 分 和 和 原 原 来 来 的 的 第 第1 1 个 个 变 变 量 量 之 之间的相关系数 间的相关系数August 3,2010n选择几个主成分?选择几个主成分?选择标准是什么?选择标准是什么?n被被选选的的主主成成分分所所代代表表的的主主轴轴的的长长度度之之和和占占了了主主轴轴总程度之和的大部分总程度之和的大部分n在在统统计计上上,
21、主主成成分分所所代代表表的的原原始始变变量量的的信信息息用用其其方方差差来来表表示示。因因此此,所所选选择择的的第第一一个个主主成成分分是是所所有主成分中的方差最大者,即有主成分中的方差最大者,即Var(yVar(yii)最大最大n如如果果第第一一个个主主成成分分不不足足以以代代表表原原来来的的个个变变量量,在在考虑选择第二个主成分,依次类推考虑选择第二个主成分,依次类推n这些主成分互不相关,且方差递减这些主成分互不相关,且方差递减主成分的选择August 3,2010n究竟选择几个主成分才合适呢?究竟选择几个主成分才合适呢?n一一般般要要求求所所选选主主成成分分的的方方差差总总和和占占全全部
22、部方方差差的的80%80%以以上上就就可可以以了了。当当然然,这这只只是是一一个个大大体体标标准准,具体选择几个要看实际情况具体选择几个要看实际情况n如如果果原原来来的的变变量量之之间间的的相相关关程程度度高高,降降维维的的效效果果就就会会好好一一些些,所所选选的的主主成成分分就就会会少少一一些些,如如果果原原来来的的变变量量之之间间本本身身就就不不怎怎么么相相关关,降降维维的的效效果果自自然就不好然就不好n不相关的变量就只能自己代表自己了不相关的变量就只能自己代表自己了主成分的选择August 3,201011.1.3 主成分分析的步骤11.1 主成分分析August 3,2010n 对 原
23、 来 的p 个 指 标 进 行 标 准 化,以 消 除 变 量在水平和量纲上的影响n 根 据 标 准 化 后 的 数 据 矩 阵 求 出 相 关 系 数 矩阵n 求出协方差矩阵的特征根和特征向量n 确 定 主 成 分,并 对 各 主 成 分 所 包 含 的 信 息给予适当的解释主成分分析的步骤August 3,2010【例】根 据 我 国31 个 省 市 自 治 区2006 年 的6 项 主要 经 济 指 标 数 据,进 行 主 成 分 分 析,找 出 主 成分并进行适当的解释主成分分析(实例分析)31 31 个地区的 个地区的6 6 项经济指标 项经济指标August 3,2010第 第1
24、1 步 步 选择【选择【Analyze Analyze】下拉菜单,并选择【】下拉菜单,并选择【Data Reduction-Data Reduction-Factor Factor】,进入主对话框】,进入主对话框第 第2 2 步 步 在主对话框中将所有原始变量选入【在主对话框中将所有原始变量选入【Variables Variables】第 第3 3 步 步 点击【点击【Descriptives Descriptives】,在【】,在【correlation Matrix correlation Matrix】下选择】下选择【Coefficirnts Coefficirnts】,点击【】,点击【
25、Continue Continue】回到主对话框】回到主对话框第 第4 4 步 步 点击【点击【Extraction Extraction】,在【】,在【Display Display】下选择【】下选择【Scree Scree Plot Plot】,点击【】,点击【Continue Continue】回到主对话框】回到主对话框第 第5 5 步 步 点击【点击【Rotation Rotation】,在【】,在【Display Display】下选择【】下选择【Loading Loading Plot Plot】,点击【】,点击【Continue Continue】回到主对话框】回到主对话框 点击
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 11 成分 分析 因子分析 课件
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内