主成分分析与因子分析的异同和SPSS软件——兼与刘玉玫、卢纹岱等同志商榷.doc
《主成分分析与因子分析的异同和SPSS软件——兼与刘玉玫、卢纹岱等同志商榷.doc》由会员分享,可在线阅读,更多相关《主成分分析与因子分析的异同和SPSS软件——兼与刘玉玫、卢纹岱等同志商榷.doc(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2005 年第 3 期 No. 3 2005 统计研究 Statistical Research 65 主成分分析与因子分析的 异同和 SPSS 软件 兼与刘玉玫 、 卢纹岱等同志商榷 林海明 张文霖 Between the Principal Component ABSTRACT Analysis and the Factor Analysis. This paper puts forward the difference essentially. and the Identity, which advances positive proposal to some users of this
2、 two methods 关键词 : 主成分分析 ; 因子分析 ; 混淆 ; 出错 ; 避免 设 X = ( X 1, , X P )!为标准化随机向量 ( p 2) , R 为 使用因子分析 时 : & 将 因子 分析 的思 想叙 述为 主 成 分分析的思想 ; 因 子 Z 的命 名出 错 , 如用 因子 得分 函 相关系数 矩阵 , F m = ( F1, , F m )! 为主 成 分 向量 , Z m = i ( Z1 , , Zm )! 为因 子 向量 , m # p , 为方 便 , 因 子、因 子 估 数对因子 Z i 进行命名 ; ) 某变量 X k 被 丢失 ; 将主成 分
3、计、因子得分用同一记号。 或因子错误地表示为 B!mX ( Bm 的意义 见表 1) ; + 不知 相 一 、 问题的提出 关系数 矩阵特征值 m i 与因子 贡献 v i 的区 别 , 如 综合因 子 主成分分析与 R- 型因 子分析 是多元 统计分 析中 的 两个重 要方法 , 同 是降 维技术 , 应 用范 围十分 广泛 , 但 通 过流行甚广的 SPSS 软件 调用这 两种方 法的 过程命 令 , 有 得分函数 i 。 Z 综 = i= 1 ( vi / p ) Z i 中 的 v i 错 误地取 为特征 值 些使用者容 易出现 混淆 性错 误 , 如 统 计研 究 % 2003 年
4、第 12 期发表的论文 经 济全 球化程 度的 量化研 究 % ( 以下 称 刘文 % ) 、电子 工 业 出 版社 2002 年 9 月出 版 的 SPSS for Windows 统计分析 ( 第二版 )% ( 以下称 卢书 %) 就 是这种 情 况。是什么原因造 成这些 错误呢 ? 主成分 分析 与 R- 型 因子分析到底有何异同呢 ? 经过对一些论文和一 些 SPSS 软件 教科 书仔细 分析、 比较我们发现出错的主要原因在于有些使用者和 SPSS 软 件教科书作者对怎样用 SPSS 软件得出主成 分分析与 R- 型因子分析的结果掌握不全面 , 对主成分分析 与 R- 型 因 子分析异
5、同的认识不透彻。 经过 仔细查证出现的错误有 : 使用主 成分 分 析 时 : & 叙 述 主 成分 分 析 概 念出 错 ; 主成分 Fi 求解出错 , 如 Fm = A!mX 中 A!mA m ( Im ( I m 为 单位矩阵 , A m 的意义 见表 1) ; ) 找不到主成分 Fi 的 命名 依据 , 对主成分 Fi 命名 出错 ; 某变 量 X k 被 丢失 ; + 对 A m 错 误地进 行旋转 ; ,错误地 进行回归 求 Fi ; 错误 地 把因子分析法 ( 含初始因子分析法 ) 当作主成分分析法。 二 、 主成 分分 析 与 R 型 因子 分析 数 学 模型的异同比较 相同之
6、处 : 主成分分析与 R- 型因子分析都是对协 差 阵的逼近 , 都 是打 算降 维解 释数 据集。 具体 为指 标的 正 向化 , 指标的标准化 ( SPSS 软件自动 执行 ) , 通过 相关系 数 矩阵判断变量 间的 相关 性 , 求 相关 系数 矩阵 的特 征值 和 特征向 量 , 主 成 分 间、因 子 间 线 性 无 关 , 用 累 计 贡 献 率 ( 85% ) 、变量不 出现 丢失 确 定主 成分、因 子个 数 m , 前 m 个主成 分与前 m 个 因子 对 X 的综合 贡献 相同、是最 大 化的 , 命名依据都是主成分、因子与变量的相关系数。 不同之处 : 方差 , 最大化
7、方向 , 所 处的坐 标系 ( 标准 正 交性 ) , 应用上侧重等不同见表 1。 主成分分析与因子分析定 量上不同 的显著 性标志 是 方差。事实上 , VarFi ( Var Z 综 , 即 F 综 的 取值范围比 Z 综 的取值范围大 , 这些 都肯定了主成分分 析 与因子分析的计量 值、评价体系不同。 结论 : 主成分分析与因子分析两种方 法方差、最大化 . 66 表 1 统计研究 主成分分析与 R- 型因子分析的不同 区别项目 表 达 式与 系 数 Fm= A!mX , A m 主成分分析数学模型 : = ( aij ) p / m = ( 1 , 2 , , m ) , R i =
8、 X= BmZ m R- 型因子分析数学模型 : + ( 为 特 殊 因 子 ) , 因 子 载荷 矩 阵 B m = 矩阵 i i , i 、 i 是相应的特征 值和单位 特征向量 , 1 ( bij) p / m = m C , m = ( 1 1 , 2 2 , , m m ) 为 因 变 量方 差 最 m 0。 初始因子载荷矩阵 ( i 、 i 同左 ) 。 大化 F i 依 次达到信息贡献 ( 方差 ) 最大化 , VarFi = i 。 Z i 没有达到方差最大化 , VarZi = 1。 矩 阵 方差 最 大 无 ,旋转后就不是主成分了 , 因为 VarFi ( i 。 有 ,
9、C= ( cij ) m / m 为 B m 方差最大正交旋转矩阵 , B m 达到 化旋转 因 变量对 X 的 贡献 相关系数 特征值 i j i 。 j aij 。 方差最大化。 p k= 1 i j i , 通常 1 v i 。 命名依据 用 j ( a 1j , , a pj ) 式中系数绝对值大的对应变 量对 F j 将 B m 的第 j 列绝对值大的对应变量归为 Zj 一类并由此 回归过程 标准正交性 命名 , 有时命名清晰性低。 无。 是 , A!mAm = Im ( 判据之一 ) 。 m m 对 Zj 命名 , 命名清晰性高 ( 精细 ) 。 m m m m m m m m m
10、 综 合 评价 函 数 F 综 = i= 1 i !) Fi , Var F 综 = ( . i ) !2 , != p 或 1 Z 综 = i= 1 ( v i !) Zi , vi ( i ( 判据之一 ) 及方差 + + , 通常 VarF Var Z i= 1 , 即 F 的 取值范 围通 m 2 2 ( 旋转后因子贡献从 变为 v , 因 常比 Z 综 m 大。 综 综 综 VarZ 综 = ( i= 1 v i ) ! i i 此权数应取为 v i !) , != p 或 v 1+ v2 + + v m 。 应用上侧重 信息贡献影响力综合评价。 成因清晰性的综合评价。 * 取初始因
11、子的方法为主成分法。 方向不同 , 直接导致主成分值、因子得分值、综合评 价值和 应用侧重上不同 , 综合 评价应 该分开 进行 , 混淆 在一 起是 M atrix1 中的第 i 列中系数绝 对值大 的对应 变量对 F ( 有时命名清晰性低 ) 。 i 命 名 不同计量值交替错误。 三 、 避免出错的方法步骤 1 主 成分分 析法 和 SPSS 软件 应用时 一对 一的 正确 步骤 : ( 1) 指标的正向化 ; ( 2) 指标数据标准化 ( SPSS 软件自动执 行 ) ; ( 3) 指 标 之 间 的 相 关 性 判 定 : 用 SPSS 软 件 中 表 0 Correlation M
12、atrix( 相关系数矩阵 )1 判定 ; ( 4) 确 定 主 成 分 个 数 m: 用 SPSS 软 件 中 表 0 Total Variance Explained( 总 方差 解释 )1 的 主成 分方 差累 计贡 献 率 85% 、结合表 0 Component Matrix ( 初 始因子 载荷阵 )1 中 变量不出现丢失确定主成分个数 m。 ( 5) 主成 分 Fi 表 达式 ( 这 是 SPSS 软件 及其 教科 书中 没完善的地方 ) : 将 SPSS 软件 中表 0 Component Matrix1 中的 第 i 列向量除以第 i 个特征根的开根后就得到第 i 个主成 分
13、 Fi 的变 量 系 数向 量 ( 在 0 transform 2 compute1 中进 行 计 算 ) , 由 此 写 出 主 成 分 Fi 表 达 式。 用 Fm = A!mX 的 A!mA m = I m 检验之。 ( 7) 主成分与综合主成 分 ( 评 价 ) 值 ( 这是 SPSS 软件 及 其教科 书 中 没 完 善 的 地 方 ) : 综 合 主 成 分 ( 评 价 ) 公 式 m i= 1 i p 在 SPSS 软 件 中表 0 Total Variance Explained1 下 0 Initial Eigrnvalues( 主成 分 方 差 )1 栏 的 0 % of
14、Variance ( 方差 率 )1 m i= 1 ( 8) 检验 : 综合主成分 ( 评价 ) 值用实际结果、经验与 原 始数据做聚类分析 进行 检 验 ( 对 有争议 的结 果 , 可 用原 始 数据做判别分析解决争议 ) 。 ( 9) 综合实证分析。 2 因子 分析法 和 SPSS 软件 应用 时一对 一的 正确 步 骤 : ( 1) ( 3) 步骤同主成分分析步骤。 ( 4) 确定因子个数 m: 用 SPSS 软件中 表 0 Total Variance Explained1 特 征 值 累 计 贡 献 率 85% 、结 合 表 0 Rotated Component Matrix(
15、旋转后因子载 荷阵 )1 中 变量不 出现丢 失 确定因子个数 m。 ( 5) 求 因 子 载 荷 矩 阵 Bm : SPSS 软 件 中 表 0 Rotated (6) 主 成 分 F i 命 名 : 用 SPSS 软 件 中 表 0 Component Component Matrix1。 r = 2 i . r = b 。 - 1 - 1 - 1 . ( 3 . . 林海明 张文霖 : 主成分分析与因子分析的异同和 SPSS 软件 67 ( 6) 因 子 Z i 的 命 名 : 将 SPSS 软 件 中 表 0 Rotated 到 86 702% , 且无变量丢失 , 故取 3 个 主成
16、分就 够了 , 但 为 了与 刘文 %进行比较 , 这里仍取 4 个主成分。 Component Matrix1 因子载 荷矩 阵 Bm 的第 i 列绝 对值 大的 表 2 方差解释 对应变 量 归为 Zi 高 ) 。 一 类 , 并由 此 对 Zi 命 名 ( 命名 清 晰 性 Tatal Variance Explained Extraction Sums of ( 7) 求因子得分函数 Zi 表达 式 : Zi = b!iX , 这里 b i 是 InitialEigenvalues SquaredLoadings SPSS 软件中表 0 Component Score Coeffici
17、ent Matrix ( 因 子得分 系数矩阵 )1 的第 i 列向量。 ( 8) 求因子得分值与综 合因 子得分 ( 评价 ) 值 : 综 合因 子得分 ( 评价 ) 公式 m i= 1 1 2 3 4 Total 6. 049 5. 813 1. 143 0. 876 % of Variance 40. 327 38. 754 7. 621 5. 840 Cumulative % 40. 327 79. 081 86. 702 92. 542 Total 6. 049 5. 813 1. 143 0. 876 % of Variance 40. 327 38. 754 7. 621 5.
18、840 Cumulative % 40. 327 79. 081 86. 702 92. 542 在 0 transform 2 compute1 中进行 计算 ) , vi / p 在 SPSS 软 件中 表 0 Total Variance Explained1 下 0 Rotation Sums of Squared Loadings( 旋转 后因 子 对 X 的 方 差 ) 1 栏 的 0 % of Variance1 p k= 1 m i= 1 ( 9) 检验 : 综合评价值用实际结果、经验与原始 数据做 Extraction Method: Principal Component
19、Analysis. 第 4 以后的特征值省略。 表 3 Component Matrix( 初始因子载荷阵 ) Component 1 2 3 4 13 6 4 0. 132 0. 169 0. 421 聚类分析进行检验 ( 对有争 议的结 果 , 可 用原始 数据 做判 x 14 0. 728 - 0. 623 0. 146 - 0. 101 别分析解决争议 ) 。 x x 1 0. 407 0. 552 0. 805 0. 766 0. 269 0. 196 - 0. 278 - 0. 165 ( 10) 综合实证分析。 以上看出 : 使用 SPSS 软件时 , 主成 分分析与因 子分析
20、是从初始因子载荷阵处分开的 , 表现为主成分分析 是通过 初始因子载荷阵列向量 单位化 ( 或 除相应特 征值 开根 ) 得 到主成分系数距阵、主 成分及 其值等 , 而 因子分 析是 通过 初始因子载荷阵进行旋转得到因 子载荷阵、再通过 回归得 到因子得分及其值等。 10 x 5 x15 x 2 x 8 x 9 x11 x12 x 7 x 3 0. 614 0. 579 0. 596 0. 636 0. 619 0. 654 0. 666 0. 274 - 0. 147 0. 763 0. 760 - 0. 727 0. 703 0. 703 - 0. 691 - 0. 685 - 0. 6
21、27 0. 016 0. 028 0. 005 0. 208 0. 041 0. 008 0. 171 0. 166 0. 183 0. 822 - 0. 055 - 0. 129 - 0. 235 0. 190 0. 147 - 0. 237 - 0. 227 0. 285 0. 465 结果 四 、 刘文 %、 卢书 %正 确的主 成分 分析 主成分命名 : 表 3 中每一个载荷 量表示主成分与对 应 变量的相关系数 , 且系数 符号与 题意相 符 , 结合贡 献率 与 正负相关性作用得出 , X2 - 货物贸 易占货物 GDP 的 比重、 经过仔 细验算 , 刘 文 %、 卢书 % 是将
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 因子分析 异同 SPSS 软件 刘玉玫 卢纹岱 同志 商榷
限制150内