《回归分析与因子分析之比较25346.pdf》由会员分享,可在线阅读,更多相关《回归分析与因子分析之比较25346.pdf(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 回归分析与因子分析之比较 刘婷玉 数学与统计学院级 【摘 要】回归分析与因子分析是数理统计中常用的两种数据处理方法,本文对他们进行比较,分析了两种方法的区别与联系,各自的使用和适用范围,对教学质量的提高及在实际中对于有效选择此两种统计方法提供了依据。【关键词】回归分析 因子分析 比较 一、问题提出 回归分析和因子分析都是研究因变量与因子间关系的一种数据处理 方法,在模型上看,只是因子结构不一样,他们之间到底有什么内在联系,值得我们研究并加以利用。二、问题分析 、统计模型和类型 多元线性回归模型表示方法为 个样本观测值 得:其解析表达式为 多元模型的矩阵表达式为 一般地,设,为可观测的随机变量
2、,且有 。在因子分析中,维的变量 向量被赋予一个随机结构,具体也可以写成以下形式:其中 是维向量,是 参数矩阵,是维潜变量向量,称为 公共因子,而 是维的变量向量,称为特殊因子 ,满足下列假定:,对角矩阵,它把每个变量分解为两部分,一部分是由这些变量内含的公共因 子所构成的,即公共因子部分,另一部分是每个变量各自独有的因子,即所谓特殊因子部分。应当注意,因子模型不具有唯一性,设是一个正交矩阵,由可知,因子模型 与模型 等价。后者载荷矩阵为,新的公共因子。正 是由于因子模型的不唯一性,所以当原模型不适合专业解释时,则作一个正交变换,把原模型改变为新模型,在新模型中再去寻找因子的专业解释,这就为因
3、子旋转提供了理论的基础。由两者的比较可知,两种模型都是用某几个因子来解释变量的,只是因子构成不一样,回归分析的因子之间可能存在相关关系,但是 后者却是独立的。回归分析模型写成了原观测变量的线性组合,因子 分析是描述原指标 协方差阵结构的一种模型,对原观测变量分解 成公共因子和特殊因子两部分,当公共因子的个数原变量个数时,就不能考虑特殊因子了,此时因子分析也对应于一种线性组合了,饿而且因子模型的系数矩阵表明了原变量和公共因子的相关程度。、目的和作用 回归分析是为了分析一个变量如何依赖其它变量而提出的一种 统计分析方法,它的目的是要确定引起因变量变化的各个因素,多元 线性回归是研究一个因变量()和
4、多个自变量()之间数量上相 互依存的线性关系。利用回归分析可以进行因素分析、调整混杂因素和统计预测。因子分析是用于研究个体测量指标的协方差 或相关 结构的探索性数据分析的多元技术。它找出若干可以解释可观测指标之间的变差或者联系的潜变量从而简化高维数据,并对相似指标进行分组及检测多重共线性,将高维数据在低维空间中图示以利于直观考察数据的分布情况及检测异常值。目标是通过减少变量的个数来了解数据的结构,在某种意义上可以取代原始数据,而且通过图示和多元推断技术更容易进行研究。它就是用少数几个有意义因子来描述多个指标或因素之间的联系,与此同时,又能保存住原有数据结构所提供的大部分信息,这样就可以找出潜在
5、的特征。其目的为化简数据、浓缩信息、探讨内在结构,也就是说将分散在多个变量中的同类信息集中起来、提纯,从而便于分析、解释和利用。同样是因变量和因子之间的关系,但是回归分析却能得出确切的数值关系,而且通常是定量的(不过对定性因素可以采用虚拟变数的处理方法)。但因子分析一般适用于定性的,不可观测的数据。不过,回归分析的关系不精简明了,而且确定的因子也是根据人为经验事先定好的,不如因子分析的全面,可能还得做逐步回归等才能剔除或增加变量。、适用原则 首先,回归分析和因子分析使用的数据不一样。回归分析同时需要因子和因变量的数据,数据结构为因变量和因子对应的顺序数据,即。而因子分析只需要在不同情况下对应的
6、因变量的值,无需知道的确切数值,只要根据调的数值就行了,也即这 种方法可以揭示因子内部的关系。其次,样本容量的要求也不同。回归分析最小样本容量 ,有存在 为。对 阶的满秩阵,因此,必须有。根据经验,有或者才能满足模型估计的基本要求。时,分布才稳定,检验才较为有效。根据的观点,因子分析的样本量要求如下 一般原则是要求样本数目至少是变量个数的五倍,能有一比十的比例是较可 被接受的,有些研究建议观察值个数为变量个数的二十倍 总样本最好应有个或以上的观察值,通常不要少于个观察值。最后,模型假设也有不同之处:在回归分析中,有如下假设:解释变量是确定性变量,不是随机变量;解释变量之间互不相关,即无多重共线
7、性。随机误差项具有 均值和同方差。随机误差项不存在序列相关关系。随机误差项与解释变量之间不相关。随机误差项服从 均值、同方差的正态分布。在因子分析中,假定:公共因子的均数为,方差为。特殊因子的均数为,方差为 ,且特殊因子互不相关。公共因子与特殊因子相互独立。由比较可知,两种分析方法在两类因子的相关性上有相似之处,差别主要在于回归分析中的随机误差项要求服从 均值、同方差的正 态分布。、模型的解 回归分析应用最小二乘估计,其矩阵表示如下:为什么?它具有线性(估计量都是被解释变量观测值的线性组合)无 偏性(估计量的数学期望 被估计的真值)有效性(估计量的方差 是所有线性无偏估计中最小的)而因子分析有
8、若干种方法 主成分法()每一个公共因子的载荷系数之平方和等于对应的特征根,即该 公共因子的方差。主因子法()设原变量的相关矩阵为,其逆矩阵为。各变量 特征方差的初始值取为逆相关矩阵对角线元素的倒数,。则共同度的初始值为。极大似然法()假定原变量服从正态分布,公共因子和特殊因子也服从正态分 布,构造因子负荷和特殊方差的似然函数,求其极大,得到唯一解。由上可知,因子载荷的统计意义是第 个变量与第个公共因子 的相关系数,表示依赖巧的份量 比重。统计中应称为权。现称 载荷,表示第个变量在第 个因子上的负荷,反映了第 个变量在 第 个因子上的相对重要性。另外,回归的系数是唯一确定的,而因子模型的系数矩阵
9、不唯一,且该矩阵表明了原变量和公共因子的相关程度。差阵的特征值所对应的特征向量。某解释变量前回归系数的含义是,在其他解释变量保持不变的条件下,该变量变化一个单位,被解释变量将平均发生偏回归系数大小的变动。另外,因子分析中的载荷矩阵是不可逆的,只能通过可观测的原变量去估计不可观测的公共 因子,是因子载荷矩阵中的元素,是第 变量与第 个公共因 子 的相关系数,即表示依赖的份量,是第 变量在第 个公共因子上的负荷,它反映了第 变量在第 个公共因子上的相对重 要性。是第 个原观测变量的特殊因子,且此处的与的均 值都为,方差都为。、效果检验 对多元线性回归可作如下平方和分解:总离差平方和 回归平方和 残
10、差平方和 自 由 度:回归方程的总体检验:并非所有的都为零 据给定的 根据样本资料计算统 计量 如果 则拒绝 否则接收 回归系数的检验:据给定的 计算统计量 如果 则拒绝 否则接收 而对于因子分析而言,是没有统计检验的,只是在模型中各个量 的统计意义上有所表现:特征根,所谓特征值,是指每一行因子 负荷量平方加总后之总和,表示该因子能解释全体变异的能力。每一 个公共因子的载荷系数之平方和等于对应的特征根,即该公共因子的 方差。它可以被看成是主成分影响度的指标,代表引入因子、主成分 后可解释平均多少原始变量的信息。因每一变量之变异数均为,若 所抽取的因子特征根小于,说明该主成分的解释力度还不如直接
11、引 入一个原变量的平均解释力度大。因此一般可以用特征根大于 作为 纳入标准。变 量 共 同 度,也 称 为公 共 方 差 ,反映全部公共因子变量对原有变量 的总方差解释说明 比例。原有变量的共同度为因子载荷矩阵 中第 行元素的 越接近于原有变量标准化前提下,总 平方和 方差为,说明公共因子解释原有变量越多的信息。如果大部分变量 的共同度都高于,则说明提取出的公共因子已经基本反映了各原 始变量以上的信息,仅有较少的信息丢失,因子分析效果较好。可以说,各个变量的共同度是衡量因子分析效果的一个指标公共因子 的方差贡献定义为因子载荷矩阵 中第 列各元素的平方和,方 差贡献反映了该因子对所有原始变量总方
12、差的解释能力,其值越高,说明因子重要程度越高。累积贡献率达到 就比较满意了。因子载荷(负荷)是随机变量与公共因子的相关系数。设称为公共因子对的“贡献”,是衡量公共因子重要性的一个指标。、步骤 回归分析 、找出被选变量 、试建回归模型 、评核回归模型 、修改回归模型 、解释并应用回归模型 因子分析 、输入原始数据,计算样本均值和方差,进 行标准化计算(处理);、求样本相关系数矩阵 ;、求相关系数矩阵的特征根 和 相应的标准正交的特征向量;、确定公共因子数;、计算公共因子的共性方差 、对载荷矩阵进行旋转,以求能更好地解释公共因 子;、对公共因子作出专业性的解释。三、结束语 回归分析和因子分析是两种
13、常用的数据处理方法,通过主成分分 析和因子分析的对比,我们可以很清楚的看出回归分析和因子分析有 一定的关系,本文只给出一部分区别和联系。希望通过本文的分析,能给初学者有一定的帮助,在学习和研究中能提供信息。另外,由以 上比较可知,在处理数据时,若数据包含因子的信息,则可以先进行 回归分析,再用因子分析进行进一步验证和扩展,发现其内在规律,以尽量全面客观的解释客观事实。参考文献 高惠璇应用多元统计分析北京大学出版社 何晓群刘义卿应用回归分析中国人民大学出版社 张尧庭多元统计分析选讲北京中国统计出版社出版,数学建模方法及其应用 韩中庚 北京:高等教育出版社,回归分析及其试验设计 茆诗松、丁元、周纪芗、吕乃刚华东师范大学出版社,多元线性回归的数学模型 刘严 沈阳工程学院学报 、于秀林、任雪松编著。多元统计分析中国统计出版社 望 年版 实用统计方法 梅长林、周家良 科学出版社 多元线性回归模型 林海明对主成分分析法运用中十个问题的解析 统计与决策理论版 张文彤。统计分析高级教程。上海高等教育出版社,。应用多元科研中常用的统计方法自由分布统计检验颜金锐 中国统计出版社
限制150内