多元统计分析课程设计报告样例女性空腹及摄入食糖后体内血糖含量主成分分析.docx
《多元统计分析课程设计报告样例女性空腹及摄入食糖后体内血糖含量主成分分析.docx》由会员分享,可在线阅读,更多相关《多元统计分析课程设计报告样例女性空腹及摄入食糖后体内血糖含量主成分分析.docx(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、目录目录 .一、问题分析01.1问题重述0问题分析0二、主成分分析方法根本原理12.1 主成分分析根本思想12.2 主成分分析的数学模型12.3 主成分分析的计算步骤2三、问题求解4四、结果分析64.1 相关系数矩阵64.2 协方差阵7五、总 结8六、课程设计心得体会8参考文献9一、问题分析问题重述49 位女性在空腹状况下三个不同时刻的血糖含量用X , X, X 表示和摄123入等量食糖一小时后的三个时刻的血糖含量用小 X, X , X 表示的观测值单456位:mg/100ml.问题:分别从样本协方差阵 S 和样本相关系数矩阵 R 动身做主成分分析, 求主成分的奉献率和各个主成分. 在两种状况
2、下,你认为应保存几个主成分?其意义如何解释?就此而言,你认为基于 S 和 R 的分析那个结果更为合理?问题分析我们依据主成分分析的根本思想,设法将原来众多的具有肯定相关性的指标,重组合成一组的互不相关的综合指标来代替原来指标。通常数学上的处理就是将原来 p 个指标作线性组合,作为的综合指标。然后,在全部的线性组合中分别从样本协方差阵 S 和样本相关系数矩阵 R动身做主成分分析,计算出各个主成分,进而代表原来 p 个指标的信息。进一步,建立主成分分析的数学模型。最终利用 sas 统计软件来求解出各个主成分和各主成分的奉献率。二、主成分分析方法根本原理主成分分析根本思想主成分分析是数学上对数据降维
3、的一种方法。其根本思想是设法将原来众多的具有肯定相关性的指标比方 p 个指标,重组合成一组的互不相关的综合指标来代替原来指标。通常数学上的处理就是将原来 p 个指标作线性组合,作为的综合指标。但是这种线性组合,假设不加限制,则可以有很多,应当如何去选取呢?在全部的线性组合中所选取的 F1应当是方差最大的,故称F1为第一主成分。假设第一主成分缺乏以代表原来 p 个指标的信息,再考虑选取 F即选其次个线2性组合。为了有效地反映原有信息, F1已有的信息就不需要再消灭在 F2中,用数学语言表达就是要求Cov(F , F ) = 0 。称F为其次主成分,依此类推可以构造122出第三、第四、第 p 个主
4、成分。主成分分析的数学模型设有n 个样品多元观测值,每个样品观测 p 项指标变量:X , X LX,12p得到原始数据资料阵:其中 Xi= (x1i,Lxni),i =1,2, p .用数据矩阵 X 的 p 个列向量即 p 个指标向量 X , X LX作线性组合,12p得综合指标向量:简写成:F= aXp1 p1+ aX2 p2+L+ aXpppF = AX为了加以限制,对组合系数ai= (a1i,Lapi)T 作如下要求:即: a为单位向量: a T a= 1,且由以下原则打算:iii1) Fi与 F互不相关,即Cov(F , Fjij) = aiT Sai= 0 ,其中S 是 X 的协方差
5、阵。2) F1即:是 X , X LX12的一切线性组合系数满足上述要求中方差最大的,pVar (F ) = max Var (p1c ”c =1c X )ii,其中c = (c ,c ,L,c )T12pF 是与 F21不相关的 X , X LX12i =1一切线性组合中方差最大的, F ,L, Fp1p是与 F ,1F , L, F2p-1都不相关的 X , X LX12的一切线性组合中方差最大的。p满足上述要求的综合指标向量 F , F12, L, Fp-1就是主成分,这 p 个主成分从原始指标所供给的信息总量中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的
6、奉献就等于原指标相关系数矩阵相应的特征值l ,每一个主成分的组合系数:ia Ti= (a , a1i2i,L, a)pi就是相应特征值li所对应的单位特征向量ti。方差的奉献率为a = lii/ p lkk =1其中,ai越大,说明相应的主成分反映综合信息的力量越强。2.3 主成分分析的计算步骤(1) 计算协方差矩阵计算样品数据的协方差矩阵: S = (s )ijp p其中,1sij = n -1n (xkik =1- x )(xikj- x ),(i, j = 1,2,L, p)j(2) 求出S 的特征值及相应的特征向量求出协方差矩阵 S 的特征值 l l12 Llp 0 及相应的正交化单位
7、特征向量: a a a11 12 1 p a a aa = 21 , a= 22 , ., a= 2 p 1 M 2 M p M aaap1 p 2 pp 则 X 的第i 个主成分为 Fi= a T X ,i = 1,2,L, p i(3) 选择主成分在已确定的全部 p 个主成分中合理选择m 个来实现最终的评价分析。一般用方差奉献率a = lii/ p lkk =1解释主成分 Fi所反映的信息量的大小, m 确实定以累计奉献率G(m) = m l / p liki=1k =1到达足够大一般在 85%以上为原则。(4) 计算主成分得分计算n 个样品在m 个主成分上的得分:F = aXi1i1+
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 课程设计 报告 女性 空腹 摄入 食糖 体内 血糖 含量 成分 分析
限制150内