大数据解析与应用导论 (8).pdf
《大数据解析与应用导论 (8).pdf》由会员分享,可在线阅读,更多相关《大数据解析与应用导论 (8).pdf(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1大数据解析与应用导论Introduction to Big Data Analytics and Application第七章 典型相关分析基本概念基本概念1.CCA算法介绍算法介绍2.CCA算法拓展算法拓展3.案例分析案例分析4.(1)典型相关分析的简单例子)典型相关分析的简单例子7.2 CCA算法介绍算法介绍 了解家庭特征与家庭消费之间的关系:了解家庭特征与家庭消费之间的关系:变量相关系数矩阵:x1x2y1y2y3x11.000.800.260.670.34x20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35
2、y30.340.340.210.251.00(1)典型相关分析的简单例子)典型相关分析的简单例子7.2 CCA算法介绍算法介绍 两组变量相关系数矩阵:x1x2y1y2y3x11.000.800.260.670.34x20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.251.00 针对两组变量(p个变量和q个变量)的相关性分析:方法1:讨论第一组每个变量和第二组每个变量的相互关系,得到pq个相关系数,再用这些相关系数反应两组变量的关系。只是孤立考虑单个X与单个Y间的相关,没有考虑X、Y
3、变量组内部各变量间的相关。两组间有许多简单相关系数(例每组30个变量),使问题显得复杂,难以从整体描述。难以抓到重点(1)典型相关分析的简单例子)典型相关分析的简单例子7.2 CCA算法介绍算法介绍 两组变量相关系数矩阵:x1x2y1y2y3x11.000.800.260.670.34x20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.251.00 针对两组变量(p个变量和q个变量)的相关性分析:方法2 在每组变量中选择若干个有代表性的综合指标,这些指标是原始变量的线性组合,代表了原
4、始变量的大部分信息,且两组综合指标的相关程度最大。新产生的综合指标成为典型相关变量Canonical VariableCanonical Variable,通过少数的几个综合变量来反应两组变量的相关性质。此即典型相关分析的核心思想(2)典型相关分析的求解目标)典型相关分析的求解目标7.2 CCA算法介绍算法介绍=1()1(1)+2()2(1)+()(1)()(1)=1()1(2)+2()2(2)+()(2)()(2)设为两个相互关联的随机向量,分别在两组变量中选取若干有代表性的综合变量Ui、Vi,每一个综合变量是原变量的线性组合,目标是最大化两者的相关系数(1)(1)(1)(1)12(,)pX
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据解析与应用导论 8 数据 解析 应用 导论
限制150内