聚类分析优秀PPT.ppt
《聚类分析优秀PPT.ppt》由会员分享,可在线阅读,更多相关《聚类分析优秀PPT.ppt(73页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据的分类聚类分析在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费习惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具来发觉数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把留意力放在某一个特定的类上做进一步的分析。聚类分析的算法可以分为划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法。其中,最广泛运用的聚类算法k-means算法属于划分法。聚类算法给定一个有N个元组或者纪录的数据集,划分法将构造K个分组,每一个分组就代表一个聚类,Ko。在解决实际问题时,一般不是取p个主成分,而是依据累计贡献率的大小取前几个。定
2、义 称第一主成分的贡献率为主成分的贡献率就是主成分的方差在全部方差中的比值因此第一2023/4/1546个值越大,表明第一主成分综合X1 ,Xp信息的实力越强。前两个主成分的累计贡献率定义为前两个主成分的累计贡献率定义为前 k 个主成分的贡献率达到85,表明取前是个主成分基本包含了全部测量指标所具有的信息,这样既削减了变量的个数又便于对实际问题的分析和探讨。假如 值得指出的是:当协差阵未知时,可用其估计值 S(样本协差阵)来代替,设原始资料阵为:2023/4/1547 则其中而相关系数阵:其中2023/4/1548明显当原始变量Xl,Xp标准化后,则 实际应用时,往往指标的量纲不同,所以在计算
3、之前先消退量纲的影响,而将原始数据标准化,这样一来S和R相同。因此一般求R的特征根和特征向量,并且不妨取RX X。因为这时的R与不变,它并不影响求主成分。只差一个系数,明显与的特征根相差n倍,但它们的特征向量(2)、主成分的主要性质性质1 F的协差阵为对角阵A。2023/4/1549证明:记 明显性质2证明:性质32023/4/15514 计算步骤及实例 设有 n 个样品,每个样品观测 p 个指标,将原始数据写成矩1将原始数据标准化。这里不妨设上边矩阵已标准化了。2建立变量的相关系数阵:不妨设2023/4/15523求特征根及相应的单位特征向量:4写出主成分 例 对全国30个省市自治区经济发展
4、基本状况的八项指标作主成分分析,原始数据如下:2023/4/15532023/4/15542023/4/15552023/4/1556第一步 将原始数据标准化。其次步 建立指标之间的相关系数阵R如下2023/4/1557第三步 求R的特征值和特征向量。2023/4/1558 从上表看,前3个特征值累计贡献率已达89564,说明前3个主成分基本包含了全部指标具有的信息,我们取前3个特征值,并计算出相应的特征向量:2023/4/1559因而前三个主成分为:第一主成分:其次主成分:F2=0.107995X1+0.258512X2+0.287536X3 +0.100931X4-0.40431X5+0.
5、498801X6 -0.48868X7+0.167392X82023/4/1560第三主成分:在第一主成分的表达式中第一、二、三项指标的系数较大,这三个指标起主要作用,我们可以把第一王成分看成是由国内生产总值、固定资产投资和居民消费水平所该划的反映经济发展状况的综合指标;在其次主成分中,第四、五、六、七项指标的影响大,且第六、七项指标的影响尤其大,可将之看成是反映物价指数、职工工资和货物周转量的综合指标;在第三主成分中,第八项指数影响最大,远超过其它指标的影响,可单独看成是工业总产值的影响。2023/4/15615 附注 1从和从R动身计算主成分一般是不同的,当变量取值范围彼此相差很大或度量单
6、位不同时,应当考虑标准化,以便使计算结果有合理的说明,避开出现误会。假如没有上述度量单位和数量级的差异,从和从R动身计算的结果对主成分的说明或计算贡献时,在一般状况下是不会发生冲突的。2主成分是原始变量的线性组合,它不能简洁地说明为单变量的属性作用,因而不能干脆说明单个原始变量属性对主成分的作用,而应当同时看一些起主要作用的原始变量的综合作用,依此给主成分一个合理说明。3从主成分的数学推导,不难看出主成分仅依靠于X1,X2,Xp的协差阵(或相关系数阵)并不要求分布2023/4/1562是多元正态的,即未对总体分布提出什么特定的要求。4主成分个数的确定。一种方法在前边计算过程中已提到即依据实际问
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 优秀 PPT
限制150内