第七讲聚类分析PPT讲稿.ppt
《第七讲聚类分析PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第七讲聚类分析PPT讲稿.ppt(60页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第七讲聚类分析第1页,共60页,编辑于2022年,星期二第一节 聚类分析概述 多元统计分析中的分类方法 聚类分析的涵义 聚类分析方法 第2页,共60页,编辑于2022年,星期二多元统计分析中的分类方法一类:研究对象存在事先分类情况下,判断某个未知样品的归类 一类:研究对象不存在事先分类情况下,进行数据结构的分类 第3页,共60页,编辑于2022年,星期二聚类分析的涵义是一种将样品或变量,按照它们在性质上的亲疏程度进行分类的多元统计分析方法。描述亲疏程度的途径:计算多维空间上点的距离;计算相似系数或相关系数 第4页,共60页,编辑于2022年,星期二聚类分析方法 按照聚类方法的不同系统聚类分析法
2、动态聚类分析法模糊聚类分析法图论聚类分析法聚类预报法按照分类对象划分第5页,共60页,编辑于2022年,星期二系统聚类分析法是在样品距离的基础上定义类与类的距离,首先将个样品自成一类,然后每次将具有最小距离的两个类合并,合并后再重新计算类与类之间的距离,再并类,这个过程一直持续到所有的样品都归为一类为止。这种聚类方法称为系统聚类法。根据并类过程所做的样品并类过程图称为聚类谱系图。第6页,共60页,编辑于2022年,星期二动态聚类分析法第7页,共60页,编辑于2022年,星期二模糊聚类分析法利用模糊集理论来处理分类问题的聚类方法 第8页,共60页,编辑于2022年,星期二图论聚类分析法 利用图论
3、中最小支撑树的概念来处理分类问题的聚类方法 第9页,共60页,编辑于2022年,星期二聚类预报法利用聚类分析来处理预报问题的方法。可以弥补回归分析和判别分析的不足。第10页,共60页,编辑于2022年,星期二聚类分析方法 Q型聚类分析法 R型聚类分析法第11页,共60页,编辑于2022年,星期二Q型聚类分析法特征:对样品进行的分类处理。作用:能够综合利用多个变量对样品进行分类;分类结果直观,聚类谱系图清晰;聚类结果细致、全面、合理。第12页,共60页,编辑于2022年,星期二R型聚类分析法 第13页,共60页,编辑于2022年,星期二第二节 距离与相似系数 变量类型 数据变换处理 距离 相似系
4、数 距离以及相似系数的选择原则 第14页,共60页,编辑于2022年,星期二变量类型 名义特性:变量值是用一些类来表示的,类与类之间没有等级关系,如性别,职业等;顺序特性:变量值是用有序等级来表示的。如优秀、良好、中、及格、不及格等;数值特性:变量值是用连续的量来度量的。如长度、重量、压力等。对于不同类型的变量在定义距离相似测度时有很大的差异。这里主要研究的是具有数值特性的变量的聚类分析方法。第15页,共60页,编辑于2022年,星期二数据变换处理 原因:实际应用所使用的样本资料中,由于不同的变量具有不同的计量单位(或量纲),并且具有不同的数量级,为了使具有不同计量单位和数量级的数据能够放在一
5、起进行比较分析,通常都要对数据进行变换处理。涵义:所谓数据变换,就是将原始数据矩阵中的各个变量值,按照某种特定的运算把它变换成为一个新值,而且数值的变换不依赖于原始数据中其他变量的新值。方法:中心化变换规格化变换(极差正规化)标准化变换对数变换其他方法第16页,共60页,编辑于2022年,星期二中心化变换方法第17页,共60页,编辑于2022年,星期二规格化变换(极差正规化)第18页,共60页,编辑于2022年,星期二标准化变换 第19页,共60页,编辑于2022年,星期二对数变换 第20页,共60页,编辑于2022年,星期二其他方法极差标准化。把每个变量的样本极差皆化为1。立方根变换。把非线
6、性数据结构变为线性结构。平方根变换。把非线性数据结构变为线性结构。第21页,共60页,编辑于2022年,星期二距离 距离的条件常用距离、明氏距离、欧氏距离、绝对值距离、切比雪夫距离、兰氏距离以上距离一个共同的特点是,均没有考虑相关性。、马氏距离、其他距离第22页,共60页,编辑于2022年,星期二距离的条件第23页,共60页,编辑于2022年,星期二明氏距离(明科夫斯基)第24页,共60页,编辑于2022年,星期二欧氏距离 第25页,共60页,编辑于2022年,星期二绝对值距离 第26页,共60页,编辑于2022年,星期二切比雪夫距离 第27页,共60页,编辑于2022年,星期二兰氏距离 第2
7、8页,共60页,编辑于2022年,星期二马氏距离 第29页,共60页,编辑于2022年,星期二其他距离斜交空间距离链距离第30页,共60页,编辑于2022年,星期二相似系数 相似系数的定义常用相似系数夹角余弦相关系数指数相似系数非参数方法第31页,共60页,编辑于2022年,星期二相似系数的定义第32页,共60页,编辑于2022年,星期二夹角余弦 第33页,共60页,编辑于2022年,星期二相关系数 第34页,共60页,编辑于2022年,星期二指数相似系数 第35页,共60页,编辑于2022年,星期二非参数方法 第36页,共60页,编辑于2022年,星期二距离以及相似系数的选择原则 对于同一数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第七 聚类分析 PPT 讲稿
限制150内