聚类分析的思路和方法ppt课件.ppt
《聚类分析的思路和方法ppt课件.ppt》由会员分享,可在线阅读,更多相关《聚类分析的思路和方法ppt课件.ppt(79页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2022-8-51聚类分析Cluster Analysis2什么是聚类分析?v聚类分析是根据聚类分析是根据“物以类聚物以类聚”的道理,对样本或指的道理,对样本或指标进行分类的一种多元统计分析方法,它们讨论的标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样本,要求能合理地按各自的特性进对象是大量的样本,要求能合理地按各自的特性进行合理的分类,没有任何模式可供参考或依循,即行合理的分类,没有任何模式可供参考或依循,即在没有先验知识的情况下进行的。在没有先验知识的情况下进行的。3聚类分析的基本思想聚类分析的基本思想v基本思想是认为研究的样本或变量之间存在着程度不同的相基本思想是认为研究的样
2、本或变量之间存在着程度不同的相似性(亲疏关系)。似性(亲疏关系)。v根据一批样本的多个观测指标,找出一些能够度量样本或变根据一批样本的多个观测指标,找出一些能够度量样本或变量之间相似程度的统计量,以这些统计量作为分类的依据,量之间相似程度的统计量,以这些统计量作为分类的依据,把一些相似程度较大的样本(或指标)聚合为一类,把另外把一些相似程度较大的样本(或指标)聚合为一类,把另外一些相似程度较大的样本(或指标)聚合为一类,直到把所一些相似程度较大的样本(或指标)聚合为一类,直到把所有的样本(或指标)都聚合完毕,形成一个由小到大的分类有的样本(或指标)都聚合完毕,形成一个由小到大的分类系统。系统。
3、4聚类分析无处不在聚类分析无处不在v谁经常光顾商店,谁买什么东西,买多少?谁经常光顾商店,谁买什么东西,买多少?v按会员卡记录的光临次数、光临时间、性别、年龄、按会员卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类职业、购物种类、金额等变量分类v这样商店可以这样商店可以v识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购)习惯周末时一次性大采购)v刻画不同的客户群的特征刻画不同的客户群的特征5聚类分析无处不在v挖掘有价值的客户,并制定相应的促销策略:挖掘有价值的客户,并制定相应的促销策略:如,对经常购买酸奶的
4、客户如,对经常购买酸奶的客户对累计消费达到对累计消费达到12个月的老客户个月的老客户v针对潜在客户派发广告,比在大街上乱发传针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!单命中率更高,成本更低!6聚类分析无处不在v谁是银行信用卡的黄金客户?谁是银行信用卡的黄金客户?利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出找出“黄金客户黄金客户”!这样银行可以这样银行可以制定更具吸引力的服务,留住客户!比如:制定更具吸引力的服务,留住客户!比如:v一定额度和期限的免息透支服务!一定额度和期限的免息透支服务!v赠送百盛的贵宾打折卡!赠
5、送百盛的贵宾打折卡!v在他或她生日的时候送上一个小蛋糕!在他或她生日的时候送上一个小蛋糕!7聚类的应用领域v经济领域:经济领域:帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。模式来刻画不同的客户群的特征。谁喜欢打国际长途,在什么时间,打到那里?谁喜欢打国际长途,在什么时间,打到那里?对住宅区进行聚类,确定自动提款机对住宅区进行聚类,确定自动提款机ATM的安放位置的安放位置股票市场板块分析,找出最具活力的板块龙头股股票市场板块分析,找出最具活力的板块龙头股企业信用等级分类企业信用等级分类v生物学领
6、域生物学领域推导植物和动物的分类;推导植物和动物的分类;对基因分类,获得对种群的认识对基因分类,获得对种群的认识v数据挖掘领域数据挖掘领域作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究的类做进一步的研究8 例例 对对10位应聘者做智能检验。位应聘者做智能检验。3项指标项指标X,Y和和Z分别表示数学推理能力、空间想象能力和语分别表示数学推理能力、空间想象能力和语言理解能力。得分如下,选择合适的统计方法言理解能力。得分如下,选择合适的统计方法对应聘者进行分类。对应聘者进行分类。应聘者12345678910X28
7、181121262016142422Y29232223292322232927Z2818162226222224242491011 聚类分析根据一批样本的许多观聚类分析根据一批样本的许多观测指标,按照一定的数学公式具体地测指标,按照一定的数学公式具体地计算一些样本或一些指标的相似程度,计算一些样本或一些指标的相似程度,把相似的样本或指标归为一类,把不把相似的样本或指标归为一类,把不相似的归为一类。相似的归为一类。 12样本或变量间亲疏程度的测度样本或变量间亲疏程度的测度v研究样本或变量的亲疏程度的数量指标有两种:研究样本或变量的亲疏程度的数量指标有两种:v一种叫一种叫相似系数相似系数,性质越接
8、近的变量或样本,它,性质越接近的变量或样本,它们的相似系数越接近于们的相似系数越接近于1 1或一或一l l,而彼此无关的变量,而彼此无关的变量或样本它们的相似系数则越接近于或样本它们的相似系数则越接近于0 0,相似的为一类,相似的为一类,不相似的为不同类。不相似的为不同类。v另一种叫另一种叫距离距离,它是将每一个样本看作,它是将每一个样本看作p p维空间的维空间的一个点,并用某种度量测量点与点之间的距离,距一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。离较近的归为一类,距离较远的点应属于不同的类。13v设有设有n个样本单位,每个样本测得个样本单位,每
9、个样本测得p项指标项指标(变量),原始资料矩阵为:(变量),原始资料矩阵为:npnnppxxxxxxxxxX21222211121114定比变量的聚类统计量:距离统计量定比变量的聚类统计量:距离统计量v绝对距离绝对距离v欧式距离欧式距离v明考斯基距离明考斯基距离v兰氏距离兰氏距离v马氏距离马氏距离v切氏距离切氏距离15v1. 绝对距离(绝对距离(Block距离)距离)v2. 欧氏距离欧氏距离(Euclidean distance) pkjkikijxxd11 2112)(2pkjkikijxxd16v3. 明考斯基距离明考斯基距离(Minkowski)v4. 兰氏距离兰氏距离v5. 马氏距离马
10、氏距离v6. 切比雪夫距离切比雪夫距离(Chebychev)qpkqjkikijxxd11)( pkjkikjkikijxxxxLd1211jijiijxxSxxMdjkikpkijxxd1max)(1718v1. 相关系数相关系数v2. 夹角余弦夹角余弦2112121nkkjnkkinkkjkiijxxxxCnknkjkjikinkjkjikiijxxxxxxxxr11221)()()(定比变量的聚类统计量:相似系数统计量定比变量的聚类统计量:相似系数统计量19计数变量计数变量(Count)(离散变量)的聚类统计量(离散变量)的聚类统计量v对于计数变量或离散变量,可用于度量样本对于计数变量或
11、离散变量,可用于度量样本(或变量)之间的相似性或不相似性程度的(或变量)之间的相似性或不相似性程度的统计量主要有卡方测度(统计量主要有卡方测度(Chi-square measure)和和Phi方测度(方测度(Phi-square measure)。)。20二值二值(Binary)变量的聚类统计量变量的聚类统计量21聚类的类型v根据聚类对象的不同,分为根据聚类对象的不同,分为Q型聚类和型聚类和R型聚型聚类类。vQ型聚类:样本之间的聚类即型聚类:样本之间的聚类即Q型聚类分析,型聚类分析,则常用则常用距离距离来测度样本之间的亲疏程度。来测度样本之间的亲疏程度。vR型聚类:变量之间的聚类即型聚类:变量
12、之间的聚类即R型聚类分析,型聚类分析,常用常用相似系数相似系数来测度变量之间的亲疏程度。来测度变量之间的亲疏程度。22聚类的类型v根据聚类方法的不同分为系统聚类和根据聚类方法的不同分为系统聚类和K均值均值聚类。聚类。v系统聚类:又称为层次聚类(系统聚类:又称为层次聚类(hierarchical cluster),是指聚类过程是按照一定层次进),是指聚类过程是按照一定层次进行的。行的。vK均值聚类(均值聚类( K-means Cluster )23层次聚类层次聚类v基本思想:基本思想: 在聚类分析的开始,每个样本(或变量)自成一类;在聚类分析的开始,每个样本(或变量)自成一类;然后,按照某种方法
13、度量所有样本(或变量)之间的亲疏程然后,按照某种方法度量所有样本(或变量)之间的亲疏程度,并把最相似的样本(或变量)首先聚成一小类;接下来,度,并把最相似的样本(或变量)首先聚成一小类;接下来,度量剩余的样本(或变量)和小类间的亲疏程度,并将当前度量剩余的样本(或变量)和小类间的亲疏程度,并将当前最接近的样本(或变量)与小类聚成一类;再接下来,再度最接近的样本(或变量)与小类聚成一类;再接下来,再度量剩余的样本(或变量)和小类间的亲疏程度,并将当前最量剩余的样本(或变量)和小类间的亲疏程度,并将当前最接近的样本(或变量)与小类聚成一类;如此反复,直到所接近的样本(或变量)与小类聚成一类;如此反
14、复,直到所有样本(或变量)聚成一类为止。有样本(或变量)聚成一类为止。24v系统聚类法不仅需要度量个体与个体之间的系统聚类法不仅需要度量个体与个体之间的距离,还要度量类与类之间的距离。类间距距离,还要度量类与类之间的距离。类间距离被度量出来之后,距离最小的两个小类将离被度量出来之后,距离最小的两个小类将首先被合并成为一类。由类间距离定义的不首先被合并成为一类。由类间距离定义的不同产生了不同的系统聚类法。同产生了不同的系统聚类法。25类间距离的度量方法v最短距离法最短距离法(Nearest Neighbor)v最长距离法最长距离法(Further Neighbor)v组间平均连接法组间平均连接法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 思路 方法 ppt 课件
限制150内