聚类分析 课件.ppt





《聚类分析 课件.ppt》由会员分享,可在线阅读,更多相关《聚类分析 课件.ppt(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、聚类分析 第1页,此课件共35页哦n n聚类分析有:聚类分析有:聚类分析有:聚类分析有:n n1 1:QQ型聚类分析和型聚类分析和型聚类分析和型聚类分析和RR型聚类分析。型聚类分析。型聚类分析。型聚类分析。QQ型聚类是对样品进行聚类,型聚类是对样品进行聚类,型聚类是对样品进行聚类,型聚类是对样品进行聚类,RR型聚类是对变量进行型聚类是对变量进行型聚类是对变量进行型聚类是对变量进行聚类。聚类。聚类。聚类。n n2 2:静态聚类和动态聚类法。:静态聚类和动态聚类法。:静态聚类和动态聚类法。:静态聚类和动态聚类法。n n第二节第二节第二节第二节 距离和相似系数距离和相似系数距离和相似系数距离和相似系
2、数n n距离和相似系数有各种各样的定义。这些定义与变量的类型有着非常密切的关系。距离和相似系数有各种各样的定义。这些定义与变量的类型有着非常密切的关系。距离和相似系数有各种各样的定义。这些定义与变量的类型有着非常密切的关系。距离和相似系数有各种各样的定义。这些定义与变量的类型有着非常密切的关系。n n一、变量的一、变量的一、变量的一、变量的 类型类型类型类型 1 1、间隔尺度:变量是用连续的量来表示的,如长度、重量、速度,温度等。、间隔尺度:变量是用连续的量来表示的,如长度、重量、速度,温度等。、间隔尺度:变量是用连续的量来表示的,如长度、重量、速度,温度等。、间隔尺度:变量是用连续的量来表示
3、的,如长度、重量、速度,温度等。n n2 2、顺序尺度:变量度量时不用明确的数值表示,而是用等级来表示,等级之间有次、顺序尺度:变量度量时不用明确的数值表示,而是用等级来表示,等级之间有次、顺序尺度:变量度量时不用明确的数值表示,而是用等级来表示,等级之间有次、顺序尺度:变量度量时不用明确的数值表示,而是用等级来表示,等级之间有次序关系;如产品分为一、二、三等。序关系;如产品分为一、二、三等。序关系;如产品分为一、二、三等。序关系;如产品分为一、二、三等。n n3 3、名义尺度:变量度量时既没有数量表示,也没有次序关系,如物体有红、黄、蓝、名义尺度:变量度量时既没有数量表示,也没有次序关系,如
4、物体有红、黄、蓝、名义尺度:变量度量时既没有数量表示,也没有次序关系,如物体有红、黄、蓝、名义尺度:变量度量时既没有数量表示,也没有次序关系,如物体有红、黄、蓝三种颜色;医学化验中的阴性和阳性,性别的男性和女性等。三种颜色;医学化验中的阴性和阳性,性别的男性和女性等。三种颜色;医学化验中的阴性和阳性,性别的男性和女性等。三种颜色;医学化验中的阴性和阳性,性别的男性和女性等。n n下面给出具有间隔尺度变量的距离和相似系数的定义。下面给出具有间隔尺度变量的距离和相似系数的定义。下面给出具有间隔尺度变量的距离和相似系数的定义。下面给出具有间隔尺度变量的距离和相似系数的定义。第2页,此课件共35页哦一
5、、距离设有n个样品,每个样品测得p项指标,其原始资料阵如下:对样品分类常用的距离:对样品分类常用的距离:如果把n个样品(X中的n个行)看成是p维空间的n个点,则两个样品间相似程度可用 p维空间中两点的距离来度量,用 表示第i个样品点与第j个样品点之间的距离。1、明考夫斯基(Minkowski)距离 当q=1时,称为绝对值距离当q=2时,称为欧氏(Euclid)距离 当q=时,Chebyshev距离第3页,此课件共35页哦但它存在两方面的缺陷:第一,它与各指标的量纲有关;第二,它没有考虑指标之间的相关性。应先对各变量的数据进行标准化处理,然后用标准化后的数据计算距离。2、马氏(Mahalanob
6、is)距离马氏距离既排除了变量之间相关性的干扰,而且还不受各变量计量单位的影响。3、兰氏(LanceWilliams)距离当 时,但仍没有考虑指标间的相关性。由于它对大的异常值不敏感,故适用于高度偏斜的数据。第4页,此课件共35页哦具有以下几个性质 对一切i,j 1.2.当且仅当第i个样品与第j个样品的各变量值相同 3.对一切i,j 4.对于一切i,j,k如果把任何两个样品之间的距离 都算出来后,可排列成矩阵D 根据D可对n个样品进行分类,距离近的点归为一类,距离远的点归为不同的类。以上距离的定义均要求变量是间隔尺度的,如果使用的是有序尺度或名义尺度,则有相应的定义距离的方法。第5页,此课件共
7、35页哦例如:某高校举办了一个培训班,从学员的资料中得到这样4个变量:性别(男、女),专业(经济类,非经济类),职业(教师,非教师),学历(大学本科,大学本科以下),现有两名学员,其四个变量的取值分别为 二、相似系数二、相似系数1、夹角余弦这是受相似型的启发而来 i,j=1,2,p第6页,此课件共35页哦2、相关系数如果数据已标准化了,则变量之间的夹角余弦就是相关系数。相似系数有下列性质 1.对于一切的i,j ,当且仅当 为常数时,2.对于一切的i,j 变量之间常借助相似系数来定义距离,如令 如果把两两之间的相似系数都算出来后,可排列成矩阵 相似系数大的归为一类,相似系数小的归为不同的类。第7
8、页,此课件共35页哦 第三节第三节第三节第三节 无量纲化方法无量纲化方法无量纲化方法无量纲化方法n n各样品或指标的观测值因量纲不同,或量纲虽相同,但数量级不同,直接用各样品或指标的观测值因量纲不同,或量纲虽相同,但数量级不同,直接用各样品或指标的观测值因量纲不同,或量纲虽相同,但数量级不同,直接用各样品或指标的观测值因量纲不同,或量纲虽相同,但数量级不同,直接用原始数据进行一系列计算就会突出那些绝对值大的变量的作用而削弱那些绝原始数据进行一系列计算就会突出那些绝对值大的变量的作用而削弱那些绝原始数据进行一系列计算就会突出那些绝对值大的变量的作用而削弱那些绝原始数据进行一系列计算就会突出那些绝
9、对值大的变量的作用而削弱那些绝对值小的变量的作用,因此,在计算之前,应对原始数据进行无量纲处理。对值小的变量的作用,因此,在计算之前,应对原始数据进行无量纲处理。对值小的变量的作用,因此,在计算之前,应对原始数据进行无量纲处理。对值小的变量的作用,因此,在计算之前,应对原始数据进行无量纲处理。当对样品进行分析时,应按列进行无量纲处理当对样品进行分析时,应按列进行无量纲处理当对样品进行分析时,应按列进行无量纲处理当对样品进行分析时,应按列进行无量纲处理.n n1 1、标准化变换(标准差标准化)、标准化变换(标准差标准化)、标准化变换(标准差标准化)、标准化变换(标准差标准化)其中:n n特点:标
10、准化后每一列变量是平均值为特点:标准化后每一列变量是平均值为0 0,方差为,方差为1 1,且与变量的量纲无关。,且与变量的量纲无关。2 2、极差标准化(极差正规化)、极差标准化(极差正规化)i=1,2,n j=1,2,p特点:经过变化后,每列变量的最大值为1,最小值为0,其余数据在01中间,且消除了量纲的影响。第8页,此课件共35页哦n n3 3、功效系数法、功效系数法n n功效系数法是利用特定的方法将每个指标的原始数据转化为用百功效系数法是利用特定的方法将每个指标的原始数据转化为用百分制表示的数值。这种方法不仅可以对每一指标进行直接比较,分制表示的数值。这种方法不仅可以对每一指标进行直接比较
11、,还可以解决不同性质的指标综合问题。还可以解决不同性质的指标综合问题。n n其步骤为:其步骤为:n n(1 1)对每一个指标确定一个满意值和不允许值)对每一个指标确定一个满意值和不允许值n n(2 2)以满意值和不允许值的差额作为分母计算功效系数)以满意值和不允许值的差额作为分母计算功效系数n n其计算公式;其计算公式;变换后指标的取值在0100之间。第9页,此课件共35页哦产品销售率产品销售率(%)可比产品成本降低率可比产品成本降低率(%)全员劳动全员劳动生产率生产率(千元(千元/人)人)甲甲乙乙丙丙丁丁戊戊757585856060686873733 32 2-1-10 01 19 9121
12、26 67 78 8例如:给出5个地区下属3个指标,为进行聚类分析,需对它们做数据处理:第10页,此课件共35页哦n n 功效系数表功效系数表产品销售率产品销售率(%)可比产品成本降低率可比产品成本降低率(%)全员劳动生产率(千元全员劳动生产率(千元/人)人)满意值满意值1001005 51515不允许值不允许值50500 05 5甲甲乙乙丙丙丁丁戊戊8080888868687474787884847676525260606868767688886464686872724、相对化变换第11页,此课件共35页哦第四节第四节 系统聚类法系统聚类法n n一、一、一、一、QQ型系统聚类法的基本思想和聚
13、类步骤型系统聚类法的基本思想和聚类步骤型系统聚类法的基本思想和聚类步骤型系统聚类法的基本思想和聚类步骤n n其基本思想是:其基本思想是:其基本思想是:其基本思想是:开始时先将开始时先将开始时先将开始时先将n n个样品点各自作为一类,计算它们之间的距离,个样品点各自作为一类,计算它们之间的距离,个样品点各自作为一类,计算它们之间的距离,个样品点各自作为一类,计算它们之间的距离,然后将距离最近的两类合并为一个新类,计算新类与其它类的距离,重复然后将距离最近的两类合并为一个新类,计算新类与其它类的距离,重复然后将距离最近的两类合并为一个新类,计算新类与其它类的距离,重复然后将距离最近的两类合并为一个
14、新类,计算新类与其它类的距离,重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为所需类数进行两个最近类的合并,每次减少一类,直至所有的样品合并为所需类数进行两个最近类的合并,每次减少一类,直至所有的样品合并为所需类数进行两个最近类的合并,每次减少一类,直至所有的样品合并为所需类数为止,所以系统聚类法也称逐步聚类法。其步骤如下:为止,所以系统聚类法也称逐步聚类法。其步骤如下:为止,所以系统聚类法也称逐步聚类法。其步骤如下:为止,所以系统聚类法也称逐步聚类法。其步骤如下:n n步骤一:聚类前先对数据进行变换处理,消除量纲对数据的影响;步骤一:聚类前先对数据进行变换处理,消除量纲对数据的影
15、响;步骤一:聚类前先对数据进行变换处理,消除量纲对数据的影响;步骤一:聚类前先对数据进行变换处理,消除量纲对数据的影响;n n步骤二:将各样品点自成一类(步骤二:将各样品点自成一类(步骤二:将各样品点自成一类(步骤二:将各样品点自成一类(n n个样品共有个样品共有个样品共有个样品共有n n类),计算各样品点之间的距离,并类),计算各样品点之间的距离,并类),计算各样品点之间的距离,并类),计算各样品点之间的距离,并将最近的两个样品点并成一个新类;将最近的两个样品点并成一个新类;将最近的两个样品点并成一个新类;将最近的两个样品点并成一个新类;n n步骤三:计算新类与其它类的距离步骤三:计算新类与
16、其它类的距离步骤三:计算新类与其它类的距离步骤三:计算新类与其它类的距离,将距离最近的两类合并,重复上述作法,将距离最近的两类合并,重复上述作法,将距离最近的两类合并,重复上述作法,将距离最近的两类合并,重复上述作法,直至所有样品点归为所需类数为止;直至所有样品点归为所需类数为止;直至所有样品点归为所需类数为止;直至所有样品点归为所需类数为止;n n步骤四:绘出系统聚类图。步骤四:绘出系统聚类图。步骤四:绘出系统聚类图。步骤四:绘出系统聚类图。n nQQ型系统聚类方法取决于类与类之间距离的选择,由于类与类之间距离的定义型系统聚类方法取决于类与类之间距离的选择,由于类与类之间距离的定义型系统聚类
17、方法取决于类与类之间距离的选择,由于类与类之间距离的定义型系统聚类方法取决于类与类之间距离的选择,由于类与类之间距离的定义有多种,不同的选择就会产生不同的聚类方法。有多种,不同的选择就会产生不同的聚类方法。有多种,不同的选择就会产生不同的聚类方法。有多种,不同的选择就会产生不同的聚类方法。第12页,此课件共35页哦n n二、聚类方法二、聚类方法n n(一)最短距离法(一)最短距离法(一)最短距离法(一)最短距离法在容量为n的样本数据矩阵中,用 表示第 i个样品与第j个样品之间的距离用 表示初始类 3 1 2 4 5其具体聚类步骤为:用 表示 与 的距离,规定两类之间的距离为一个类的所有个体与另
18、一个类的所有个体之间距离的最小者。第13页,此课件共35页哦(1)规定样品之间的距离的计算方法,计算n个样品点中两两之间的距离 得样品矩阵,初始时每个样品自成一类,显然(2)找出中非对角线最小元素,设为 于是将 与 并类,记为(3)计算新类 与任一类 之间的距离 这样可得第一次并类矩阵(4)将 重复上述(2)、(3)的做法,得 如此下去,直到所有的元素并成一类为止。第14页,此课件共35页哦例例1:设有5个样品,每个样品只观测一个指标,分别为1、2、3.5、7、9,试用最短距离法对5个样品进行分类。(定义两样品之间的距离为绝对距离)G G1 1 G G2 2 G G3 3 G G4 4 G G
19、5 5GG1 1GG2 2GG3 3GG4 4GG5 50 1 0 2.5 1.5 06 5 3.5 08 7 5.5 2 0 G G6 6 G G3 3 G G4 4 G G5 5GG6 6GG3 3GG4 4GG5 50 1.5 05 3.5 07 5.5 2 0 G G7 7 G G8 8GG7 7GG8 8 0 3.5 0 G G7 7 G G4 4 G G5 5GG7 7GG4 4GG5 5 0 3.5 0 5.5 2 0第15页,此课件共35页哦 0 1 2 3 4 Label +-+-+-+-+样品1样品2样品3样品4样品5(二)最长距离法用 表示 的距离,规定两类之间的距离为一
20、个类的所有个体与另一个类的所有个体之间距离的最大者。1.2.3.4.5最长距离法和最短距离法的并类步骤相同.第16页,此课件共35页哦例:例:设有5个样品,每个样品只观测一个指标,分别为1、2、3.5、7、9,试用最长距离法对它们进行分类。(定义两样品之间的距离为绝对距离)G G1 1 G G2 2 G G3 3 G G4 4 G G5 5GG1 1GG2 2GG3 3GG4 4GG5 50 1 0 2.5 1.5 06 5 3.5 08 7 5.5 2 0 G G1 1 G G3 3 G G4 4 G G5 5GG6 6GG3 3GG4 4GG5 50 2.5 06 3.5 08 5.5 2
21、 0 G G6 6 G G3 3 G G7 7GG6 6GG3 3GG7 70 2.5 08 5.5 0 G G8 8 G G7 7GG8 8GG7 708 0第17页,此课件共35页哦 0 2 4 6 8 Label +-+-+-+-+样品1样品2样品3样品4样品5(三)中间距离法类与类之间的距离既不取两类最近样品间的距离,也不取两类最远样品间的距离,而是取介于两者中间的距离,故称中间距离法。如果在某一步将类 与 合并为 第18页,此课件共35页哦由于都是用距离的平方计算新类与其他类的距离的,所以开始 的元素一律改写为 其并类步骤与最短距离法大致相同。例:设有5个样品,每个样品只观测一个指标
22、,分别为1、2、3.5、7、9,试用中间距离法对它们进行分类。(样品之间的距离为欧氏距离的平方)G G1 1 G G2 2 G G3 3 G G4 4 G G5 5GG1 1GG2 2GG3 3GG4 4GG5 50 1 0 6.25 2.25 036 25 12.25 064 49 30.25 4 0 G G6 6 G G3 3 G G4 4 G G5 5GG6 6GG3 3GG4 4GG5 504 030.25 12.25 056.25 30.25 4 0 G G7 7 G G4 4 G G5 5GG7 7GG4 4GG5 5020.25 042.25 4 0 G G7 7 G G8 8G
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 课件

限制150内