聚类分析金融证券期货金融证券期货.pdf
《聚类分析金融证券期货金融证券期货.pdf》由会员分享,可在线阅读,更多相关《聚类分析金融证券期货金融证券期货.pdf(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 页眉内容 聚类分析(一)聚类分析基本概念(1)有若干个变量(或指标),例 3-1的 2 个变量是样本均值和样本标准差;例 3-2的变量是对式样、图案、颜色、材料的态度;例 3-3的变量是销售增长、销售利润和新客户销售额;例3-4的变量是出生率、死亡率和婴儿死亡率;。这些变量称为自变量或聚类变量。(2)有若干次观测,每次观测值由若干个数值组成,每次观测值称为1 个个体或 1 个样品:例 3-1其观测次数共有 4 次(甲、乙、丙、丁),其观测值都是 2 个值组成:第 1 次观测(第 1 个样品)是向量(18.002 0.003),第 2 次观测(第 2 个样品)是(17.997 0.004),。
2、例 3-2有 5 次观测(5 位顾客),每人 4 项指标;例 3-3、3-4、3-5,的变量各有 50、97、39 次观测值;而例 3-6将许多次原始观测整理为协方差阵,并未提供原始观测数据。(3)要求分类(或分组):例 3-3、3-4要求把观测值分为 3 类,而例 3-1和例 3-2则不限定观测值分为几类;例 3-1、3-2、3-3、3-4要求按观测值分类,而例 3-5,3-6要求按变量分类。因为是把大量的样品变为少量的类,通常这种分类称为聚类。(二)聚类原理 1)聚类原则 选定观测值(点)间距离,类间距离,按照距离最近两类合并在一起的原则合并。(也有用相似远离)。常用聚类方法分为:(1)系
3、统聚类 MINITAB译为观测值聚类(得到谱系图或树状图)(2)动态聚类 MINITAB译为 K均值聚类。可由统计多变量观测值聚类,统计多变量K均值聚类分别进入。2)常用点间距离(距离度量)有时先把数据标准化再聚类以免单位影响,例如 x1 观测值 3,2,1,0,-1;x2 取值 30,20,10,0,-10。X1均值 1,样本标准差 1.581;将 x1 观测值减去平均值 1,除以 1.581,得到 1.26502,0.63251,0.00000,-0.63251,-1.26502;1.26502,0.63251,0.00000,-0.63251,-1.26502是 3,2,1,0,-1的标
4、准化。X2标准化后也得到 1.26502,0.63251,0.00000,-0.63251,-1.26502。标准化后的数与单位无关。系统聚类从“统计多变量观测值聚类”进入观测值聚类框;点间距离,类间距离根据情况选取。动态聚类从“统计多变量K均值聚类”进入 K均值聚类框;点间距离固定为 Euclidean,类间距离固定为质心法,无需再选取。(1)欧氏距离 页眉内容 欧氏(Euclidean)距离定义为:m2ijikjkk=1d=(x-x),(,1,)i jn (3-2)欧氏距离是聚类分析中使用最广泛的距离,上式也称为简单欧氏距离。另一种常用的形式是平方欧氏距离,即取上式的平方,记为2ijd。平
5、方欧氏距离的优点是,因为不再计算平方根,不仅理论上简单,而且提高了计算机的运算速度。(2)Pearson距离 欧氏距离虽然使用最为广泛,但是该距离是有量纲的,而且它与各变量的量纲有关,因而从数值上说,各维之间可能因单位而相差悬殊;也没有考虑各变量方差的不同。从欧氏距离的定义中易见,方差大的变量在距离中的作用(贡献)就会大。为此我们引入了 Pearson距离的概念。m2ijikjkkk=1d=(x-x)/V(,1,)i jn,(3-3)其中kV是第k个变量的方差。这个距离考虑到了各个变量的不同标准差,但未考虑各变量间可能存在的相关。对上式取平方,就得到 Pearson平方距离。(3)绝对值距离(
6、又称为 Manhattan distance)绝对值距离定义为:mijikjkk=1d=x-x,(,1,)i jn (3-4)绝对值距离是一个应用很广泛的距离,它具有稳健性:野点的影响较小。平方绝对值距离是对上式取平方。(4)马氏距离(Mahalanobis distance)欧氏距离、Pearson 距离和绝对值距离都没有考虑变量间的相关性:当变量之间不相关时效果较好,如果变量之间相关,则聚类结果往往不够好,为此考虑马氏距离。设样本方差阵为S,设ijX,X是 2个样品所成向量。则ijX,X的马氏距离是-1ijij(X-X)S(X-X)(3-5)有时为了避免开平方,称-1ijij(X-X)S(
7、X-X)为平方马氏距离。严格地说,由于样品属于多个类,计算样本总协方差阵S应当按第 2 章式(2-3)即各样本协方差阵iS的加权平均计算,但由于聚类过程结束前,真正分类无法知道,通常按(3-5)计算,即按全体样本合为 1 类计算样本协方差阵。马氏距离的优点是能消除变量间的相关性带来的不利影响。色材料的态度例的变量是销售增长销售利润和新客户销售额例的变量是出生率死亡率和婴儿死亡率这些变量称为自变量或聚类变量有若干次观测每次观测值由若干个数值组成每次观测值称为个个体或个样品例其观测次数共有次甲乙各有次观测值而例将许多次原始观测整理为协方差阵并未提供原始观测数据要求分类或分组例要求把观测值分为类而例
8、和例则不限定观测值分为几类例要求按观测值分类而例要求按变量分类因为是把大量的样品变为少量的类通常这相似远离常用聚类方法分为系统聚类译为观测值聚类得到谱系图或树状图动态聚类译为均值聚类可由统计多变量观测值聚类统计多变量均值聚类分别进入常用点间距离距离度量有时先把数据标准化再聚类以免单位影响例如观测值取 页眉内容(5)配合距离 以上几种距离的定义均要求变量是连续型的,如果使用的变量是有序尺度或名义尺度变量,则也要有相应的一些定义距离的方法。下例说明如何对一类向量定义距离:这类向量的分量为名义尺度变量。设有两个向量:),()1(HVGAPX,),()2(HVGBQX 它们的 5 个分量均为名义尺度变
9、量:第 1 个分量分别取值P和Q,称第 1 个变量值不配合;第 2 个分量分别取值A和B,称第 2 个变量值不配合;第 3 个分量取相同值G,第 4 个分量取相同值V,第 5个分量取相同值H,称第 3,4,5个分量值配合。定义两个向量之间的配合距离为 2/(2+3)。一般的,设1m为两个向量样品配合的分量数,2m为不配合的分量数,则可定义两个样品之间的配合距离为:例 3-2中 5 名顾客 表 5 名顾客对某服装的看法表 顾客 式样 图案 颜色 材料 1 0 1 0 1 2 1 1 1 1 3 1 1 0 0 4 1 0 1 1 5 1 0 1 0 例 3-2中 5 名顾客间的不配合数(看法不同
10、处)形成矩阵,列在表 3-3中。表 3-3例 3-2不配合数矩阵 顾客 1 顾客 2 顾客 3 顾客 4 顾客 5 顾客 1 0 2 2 3 4 顾客 2 2 0 2 1 2 顾客 3 2 2 0 3 2 顾客 4 3 1 3 0 1 顾客 5 4 2 2 1 0 因为例 3-2配合数与不配合数之和总和为 4。所以例 3-2顾客间的配合距离矩阵如表 3-4 所示(原始数据在表 3-2,数据文件:MV_服装顾客.MTW)表 3-4 例 3-2配合距离矩阵 顾客 1 顾客 2 顾客 3 顾客 4 顾客 5 顾客 1 0 0.5 0.5 0.75 1 顾客 2 0.5 0 0.5 0.25 0.5
11、顾客 3 0.5 0.5 0 0.75 0.5 顾客 4 0.75 0.25 0.75 0 0.25 顾客 5 1 0.5 0.5 0.25 0 3)常用类间距离(联接法)色材料的态度例的变量是销售增长销售利润和新客户销售额例的变量是出生率死亡率和婴儿死亡率这些变量称为自变量或聚类变量有若干次观测每次观测值由若干个数值组成每次观测值称为个个体或个样品例其观测次数共有次甲乙各有次观测值而例将许多次原始观测整理为协方差阵并未提供原始观测数据要求分类或分组例要求把观测值分为类而例和例则不限定观测值分为几类例要求按观测值分类而例要求按变量分类因为是把大量的样品变为少量的类通常这相似远离常用聚类方法分为
12、系统聚类译为观测值聚类得到谱系图或树状图动态聚类译为均值聚类可由统计多变量观测值聚类统计多变量均值聚类分别进入常用点间距离距离度量有时先把数据标准化再聚类以免单位影响例如观测值取 页眉内容(1)最短距离法(SINgle linkage)定义类与类之间的距离为两类内最近样品间的距离,即,minpqpqiji Gj GDd(这里piG表示()ipXG,以下同)(3-13)称这种系统聚类法为最短距离法。(2)最长距离法(COMplete method)类与类之间的距离定义为两类内相距最远的样品间的距离,即:,maxpqpqiji Gj GDd (3-14)称这种系统聚类法为最长距离法。(3)中间距离
13、法(MEDian method)如果类与类之间的距离既不采用两类内样品间的最近距离,也不采用两类内样品间的最远距离,而是采用类似于三角形中线公式的计算类之间的距离方法,这种方法称为中间距离法(应当译为中线法)。当某步骤类pG和qG合并成rG后,按中间距离法计算新类rG与其它类kG的类间距离,其递推公式为 2222()rkpkqkpq1DDDD2 (1/40,)kp q,(3-15)常取1/4。(4)重心法或质心法(Centroid method)每一类的重心就是属于该类的所有样品的均值向量。将两类间的距离定义为两类重心间的距离,这种距离方法称为重心法。重心法一般采用欧氏距离定义样品间的距离。重
14、心法比其它系统聚类方法考虑得更全面。其主要缺点是在聚类过程中,不能保证合并的类之间的距离值呈单调增加的趋势,也即本次合并的两类之间的距离可能小于上一次合并的两类之间的距离,在树状图上会出现图形逆转;也不能保证相似性水平呈单调减少的趋势。(5)类平均法(AVErage linkage)类平均法有两种定义,一种定义方法是把类与类之间的距离定义为所有样品对之间的平均距离,即,1pqpqiji Gj GpqDdn n,(3-16)其中,pqnn分别为类pG和类qG的样品个数。简称为平均法。另一种定义方法为定义类与类之间的平方距离为样品对之间平方距离的平均值,即 22,1pqpqiji Gj GpqDd
15、n n (3-17)色材料的态度例的变量是销售增长销售利润和新客户销售额例的变量是出生率死亡率和婴儿死亡率这些变量称为自变量或聚类变量有若干次观测每次观测值由若干个数值组成每次观测值称为个个体或个样品例其观测次数共有次甲乙各有次观测值而例将许多次原始观测整理为协方差阵并未提供原始观测数据要求分类或分组例要求把观测值分为类而例和例则不限定观测值分为几类例要求按观测值分类而例要求按变量分类因为是把大量的样品变为少量的类通常这相似远离常用聚类方法分为系统聚类译为观测值聚类得到谱系图或树状图动态聚类译为均值聚类可由统计多变量观测值聚类统计多变量均值聚类分别进入常用点间距离距离度量有时先把数据标准化再聚
16、类以免单位影响例如观测值取 页眉内容 MINTTAB 中使用的是第一种距离定义方法(3-16)来进行类平均聚类。(6)离差平方和法(WARD)假设已经将n个样品分为k类,()tX表示tG的重心,()()tiX表示tG中第i个样品(1,)tin,则tG中样品的离差平方和为:()()()()()()1()()tntttttiiiWXXXX,(3-18)其中()()(),ttiXX为m维向量,tW为一数值(1,)tk,代表tG类内的分散程度。k个类的总离差平方和为:()()()()()()111()()tnkktttttiittiWWXXXX (3-19)它们反映了各类内样品的分散程度的总和。设某一
17、步将类pG和qG合并成rG,而pG、qG和rG类中样品的离差平方和分别为pW、qW和rW。如果pG和qG这两类相距较近,则合并之后所增加的离差平方和rpqWWW应较小;否则,应较大。于是我们定义pG和qG之间的平方距离为:2()pqrpqDWWW (3-20)按照这种原则实施系统聚类的方称为法称为离差平方和法或 Ward 方法。可以验证,定义(3-20)满足通常定义距离所需的三个条件(见 3.2.2.1)。重心法的类间距离与两类的样品数无关,而离差平方和法的类间距离与两类的样品数有较大的关系,两个大的类倾向于有较大的距离,因而不易合并,这往往符合我们对聚类的实际要求。离差平方和法在许多场合下优
18、于重心法,是比较好的一种系统聚类法,但它对异常值较敏感。(7)McQuitty 相似分析法(MCQ)当某一步将类pG和qG合并成rG后,McQuitty 相似分析法把rG与其它类kG的距离定义为:222()/2rkpkqkDDD (3-21)又称为简单平均法。在进行聚类分析的过程中,上述 5 种点间距离,7 种类间距离的定义方法各有优缺点,很难保证说哪种定义方法一定最优,因此应根据实际情况选取合适的类间距离定义。如果无法从机理上进行选取,则可以都试验一下,再根据结果的合理性来选取之。表 MINITAB供选择点间距离 MINITAB记号 实际使用距离 色材料的态度例的变量是销售增长销售利润和新客
19、户销售额例的变量是出生率死亡率和婴儿死亡率这些变量称为自变量或聚类变量有若干次观测每次观测值由若干个数值组成每次观测值称为个个体或个样品例其观测次数共有次甲乙各有次观测值而例将许多次原始观测整理为协方差阵并未提供原始观测数据要求分类或分组例要求把观测值分为类而例和例则不限定观测值分为几类例要求按观测值分类而例要求按变量分类因为是把大量的样品变为少量的类通常这相似远离常用聚类方法分为系统聚类译为观测值聚类得到谱系图或树状图动态聚类译为均值聚类可由统计多变量观测值聚类统计多变量均值聚类分别进入常用点间距离距离度量有时先把数据标准化再聚类以免单位影响例如观测值取 页眉内容 框名:距离量度 指定 MI
20、NITAB使用距离 Euclidean 欧式距离 Manhattan 绝对值距离 Pearson Pearson 距离 Pearson 平方 Pearson 距离的平方 Euclidean 平方 欧式距离的平方 表 MINITAB供选择类间距离 MINITAB记号 实际使用距离 框名:联结法 类间距离 最短距离 最短距离法 平均 类平均法 质心 质心法 最长距离 最长平均法 简单平均 McQuitty 相似分析法 中间距离 中间距离法 离差平方和 离差平方和法(三)实例 例 3-1设某零件标准长度为 18。检验 4 家供货商提供的产品,得到的数据如表(数据文件:MV_零件聚类.MTW)。试对这
21、 4 家产品聚类。表 3-1 4家供货商提供的产品数据 供货商 样本均值 样本标准差 甲 18.002 0.003 乙 17.997 0.004 丙 18.05 0.002 丁 18.2 0.5 解 点间距离采用绝对值距离(Manhattan),类间距离采用最短距离法,用系统聚类法聚类。具体步骤是:先将表中给出的数据输入工作表;然后采用指令:从“统计 多变量 观测值聚类(Stat Multivariate Cluster Observations)”进入“观测值聚类”对话框,在“变量或距离矩阵(Variables or distance matrix)”中填入“样本均值 样本标准差”,在“联结
22、法(Linkage Method)”窗中选择“最短距离(Single)”,在“距离量度(Distance Measure)”中选择“Manhattan(绝对值)”。选中“标准化变量(Standardize variables)”,在“指定最终分类,按(Specify Final Partition by)”中选择聚类数,并且指定为“1”(最终聚为 1 类),选中“显示树状图(Show dendrogram)”。打开“自定义(Customize)”窗,弹出“观测值聚类树状图自定义”对话框,在“标题(Title)”一栏里填入“零件聚类树状图”,在“大小写标签(Case labels)”一栏里填入“
23、供货商”(用以指明横轴),在“轴标签指标为(Label Y Axis with)”选择“相似性(Similarity)”(用以得到相似性以便确定类数),在色材料的态度例的变量是销售增长销售利润和新客户销售额例的变量是出生率死亡率和婴儿死亡率这些变量称为自变量或聚类变量有若干次观测每次观测值由若干个数值组成每次观测值称为个个体或个样品例其观测次数共有次甲乙各有次观测值而例将许多次原始观测整理为协方差阵并未提供原始观测数据要求分类或分组例要求把观测值分为类而例和例则不限定观测值分为几类例要求按观测值分类而例要求按变量分类因为是把大量的样品变为少量的类通常这相似远离常用聚类方法分为系统聚类译为观测值
24、聚类得到谱系图或树状图动态聚类译为均值聚类可由统计多变量观测值聚类统计多变量均值聚类分别进入常用点间距离距离度量有时先把数据标准化再聚类以免单位影响例如观测值取 页眉内容“显示树状图于(Show Dendrogram in)”选择“一个图形(One graph)”,对各框点击“确定(OK)”(界面见图 3-2)。图 3-2 观测值聚类最短距离法 MINITAB 操作图 得到最小距离法树状图(如图 3-3)。图 3-3 最小距离法树状图 从图 3-3可见,未聚类前有 4 类,各家产品自成 1类:甲是第 1 类,样本均值有小的正偏差,精度高;乙是第 2类,样本均值有小的负偏差,精度高;丙是第 3
25、类,样本均值有较大的正偏差,精度高;丁是第 4类,样本均值有大的正偏差,精度差。聚类第 1 步,甲乙两家聚成 1类,即样本均值误差小,精度高的类,其余 2家各成1 类。聚类第 2步,甲乙丙三家(精度高的类)聚成 1 类,其余丁自成 1类。聚类第 3步,甲乙丙丁聚成 1类,即全部产品。当观测值个数较多时,以会话区的聚类过程分类为好 例 3-3某公司 10 名销售人员业绩(包括销售增长、销售利润及新客户销售额 3 项指标)数据见网络参考资料下表,数据文件:MV_业绩.MTW,试根据业绩将这 10 人类。系统聚类,分多 10 类,用欧式距离,质心法 销售人员 销售增长 销售利润 新客户销售额 1 9
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 金融证券 期货
限制150内