应用多元统计分析第六章习题解答.ppt
应用多元统计分析应用多元统计分析第六章部分习题解答第六章部分习题解答1 第六章第六章 聚类分析聚类分析 6-1 证明下列结论证明下列结论:(1)(1)两个距离的和所组成的函数仍是距离两个距离的和所组成的函数仍是距离;(2)(2)一个正常数乘上一个距离所组成的函数一个正常数乘上一个距离所组成的函数仍是距离仍是距离;(3)(3)设设d为一个距离为一个距离,c0 0为常数为常数,则则仍是一个距离仍是一个距离;(4)(4)两个距离的乘积所组成的函数不一定是两个距离的乘积所组成的函数不一定是距离距离;2第六章第六章 聚类分析聚类分析(2)设设d是是距离距离,a 0为为正常数正常数.令令d*=ad,显然有显然有3第六章第六章 聚类分析聚类分析故故d*=ad是一个距离是一个距离.(3)设设d为一个距离为一个距离,c0 0为常数为常数,显然有显然有4第六章第六章 聚类分析聚类分析故故d*是一个距离是一个距离.5第六章第六章 聚类分析聚类分析6第六章第六章 聚类分析聚类分析6-2 试证明二值变量的相关系数为试证明二值变量的相关系数为(6.2.2)式,夹角式,夹角余弦为余弦为(6.2.3)式式.证明:证明:设变量设变量Xi和和Xj是二值变量,它们的是二值变量,它们的n次观测值记次观测值记为为xti,xtj(t=1,n).xti,xtj 的值或为的值或为0,或为,或为1.由二值由二值变量的列联表(表变量的列联表(表6.5)可知:变量)可知:变量Xi取值取值1的观测次的观测次数为数为a+b,取值取值0的观测次数为的观测次数为c+d;变量变量Xi和和Xj取值均为取值均为1的观测次数为的观测次数为a,取值均为取值均为0的观测次数为的观测次数为d 等等。利用等等。利用两定量变量相关系数的公式:两定量变量相关系数的公式:7第六章第六章 聚类分析聚类分析8第六章第六章 聚类分析聚类分析故二值变量的相关系数为:故二值变量的相关系数为:(6.2.2)9第六章第六章 聚类分析聚类分析利用两定量变量夹角余弦的公式:利用两定量变量夹角余弦的公式:其中其中故有故有10第六章第六章 聚类分析聚类分析6-3 下面是下面是5个样品两两间的距离阵个样品两两间的距离阵试用最长距离法、类平均法作系统聚类,并画出谱系试用最长距离法、类平均法作系统聚类,并画出谱系聚类图聚类图.解解:用最长距离法用最长距离法:合并合并X(1),X(4)=CL4,并类距离并类距离 D1=1.11第六章第六章 聚类分析聚类分析 合并合并X(2),X(5)=CL3,并类距离并类距离 D2=3.合并合并CL3,CL4=CL2,并类距离并类距离 D3=8.所有样品合并为一类所有样品合并为一类CL1,并类距离并类距离 D4=10.12第六章第六章 聚类分析聚类分析最长距离法的谱系聚类图如下最长距离法的谱系聚类图如下:13第六章第六章 聚类分析聚类分析 合并合并X(1),X(4)=CL4,并类距离并类距离 D1=1.用类平均法用类平均法:14第六章第六章 聚类分析聚类分析 合并合并X(2),X(5)=CL3,并类距离并类距离 D2=3.合并合并CL3,CL4=CL2,并类距离并类距离 D3=(165/4)1/2.所有样品合并为一类所有样品合并为一类CL1,并类距离并类距离 D4=(121/2)1/2.15第六章第六章 聚类分析聚类分析类平均法的谱系聚类图如下类平均法的谱系聚类图如下:16第六章第六章 聚类分析聚类分析6-4 利用距离平方的递推公式利用距离平方的递推公式来证明当来证明当0,p0,q0,p+q+1时时,系统聚类中的类系统聚类中的类平均法、可变类平均法、可变法、平均法、可变类平均法、可变法、Ward法的单调性法的单调性.证明:证明:设第设第L次合并次合并Gp和和Gq为新类为新类Gr后后,并类距离并类距离DL Dpq,且必有且必有Dpq2Dij2.新类新类Gr与其它类与其它类Gk的距离平方的距离平方的递推公式的递推公式,当当0,p0,q0,p+q+1 时时 这表明新的距离矩阵中类间的距离均这表明新的距离矩阵中类间的距离均 Dpq DL,故有故有DL1 DL,即相应的聚类法有单调性,即相应的聚类法有单调性.17第六章第六章 聚类分析聚类分析 对于类平均法,因对于类平均法,因故类平均法具有单调性。故类平均法具有单调性。对于可变类平均法,因对于可变类平均法,因故可变类平均法具有单调性。故可变类平均法具有单调性。18第六章第六章 聚类分析聚类分析 对于可变法,因对于可变法,因故可变法具有单调性。故可变法具有单调性。对于离差平方和法,因对于离差平方和法,因故离差平方和法具有单调性。故离差平方和法具有单调性。19第六章第六章 聚类分析聚类分析6-5 试从定义直接证明最长和最短距离法的单调性试从定义直接证明最长和最短距离法的单调性.证明:证明:先考虑最短距离法:先考虑最短距离法:设第设第L步从类间距离矩阵步从类间距离矩阵 出发,假设出发,假设故合并故合并Gp和和Gq为一新类为一新类Gr,这时第,这时第L步的并类距离步的并类距离:且新类且新类Gr与其它类与其它类Gk的距离由递推公式可知的距离由递推公式可知设第设第L+1步从类间距离矩阵步从类间距离矩阵 出发,出发,20第六章第六章 聚类分析聚类分析故第故第L1步的并类距离步的并类距离:即最短距离法具有单调性即最短距离法具有单调性.类似地类似地,可以证明最长距离法也具有单调性可以证明最长距离法也具有单调性.21第六章第六章 聚类分析聚类分析6-6 设设A,B,C为平面上三个点为平面上三个点,它们之间的距离为它们之间的距离为将三个点看成三个二维样品将三个点看成三个二维样品,试用此例说明中间距离法试用此例说明中间距离法和重心法不具有单调性和重心法不具有单调性.解解:按中间距离法按中间距离法,取取=-1/4,=-1/4,将将B B和和C C合并为合并为一类后一类后,并类距离并类距离D1 1=1,=1,而而A A与新类与新类Gr=B,C=B,C的的类间平方距离为类间平方距离为22第六章第六章 聚类分析聚类分析故中间距离法不具有单调性。故中间距离法不具有单调性。按重心法按重心法,将将B B和和C C合并为一类后合并为一类后,并类距离并类距离D1 1=1,=1,而而A与新类与新类Gr=B,C=B,C的类间平方距离为的类间平方距离为当把当把A与与B,C并为一类时,并类距离并为一类时,并类距离23第六章第六章 聚类分析聚类分析故故重心法重心法法不具有单调性。法不具有单调性。并类过程如下:并类过程如下:当把当把A与与B,C并为一类时,并类距离并为一类时,并类距离ABC24第六章第六章 聚类分析聚类分析解一解一:利用利用如果样品间的距离定义为欧氏距离如果样品间的距离定义为欧氏距离,则有则有6-7 试推导重心法的距离递推公式试推导重心法的距离递推公式(6.3.2);25第六章第六章 聚类分析聚类分析26第六章第六章 聚类分析聚类分析27第六章第六章 聚类分析聚类分析解二解二:因样品间的距离定义为欧氏距离因样品间的距离定义为欧氏距离,利用利用28第六章第六章 聚类分析聚类分析利用利用29第六章第六章 聚类分析聚类分析故有故有30第六章第六章 聚类分析聚类分析6-8 试推导试推导Ward法的距离递推公式法的距离递推公式(6.3.3);解:解:WardWard法把两类合并后增加的离差平方和看成法把两类合并后增加的离差平方和看成类间的平方距离类间的平方距离,即把类即把类Gp和和Gq的平方距离定义的平方距离定义为为利用利用Wr的定义的定义:31第六章第六章 聚类分析聚类分析32第六章第六章 聚类分析聚类分析33第六章第六章 聚类分析聚类分析(当样品间的距离定义为欧氏距离时)当样品间的距离定义为欧氏距离时)记GrGp,Gq,则新类Gr与其它类Gk的平方距离为利用重心法的递推公式利用重心法的递推公式(6-7题已证明题已证明)可得:可得:34第六章第六章 聚类分析聚类分析35第六章第六章 聚类分析聚类分析6-9 设有设有5个样品个样品,对每个样品考察一个指标得数据为对每个样品考察一个指标得数据为1,2,5,7,10.试用离差平方和法求试用离差平方和法求5个样品分为个样品分为k类类(k5,4,3,2,1)的分类法的分类法bk及相应的总离差平方和及相应的总离差平方和W(k).解:解:计算样品间的欧氏平方距离阵计算样品间的欧氏平方距离阵 合并合并 1,2 CL4,并类距离并类距离D1=(0.5)1/2=0.707,并利用递推公式计算新类与其它类的平方距离得并利用递推公式计算新类与其它类的平方距离得36第六章第六章 聚类分析聚类分析合并合并 5,7 CL3,并类距离并类距离D2=(2)1/2=1.414,并利,并利用递推公式计算新类与其它类的平方距离得用递推公式计算新类与其它类的平方距离得 合并合并 CL3,10=5,7,10 CL2,并类距离并类距离D3=(32/3)1/2=3.266,并利用递推公式计算新类与其,并利用递推公式计算新类与其它类的平方距离得它类的平方距离得37第六章第六章 聚类分析聚类分析 合并合并 CL4,CL2=1,2,5,7,10 CL1,并类距离并类距离D4=(245/6)1/2=6.39,并利用递推公式计算新类与其它类,并利用递推公式计算新类与其它类的平方距离得的平方距离得分类法分类法bk及相应的总离差平方和及相应的总离差平方和W(k):k=51,2,5,7,10W(5)=0k=4 1,2,5,7,10W(4)=0.5k=3 1,2,5,7,10W(3)=2.5k=2 1,2,5,7,10W(2)=13.666k=1 1,2,5,7,10W(1)=5438