多指标面板数据的聚类分析研究.pdf
管理信息系统课程小组作业 多指标面板数据的聚类分析研究 以我国 15 个副省级城市综合竞争力评价为例 小组组长:XXXXX 小组成员:XXXXX XXXXX 完成时间:指导教师:徐德华 精选文档 2 目 录 1 选题背景与意义.4 2 聚类分析与聚类算法.5 2.1 聚类分析.5 2.1.1 相关概念与定义.5 2.1.2 相似度计量模型.5 2.2 聚类算法.7 2.2.1 传统聚类算法及其比较.7 2.2.2 扩展聚类算法.14 3 面板数据及其聚类方法.15 3.1 面板数据概述.15 3.1.1 概念及发展.15 3.1.2 面板数据的特点.16 3.1.3 面板数据的分析处理方法.16 3.2 单指标面板数据的数据形式和聚类分析方法.17 3.3 多指标面板数据的数据形式和聚类分析方法.18 3.3.1 多指标面板数据的数据形式.18 3.3.2 常见的多指标面板数据聚类分析方法.18 4 实证研究.23 4.1 城市竞争力研究综述.23 4.1.1 城市竞争力内涵研究综述.24 4.1.2 城市竞争力模型研究综述.26 精选文档 3 4.1.3 城市竞争力评价体系研究综述.30 4.2 城市竞争力指标选取.31 4.2.1 城市竞争力评价指标选取的原则.31 4.2.2 我国 15 个副省级城市竞争力评价指标体系.31 4.3 聚类分析.32 4.3.1 基于主成分分析的聚类.32 4.3.2 基于指标距离求和的聚类.39 4.3.2 基于概率连接函数的聚类.41 4.4 结果分析.43 5 结论与展望.44 5.1 结论44 5.2 不足与展望.44 主要参考文献.45 附录.46 附录 146 附录 246 附录 348 精选文档 4 1 选题背景与意义 面板数据(Panel Data)作为截面数据与时间序列数据的组合数据集,同时体现了空间维度和时间维度的数字特征,克服了时间序列数据多重共线性、数据量不足等困扰,逐渐发展成为现代计量经济学领域统计分析与统计研究的重要方法和工具。运用多元统计方法对面板数据进行聚类分析是统计学的新兴研究领域。聚类分析作为一种数据挖掘手段,已被广泛地应用在许多领域中,包括模式识别、数据分析、图像处理、市场研究、管理评价等。传统的聚类分析对象一般是固定时期的不同个体截面数据,二维数据聚类分析往往不能满足人们分析问题的需要,而且基于单一的固定时期的聚类分析往往抹杀了指标的动态发展趋势及其发展状态,无法预测其未来发展轨迹和所属类别。例如:在城市竞争力聚类分析中,竞争力存在着随时间动态变化过程,仅仅固定在某一年度的截面数据分析就显得有失偏颇,如果根据一个较长时期的面板数据进行聚类分析则显得较为合理。城市竞争力是国内近年来正在兴起的一个新课题,目前处于起步研究阶段,还未形成公认的完整体系。经济全球化,知识经济时代的到来,促使我国城市必须进行转型改革,走上新型的发展道路。我国现阶段的城市要从建设城市转向管理和经营城市,就是要重塑城市资源整合和配置资源机制,提高城市对社会资源的吸引力和创造社会财富的能力,从根本上就是提高城市竞争力。城市竞争力评价是典型的综合评价,在不同的评价体系下有不同的指标指标,而且必须考虑时间因素,因此相关的数据就是典型的多指标面板数据。1994年5月,经中央机构编制委员会第6次会议通过,决定将原来的14个计划单列市和杭州、济南2市正式确定为副省级市(其中,重庆市97年恢复直辖)。将这15个城市定为副省级市,是中央对于区域经济发展的重要决策,加强了省级机构统筹规划和协调的地位和作用,不仅有利于加快这些城市的经济与社会发展,而且有利于更好的发挥这些中心城市的辐射作用。在国家政策层面和经济决策权待遇同等的情况下,经过20年,这15个副省级城市的发展出现了很大差异,城市竞争力也日趋呈现差异化。鉴于此,我们小组决定利用多指标面板数据的聚类方法对此进行探析,一方面介绍面板数据的一些处理思路,另一方面通过聚类寻找15个城市类别之间的差异,以提出相关建议。精选文档 5 2 聚类分析与聚类算法 2.1 聚类分析 2.1.1 相关概念与定义 聚类分析(Cluster Analysis)又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种方法,其目的是将有限个无标注数据划分到有限个离散的组或类中,发现数据隐藏的内部结构。聚类分析是数据挖掘的一种重要手段,是一种无监督的模式分类方法,在分类时只依赖对象自身所具有的属性来区分对象之间的相似程度。聚类分析作为一种有效的数据分析方法被广泛应用于数据挖掘、机器学习、图像分割、语音识别、生物信息处理等方面。给定一个对象集合12,nXx xx,假设每个对象,1,ix in含有 m 个特征,在此用向量的方式来表示对象的特征,12,imxl ll,聚类分析的过程就是根据对象的特征来分析对象之间的相似程度,并根据某种聚类决策准则来获得聚类结果。聚类的结果用12,kCc cc表示,则聚类结果满足以下条件:,1,icik;1kiicX;,1,ijccij i jk。模糊聚类的结果没有上面的约束条件,模糊聚类给出的结果只是对象隶属于每个类的程度。通常聚类分析一般包含四个部分:(1)特征获取与指标选择;(2)计算相似度;(3)聚类分组;(4)结果分析。2.1.2 相似度计量模型 给定数据矩阵,通常需要通过某种相似度计算模型来计算相似度矩阵。相似性计算模型一般需满足如下三个条件:(1)非负性:对于任两个对象 x 和 y,有0(,)1s x y;(2)对称性:对于任两个对象 x 和 y,有(,)(,)s x ys y x;(3)(,)1s x x。相似度的计算依赖于数据的特性,针对不同的数据类型,目前有许多相似度的计算公式,下面列出一些常见的计算公式:(1)数值型数据的相似度 数值型数据的相似度通常利用数据间的距离来构造,可以利用公式 精选文档 6(,)1(,)(,),(,)(,)1(,)1max_d x yd x ys x ys x yes x yd x yd或 将距离转化为相似度,其中 max_d 表示集中数据之间的最大距离。常见的距离公式有:闵可夫斯基(Minkowski)距离:11(,)nppiiid x yxy 切比雪夫(Chebyshev)距离:1(,)niiid x yxy 马氏(Mahalanobis)距离:112(,)()Td x yxySxy 其中,表示取大运算。闵可夫斯基距离是一个一般化的距离度量,当p=1 是为曼哈顿距离,当 p=2 是为欧式距离。(2)二元数据的相似度 二元数据是由二元变量构成,二元变量只能有两种取值状态:0 或 1,其中0 表示该特征为空,l 表示该特征存在。如果二元变量的两个状态是同等价值的具有同样的权重称为对称的二元变量,否则称为不对称的二元变量。对于对称的二元变量评价两个对象和之间相似度的最著名的系数是简单匹配系数:(,)rd x yrs,其中r为x和y取值不相同的属性的个数,s为x和y取值相同的属性的个数。对于非对称的二元变量,常用系数来表示,其中最常用 的 是Jacard系 数。下 面 给 出 常 见 系 数 的 计 算 公 式,设12,nxx xx12,nyy yy为二元数据,常用0-0 匹配表示xi=0 且yi=0,同理可用 0-1、1-0 及 1-1 匹配表示xi及yi相应的取值,其中fij表示集合,=,1,2,kkkkxyxiyj kn且的基数,,0,1i j。Jacard 系数 11011011fJfff Rogers-Tanimoto 系数 1100000110112()ffRTffff Sokal-Sneath-a 系数 1100000110112()22ffSaffff(3)其他相似度 余弦相似度 211cos(,),=,nniikiixyx yxyx yxxx y其中 精选文档 7 相关系数构成的相似度 1+corr(,)s(,)(,)s(,)=2x yx ycorr x yx y 或者 2.2 聚类算法 2.2.1 传统聚类算法及其比较 聚类分析的核心就是聚类算法,在不断的发展过程中演化出了多种经典的聚类算法,在现有文献中,传统的聚类算法主要有几种类型:划分方法、层次方法、密度方法、模型方法和网格方法。(1)基于划分的方法 对于给定的包含n个数据对象的数据库,通常基于划分的方法要求用户给定构建数据的最终划分数目k,通过采用目标函数最小化策略,将数据分成k个簇。可以看出,算法将整个数据集划分为k个簇,同时满足以下两个条件:每个簇至少包含一个数据对象;每个数据对象必须属于且唯一的属于一个簇。但在某些模糊划分技术中,如在FCM算法中,第二个要求可以放宽。给定划分数目k,基于划分的方法首先创建一个初始划分,通常采用的方法是随机选取k个数据对象作为初始聚类中心点,然后采用一种迭代的重定位技术,尝试通过对象在划分间移动来改进划分,采用的准则是:在同一个簇中的数据对象尽可能相似,不同的簇中的数据对象尽可能相异。根据对象在划分之间移动的衡量参数和簇的表示方法不同,基于划分的方法主要包括有K-Means法,K-中心点算法以及对他们的扩展。(2)基于层次的方法 层次的方法按数据分层建立簇,形成一棵以簇为节点的树。根据层次如何形成,层次的方法可以分为凝聚的和分裂的。凝聚的方法,也称自底向上的方法,该方法从数据点作为个体簇开始,每一步合并两个最接近的簇,直到所有的簇合并为一个(层次的最上层),或者达到一个终止的条件。在这里,判断最接近的簇需要簇的临近性定义。大多数的层次聚类算法都属于这类。分裂的方法,也称为自顶向下的方法,它与凝聚的方法正好相反,该方法从包含所有点的一个簇开始,每一步分裂一个簇,最终每个对象在单独的一个簇中,或者达到一个终止条件,比如达到某个希望的簇数目,或者两个最近的簇之间的距离超过了某个闭值。在这种情况下,我们需要确定每一步分裂哪一个簇,以及如精选文档 8 何分裂。无论是凝聚算法还是分裂算法都要采用一个划分准则,以便判定簇之间的相似性或相异性,五个广泛采用的簇间距离度量方法如下:.最小(单链)距离:dmin(Ci,Cj)min PiPj,PiCi,PjCj .最大(全链)距离:dmin(Ci,Cj)max PiPj,PiCi,PjCj.平均值(质心)距离:dmean(Ci,Cj)mimj,其中mi、mj是Ci,Cj的质心.平均(组平均)距离:davg(Ci,Cj)1ninjPiPj,PiCi,PjCj.中心点距离:dmedian(Ci,Cj)MiMj,其中Mi、Mj是Ci,Cj的中心点。这里PiPj表示两个对象Pi和Pj之间的距离,mi是簇Ci的平均值(质心),Mi是簇Ci的中心点,而ni是簇Ci中对象的数目。如图 2.1 所示,凝聚的层次算法和分裂的层次算法在包含五个对象的数据集合上的处理过程。凝聚的方法将每个对象看作一个簇,然后将这些簇一步一步进行合并。图中簇a 和 b 相似性最高首先进行合并,其次是d 和 e,再 de 合并的簇与簇 c 合并,最终与 a,b 组成的簇合并,合并过程反复进行直到最终合并为一个簇。而在分裂方法处理的过程中,初始时所有对象都放到一个簇中,根据数据对象之间的相异性将该簇分裂,簇的分裂过程反复进行,直到最终每个簇中只包含一个对象。精选文档 9 图 2.1 凝聚和分裂层次聚类算法 层次聚类算法可以在不同粒度水平上对数据进行探测,而且很容易实现相似度量或距离度量。但是层次聚类算法由于合并或分裂簇的操作不可逆,也给聚类结果带来不准确性。有一些技术试图克服“合并是最终的”这一限制。一种方法试图通过移动树的分支以改善全局目标函数。另一种方法使用划分聚类技术来创建许多小簇,然后从这些小簇出发进行层次聚类。凝聚层次聚类技术使用各种标准,在每一步局部地确定哪些簇应当合并(或分裂,对于分裂方法)。这种方法产生的聚类算法避开了解决困难的组合优化问题。这样的方法没有很难确定初始点和局部最小问题。但是,在很多情况下,O(n2log n)的时间复杂度和O(n2)的空间复杂度阻碍了它们的应用。通常在解决实际聚类问题时把层次方法与其他方法结合起来。改进层次方法聚类质量的一个很有前途的方向,是把层次聚类和其他聚类方法相结合起来,形成多阶段的聚类,改善聚类质量。这类方法包括BIRCH和 CURE算法等。BIRCH 算法利用层次方法进行平衡迭代归约和聚类。它引入了两个概念:聚类特征和聚类特征树。聚类特征是一个反映类内对象信息的三元组,包含类内数据点的个数、线性和以及平方和。它首先将对象划分成树形结构,然后采用其他聚类算法对聚类结果求精。BIRCH 算法采用多阶段聚类技术,对数据集进行一遍扫描后生成初步簇的CF 树,再经过一遍或多遍扫描改进CF 树的精选文档 10 质量。CF 树建好后,可以使用任何聚类算法,如典型的划分方法,对其叶节点进行聚类。BIRCH 算法支持增量聚类。当插入新数据对象时,CF 树可以动态构造,CF 树的重建类似于 B+树构建中的节点插入和分裂。但由于 CF 树的每个节点的大小的限制,可能导致节点并不总是对应于用户所认为的一个自然聚类。而且,如果簇不是球形的,BIRCH 算法不能很好地工作,因为它用了直径的概念来控制聚类的边界。CURE 算法使用各种不同的技术创建一种能够处理大型数据、离群点和具有非球形和非均匀大小的簇的数据的方法。CURE 使用簇中多个代表点来表示一个簇。实际上,CURE 是从一个簇中选择一定数目散布很好的点来代表该簇,这些点能够用于确定簇的形状和大小。一旦选定代表点,他们就以一定的收缩因子向簇中心收缩,这有助于减轻离群点的影响。使用这些点收缩之后的位置来代表簇,从中找到最近的两个簇,然后把它们进行合并。CURE 算法克服了利用单个代表点或基于质心的方法的缺点,可以发现非球形及大小差异明显的簇。同时采用了收缩因子在处理孤立点上也更加健壮。(3)基于密度的方法 很多算法中都使用距离来描述数据对象之间的相似性,前面提到的两种聚类方法就是基于这种相似性进行聚类,这样的聚类方法对于大部分的球形簇聚类效果较好。但往往对任意形状的簇聚类结果较差,甚至无法进行有效聚类,因此提出了基于密度的聚类方法。这类方法将簇看作是数据空间被低密度区域分割开的高密度区域。该类算法除了可以发现任意形状的类,还能够有效去除噪声。典型的基于密度的聚类方法包括DBSCAN和 OPTICS。1)DBSCAN算法 主要思想是:只要临近区域的密度(对象或数据点的数目)超过某个预先设定的闭值,该数据对象就属于此簇,并继续聚类,直至所有的对象都唯一的划定到一个簇中。基于密度的聚类方法通常是对于给定类中的每个数据点,在一个给定范围的区域中设定必须至少包含数据点的数目。它定义簇为密度相连点的最大集合。以下为有关密度的一些相关概念:.-邻域:给定对象 半径内的区域称为该对象的-邻域;.核心对象:如果一个对象的 邻域至少包含最小数目MinPts个对象,则称该对象为核心对象,MinPts由用户给定;.直接密度可达:给定一个对象集合 D 如果 p 是在 q 的-邻域内,而q是一个核心对象,我们说对象 p 从对象q 出发是直接密度可达的;精选文档 11.密度可达:如果存在对象链P1,P2,Pn,P1q,Pnp对PiD(1 in),Pi 1是从Pi关于 和 MinPts直接密度可达的,则对象 P 是从对象q关于 和 MinPts密度可达的(Density 一 Reachable);.密度相连:如果对象集合 D 中存在一个对象 O,使得对象 p 和 q 是从 O关于 和 MinPts 密度可达的,那么对象 p 和 q 是关于和 MinPts 密度相连的(Density 一 Connected)。密度可达是直接密度可达的传递闭包,这种关系是非对称的。只有核心对象之间是相互密度可达的。然而,密度相连性是一个对称的关系。基于密度的聚类算法通过检查数据库中每个数据对象的:-邻域来寻找最终的聚类。如果一个数据对象 P 的-邻域包含多于 MinPts 个其他数据对象,则创建一个以 P 作为核心对象的新簇。然后,反复地寻找从这些核心对象直接密度可达的对象。这个过程可能涉及一些密度可达簇的合并。当没有新的点可以被添加到任何簇时,该过程结束。这样算法得到的簇是是基于密度可达性的最大的密度相连对象的集合,其他不包含在任何簇中的对象被认为是“噪声”。这样的方法可以用来过滤“噪声”,去除孤立点数据,并且可以发现任意形状的簇。对于基于密度的算法聚类过程而言,它的优点是具有相对较低的时间复杂度(如果采用空间索引,DBSCAN 的计算复杂度是O(nlogn),否则,计算复杂度是O(n2),这里 n 是数据库中对象的数目),另外可以根据给定输入参数和MinPts 对数据对象进行较好的聚类,但是对于用户而言,参数的取值通常依靠经验,如果用户对数据集不熟悉,又或者是数据集为一个高维数据集,这时用户就很难确定参数和 MinPts,而算法参数取得是否得当直接影响最终的聚类效果。该算法对用户定义的参数十分敏感,因此在实际应用中聚类效果较差,往往全局密度参数不能刻画其内在的聚类结构。基于密度的算法一般采用给定特定函数,来减少用户人为给定的参数对最终聚类结果的影响。2)OPTICS 算法 OPTICS 算法是通过对象排列识别聚类结构的密度聚类算法,它为自动和交互的聚类分析计算一个簇次序。这个次序代表了数据的基于密度的结构,这个次序的选择根据最小的值密度可达的对象,以便高密度的聚类能被首先完成,基于这个想法,每个对象需要存储两个值)核心距离(coredistance)和可达距离(reach abilitydistance)。.核心距离:一个对象 p 的核心距离是使得 p 成为核心对象的最小。如果 p 不是核心对象,p 的核心距离没有定义;精选文档 12.可达距离:一个对象 q 关于另一个对象 p 的可达距离是 p 的核心距离和p 与 q 的欧几里得距离之间的较大值。如果 p 不是一个核心对象。p 和 q 之间的可达距离没有定义。OPTICS 算法创建了数据库中对象的一个次序,额外存储了每个对象的核心距离和一个适当的可达距离,基于产生的次序信息,OPTICS 来抽取聚类。(4)基于网格的方法 基于网格的聚类方法采用多分辨率的网格数据结构,把对象空间量化为有限数目的单元,形成一个网格结构,所有操作都在这个网格结构上进行。这种方法的主要优点是处理速度快,处理时间独立于数据对象的数目,只与量化空间中每一维的单元数目有关。代表性的算法是STING算法和 CLIQUE算法。1)STING(Statistical Information Grid)是基于网格方法的一个非常典型的例子。该算法基于网格的多分辨率聚类技术,它将要聚类的空间区域划分为矩形单元。针对不同级别的分辨率,通常存在多个级别的矩形单元,这些单元形成了一个层次结构:高层的每个单元被划分为多个低一层的单元。关于每个网格单元属性的统计信息(例如平均值、最大值、最小值)被预先计算和存储,以便于进行查询处理。该算法的主要优点是它的网格结构有利于并行处理和增量更新而且效率非常的高,主要不足是由于它采用了一个多分辨率的方法来进行聚类分析,它的聚类的质量取决于网格结构最低层的粒度,如果粒度比较细,处理的代价会显著的增加,但如果最低层的粒度太粗将会降低聚类分析的质量;而且 STING 在构建一个父亲单元时没有考虑孩子单元和其相邻单元之间的关系,所以其聚类边界只能是水平的或竖直的,没有对角的边界。因此,尽管该技术有快速的处理速度,但可能降低簇的质量和精确性。2)CLIQUE(Clustering In Quest,自动子空间聚类算法)聚类算法综合了基于密度和基于网格的聚类方法。它对于大型数据库中的高维数据的聚类非常有效。CLIQUE的中心思想如下:.给定一个多维数据点的大集合,数据点在数据空间中通常不是均衡分布的。CLIQUE 区分空间中稀疏的和“拥挤的”区域,以发现数据集合的全局分布模式。.如果一个单元中的包含数据点超过了某个输入模型参数,则该单元是密集的。在 CLIQUE 中,簇定义为相连的密集单元的最大集合。CLIQUE 分两步进行多维聚类:首先,CLIQUE 将数据空间中分布不均匀的数据对象,按照 n 维数据空间划分为互不相交的长方形单元,并识别其中的密集单元,该工作对每一维进行;其次,CLIQUE 为每个簇生成最小化的描述。对每个簇,它确定覆盖相连的密集单元的最大区域,然后确定最小的覆盖。精选文档 13 CLIQUE 将基于密度和基于网格的算法相结合,它能够自动地发现最高维的子空间,高密度聚类存在于这些子空间中,对元组的输入顺序不敏感,无需假设任何规范的数据分布。它随输入数据的大小线性地扩展。当数据的维数增加时具有良好的可伸缩性。但是。由于方法大大简化。聚类结果的精确性可能会降低。(5)基于模型的方法 基于模型的方法为每个簇假定一个模型,寻找数据对给定模型的最佳拟合。一个基于模型的算法可能通过构建反映数据点分布的密度函数来定位聚类。基于模型的聚类方法试图优化给定的数据和某些数学模型之间的适应性,这样的方法经常是基于这样的假设:数据是根据潜在的概率分布生成的。基于模型的方法主要分两类:统计学方法和神经网络方法。大多概念聚类都采用了统计方法,也就是利用概率参数来帮助确定概念或聚类。每个所获得的聚类通常都是通过概率描述来表示的。COBWEB 是一个常用并且简单的增量式概念聚类方法。它的输入对象是采用符号量来描述,采用分类树的形式创建一个层次聚类。一个分类树中的一层形成一个划分。COBWEB 是基于属性概率分布相互独立的假设,属性取值多时较难存储和更新聚类。COBWEB 另外一个版本是 CLASSIT,它可以对连续取值属性进行增量式聚类。这两个方法都不适合对大数据库进行聚类。神经网络聚类方法是将每个聚类描述成一个例证,每个例证作为聚类的原型。然后根据某种度量,将新的对象分配到最相似的聚类之中。主要的方法有:竞争学习方法和自组织特征映射方法。(6)几种传统聚类算法比较 基于上述的分析,下面对传统聚类方法中的一些常用聚类算法的性能从可伸缩性、发现聚类的形状、对“噪声”的敏感性、对数据输入顺序的敏感性、高维性和算法效率六个方面进行比较,结果如表2.1 所示。表 2.1 聚类算法比较 性能 算法 可伸缩性 发现聚类的形状 对“噪声”的敏感性 对数据输入顺序的 敏感性 高维性 算法效率 CLARANS 好 凸形或 球形 不敏感 非常敏感 一般 较低 CURE 较差 任意形状 不敏感 敏感 好 较高 BIRCH 较差 凸形或 球形 一般 不太敏感 好 高 精选文档 14 DBSCAN 较好 任意形状 不敏感 敏感 一般 一般 STING 好 任意形状 不敏感 不敏感 好 高 COBWEB 较好 任意形状 一般 敏感 好 较低 K-means 较好 球形 敏感 不太敏感 一般 一般 SOM 较好 任意形状 敏感 敏感 好 一般 由表 2.1 的比较可以看出,现有传统聚类算法在某些方面达到数据挖掘对聚类分析的要求,但是没有哪一种算法是绝对优越的。由于数据挖掘在不同领域的应用对聚类算法提出了各自特殊的要求,我们可以根据具体的要求选择适当的聚类算法。2.2.2 扩展聚类算法(1)模糊聚类算法 如果数据对象分布在明显分离的组中,则把对象明确分成不想交的簇是一种理想的方案。然而,在大部分情况下,数据集中的对象不能划分成明显分离的簇。传统聚类把每个样本严格地划分到某一类,随着模糊集理论的提出,传统聚类被推广为模糊聚类。在模糊聚类中,每个样本不再仅仅属于某一类,而是以一定的隶属度属于某一类。通过模糊聚类分析,得到了样本属于各个类别的不确定性程度,即建立起了样本对于类别的不确定性描述。基于目标函数的模糊聚类方法首先由Ruspini提出,但真正有效的算法模糊C均值算法却是由Dunn给出的。Bezdek将其进一步扩展,建立起了模糊聚类理论。(2)综合聚类算法 现在有很多算法是将不同算法进行综合,以此来获得不同算法的优点。DENCLUE(DENsity-based CLUstEring)就是一个综合了划分方法、层次方法和密度方法的综合方法。该算法主要基于以下理论:每个数据点的影响可以用一个数学函数形式化地模拟,它描述了一个数据点在领域内的影响,被称为影响函数;数据空间的整体密度可以被模型化为所有数据点的影响函数的总和;聚类可以通过密度吸引点来得到,这里的密度吸引点是全局密度函数的局部最大值。(3)新的对象的聚类算法 精选文档 15 近年来越来越多的应用产生流数据。它不同于传统的存储在磁盘上的静态数据,而是一类新的数据对象,它是连续的、有序的、快速变化的、海量数据。相应地,流环境下的流聚类问题研究也成为聚类分析中的一个热点。流数据是数据点12,.,nx xx的一个有序序列,它只能被顺序访问,而且仅能被扫描一次货有限的几次。数据流是快速变化的,因而对流数据聚类也要能随着时间而不断地进行。流数据是海量且有序的,不可能保证存储整个数据集,只能分析一定范围内的数据,因而要有效地利用有限的空间。随着人们对面板数据认知的加深,对面板数据的聚类也成为聚类分析中的另一热点。面板数据的有序聚类是难点,如何保证在聚类的过程中,同时保留面板数据的以下三个特征是当前研究的热点:某时期指标发展的绝对水平;特定个体的指标发展的动态水平,即指标随时间变化的增量水平或增速;特殊个体某项指标发展的协调水平,即指标的变异程度或波动程度。3 面板数据及其聚类方法 3.1 面板数据概述 3.1.1 概念及发展 面板数据,即Panel Data,也叫“平行数据”,是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据,也就是把截面数据和时间序列数据融合在一起的一种数据。最早做面板数据收集和研究的是美国,开始于十九世纪六十年代,两个著名的例子一是由米歇根大学的社会研究协会做的关于收入动态的面板研究;二是由俄亥俄州立大学人力资源研究中心和人口普查局所做的劳动力市场经历的国家平行数据调查。欧洲这方面起步相精选文档 16 对比较晚,开始于十九世纪八十年代。我国这方面起步则更晚,面板数据的收集还不是很健全。近20多年来,面板数据模型在计量经济学理论和方法上都取得了重要发展,新方法、新观点层出不穷。在经济分析中,面板数据模型起着只利用截面数据和时间序列数据模型所不可替代的作用,具有很高的应用价值。3.1.2 面板数据的特点 面板数据从横截面上看,是由若干个体在某一时刻构成的截面观测值,从纵剖面上看则是一个时间序列。面板数据可以用三下标变量表示,例,1,2,1,2,1,2,ijtxiN jm tT,N表示面板数据中含有的个体数;m表示指标变量的总数;T表示时间序列的最大长度。相对只利用截面数据模型和只利用时间序列数据模型进行经济分析而言,面板数据模型具有许多优点:第一,减少多重共线性。面板数据通常提供给研究者大量的数据,包含更多的变量,这样就增加了自由度,减少了解释变量之间的共线性。第二,相对于纯横截面和纯时间序列数据而言,面板数据可以从多种层面分析经济问题。第三,面板数据能够更好的识别和测量一些效应,而这些效应是单纯的时间序列数据或横截面数据所不能简单觉察的。第四,控制个体效应。面板数据通常以微观单元来收集,如个人、公司和家庭。在微观的水平上许多变量能被更为精确的测量,因此有测量误差所引起的偏能够得到减轻。3.1.3 面板数据的分析处理方法 从20世纪70年代末以来,面板数据回归模型的理论方法己日渐成熟,涌现了大量有关面板数据理论和经验分析文章,形成了现代计量经济学中一个相对独立的分支。绝大多数有关面板数据的分析处理理论,一方面从从计量建模的角度着手,从单方程模型到联立方程模型,从变截距模型到变系数模型,从线性模型到非线性模型等等,另一方面着重于模型参数估计方法的研究。目前,用面板数据建立的模型通常有3种,即混合模型、固定效应模型和随机效应模型,其中固定效应模型又可分为个体固定效应模型、时点固定效应模型和个体精选文档 17 时点双固定模型三类。常用的面板数据模型估计方法有混合最小二乘估计、组内最小二乘估计、组间最小二乘估计、广义最小二乘估计、协方差估计、一阶差分估计和最小二乘虚拟变量估计,其中前两种适用于混合模型,组内、组间和广义最小二乘估计适用于堆积效应模型,后三种适用于固定效应模型。Bonzo D.C 和 Hermosilla A.Y 等统计学家开创性的将多元统计方法引入到面板数据的分析中来,并运用概率连接函数和遗传算法改进了聚类分析的算法,从而将聚类分析用于面板数据的分析。运用多元统计方法对面板数据进行聚类分析是统计学的新兴研究领域。3.2 单指标面板数据的数据形式和聚类分析方法 单指标面板数据的数据格式可以用一个二维表来表示单指标面板数据聚类分析有两种处理方法:一种是转换方法,将单指标面板数据的时间维度转换为截面数据的指标维度表示,两种数据的统计描述特征相似,在聚类分析中,二者关于样品距离的算法、聚类过程都是相同的,因此,单指标面板数据的聚类分析可以借鉴截面数据的聚类分析,可以直接运行相关软件进行计算。另一种是一维有序样品聚类方法,将单指标面板数据的空间维度转换为有序样品的指标维度表示,但需要进行降维处理得到一维指标。目前有不少专业软件可以完成一维样品有序聚类计算,比如 DPS 等。由于面板数据自身复杂的数据结构,对于面板数据聚类分析的研究早期多停留在单指标面板数据上较多,例如:Michel和Jeroen(2005)用逐步回归的方法对缺省数据的单个指标面板数据进行了聚类分析研究;朱建平和陈民恳(2007)利用差异上确界、差异欧式距离、差异绝对值等方法研究了单个指标面板数据的聚类分析,构造了度量单个指标面板数据中横截面个体之间相似性的统计指标,并对全国31个省市城镇居民的收入和支出分别作了系统聚类分析。对单个指标面板数据的聚类分析在理论研究上就是一个简化问题,其聚类算法和聚类过程都类似于多指标横截面数据或者时间序列的聚类分析。因此,单指标面板数据的聚类分析相对比较简单,数据也易于处理。但是,实际情况往往是复杂的,单个指标包含的信息太少,不能充分反映现实情况的特征。因此,单指标面板数据的聚类分析在实际应用中往往受到很大限制。精选文档 18 3.3 多指标面板数据的数据形式和聚类分析方法 3.3.1 多指标面板数据的数据形式 在实际中,由于现象的复杂性,研究对象往往表现为多指标面板数据。多指标面板数据的结构要复杂一些,严格上应该用三维表来表示,在在平面上我们可以将其转换为一个二级二维表的形式,如表 3.1 所示。研究总体共有N个,每个样品的特征用p个指标表示(X1,X,X,X),时间长度为 T,则Xij(t)表示第 个样品第j个指标在t 时间的数值。表 3.1 多指标面板数据的数据形式 3.3.2 常见的多指标面板数据聚类分析方法(1)主成分分析方法 主成分分析法是利用主成分分析构造一个综合指标,再对综合指标进行聚类分析。例如,肖泽磊等(2009)对多指标面板数据在各时刻t的横截面数据进行主成分分析,构造出了多指标面板数据在时刻t的综合指标Fn,t:(2-1)然后将综合指标Fn,t间的距离定义为面板数据中横截面个体间的距离或者相性指标,肖泽磊等(2009)定义了如下 3 个度量横截面个体相似性的指标:(3-2)(3-3)精选文档 19 (3-4)上述式(2-2)、式(2-3)和式(2-4)分别将综合指标Fi,t和Fj,t的绝对距离、欧氏距离以及极差距离作为度量横截面个体i和j相似性的指标。将Xn,t的样本观测值xn,t带入Fn,t中,可以直接得到相似性指标对应的样本值,由该样本值可以直接度量横截面个体间的相似性。虽然上述综合指标Fn,t通常能够包含p维随机变量Xn,t的大部分信息,例如肖泽磊等(2009)在利用主成分分析构造综合指标时,考虑综合指标的累积贡献率都在 85%以上。但是,上述 3 个相似性指标只度量了在综合指标上横截面个体i和j间的相似性,未必能够度量在p维随机变量Xn,t上横截面个体i和j是否是相似的。除此之外,主成分分析法还在数据方面存在着一定的不足。第一点是指标的量纲问题,不同的指标具有不同的经济意义或者经济解释,往往可能具有不同量纲或者单位。虽然可以通过总体样本的均值x.t和总体样本的方差矩阵S.t进行标准化处理将各指标的量纲剔除,但是综合指标往往还是无法给出其经济意义或者经济解释的。第二就是指标的数量级问题,不同的指标往往数量级也有可能是不同的。在主成分分析法中,如果指标数量级差异较大,综合指标间的距离往往就会只由数量级较大的指标决定,而数量级较小的指标往往可能对综合指标间的距离影响很小。这样就会直接对数量级较小的指标造成较大的信息损失,可能会导致对横截面个体间相似性度量不够准确。第三是面板数据出现异常值的问题。当面板数据中的某个横截面个体样本观测在某些期出现异常值时,主成分分析法往往会对该横截面个体与其他横截面个体间相似性的度量上出现问题。例如,横截面个体i在t*期样本出现异常值,致使横截面个体i与j间的距离在t*期很大,从而造成了相似性指标的样本值也较大,认为横截面个体i与j的相似性不大;但是在其他各期上横截面个体i与j间的距离都是较小的,只是因为在t*期出现了异常值,才使得横截面个体i与j间的判别距离很大。因此,在面板数据中出现了异常值时,主成分分析法往往可能会对横截面个体间相似性在整个观测期上的度量出现失误。(2)指标距离求和法 指标距离求和法是在指定时间上,将横截面个体间每个指标间的距离看作是等价的,将所有指标间距离求和作为度量横截面个体间相似性的指标。例如,郑兵云(2008)定义了横截面i和j的欧式距离:122,11(,)(),1,2,pTssi tj ttsd i jXXi jN精选文档 20(3-5)除此之外,李因果和何晓群(2010)在上述的欧式距离中,还考虑加入横截面个体在时间变化上的距离和“变异系数”距离。其形式如下:(3-6)其中Yi,tsXi,ts/Xi,t 1s,Xi,tsXi,tsXi,t 1s,Zi,tsXi,t*/i,t,Xi,t*1pXi,ts,s 1pi,t1p(Xi,tsXi,t*)s 1p2,上述第二个求和项就是横截面个体在时间变化上的距离,第三个求和项就是“变异系数”距离。将横截面个体的样本观测值xi,t和xj,t带入式(2-5)和式(2-6)中,可以得到相似性指标d(i,j)对应的样本值,由相似性指标对应的样本值可以直接度量横截面个体间的相似性。在上述式(2-5)和式(2-6)中,构造欧式距离时,虽然该方法看似对各指标都进行了比较,但是却将每个指标间的距离看作是等价的,将面板数据中的指标看作是“可退化的”。与主成分分析法的区别是,主成分分析法是将面板数据中的p个指标变为一个综合指标,指标距离求和法是直接将面板数据中的指标退化,将p个指标的次观测直接退化为对一个指标的p*T 次观测。郑兵云(2008)也认为指标距离求和法存在着直接忽略了不同指标的概率分布特征的缺陷。对于面板数据来说,不同指标的数字特征和概率分布特征往往是不同的。对于面板数据中某个给定的横截面个体,某一个指标的次观测往往反映了该指标的概率分布特征,指标距离求和法是无法反映出任何指标的概率分布特征。与主成分分析法一样,指标距离求和法也在数据方面存在着三点不足。第一是指标的量纲问题,虽然在指标距离求和法中没有构造综合指标,但是却直接对指标进行退化求距离,而指标退化所求的距离往往也是无法给出其经济解释的。第二是指标的数量级问题,指标退化的求和距离往往也是由数量级较大指标决定,而数量级较小的指标往往可能对指标距离求和影响很小。第三是面板数据出现异常值的问题。和主成分分析法一样,当面板数据中的某个横截面个体样本观测在某期出现异常值时,在该期横截面个体间的距离往往可能会过大,影响了对整个观测期相似性的度量。(3)概率连接函数 精选文档 21 Bonzo(1998)首先提出了面板数据的“聚类概率性结构”这个概念,认为不同指标的概率分布情况是不同的,在面板数据中性质相类似的横截面个体应该在