多指标面板数据的聚类分析研究.docx
《多指标面板数据的聚类分析研究.docx》由会员分享,可在线阅读,更多相关《多指标面板数据的聚类分析研究.docx(54页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、治理信息系统课程小组作业多指标面板数据的聚类分析争论以我国 15 个副省级城市综合竞争力评价为例小组组长:XXXXX 小组成员:XXXXXXXXXX完成时间: 指导教师:1目录21 选题背景与意义42 聚类分析与聚类算法52.1 聚类分析52.1.1 相关概念与定义52.1.2 相像度计量模型52.2 聚类算法72.2.1 传统聚类算法及其比较72.2.2 扩展聚类算法133 面板数据及其聚类方法153.1 面板数据概述153.1.1 概念及进展153.1.2 面板数据的特点153.1.3 面板数据的分析处理方法163.2 单指标面板数据的数据形式和聚类分析方法163.3 多指标面板数据的数据
2、形式和聚类分析方法173.3.1 多指标面板数据的数据形式173.3.2 常见的多指标面板数据聚类分析方法174 实证争论234.1 城市竞争力争论综述234.1.1 城市竞争力内涵争论综述244.1.2 城市竞争力模型争论综述264.1.3 城市竞争力评价体系争论综述294.2 城市竞争力指标选取304.2.1 城市竞争力评价指标选取的原则304.2.2 我国 15 个副省级城市竞争力评价指标体系314.3 聚类分析324.3.1 基于主成分分析的聚类324.3.2 基于指标距离求和的聚类384.3.2 基于概率连接函数的聚类404.4 结果分析425 结论与展望445.1 结论445.2
3、缺乏与展望44主要参考文献45附录46附录 146附录 246附录 3481 选题背景与意义面板数据Panel Data作为截面数据与时间序列数据的组合数据集,同时表达了空间维度和时间维度的数字特征,抑制了时间序列数据多重共线性、数据量缺乏等困扰,渐渐进展成为现代计量经济学领域统计分析与统计争论的重要方法和工具。运用多元统计方法对面板数据进展聚类分析是统计学的兴争论领域。聚类分析作为一种数据挖掘手段,已被广泛地应用在很多领域中,包括模式识别、数据分析、图像处理、市场争论、治理评价等。传统的聚类分析对象一般是固定时期的不同个体截面数据,二维数据聚类分析往往不能满足人们分析问题的需要,而且基于单一
4、的固定时期的聚类分析往往抹杀了指标的动态进展趋势及其进展状态,无法推测其将来进展轨迹和所属类别。例如:在城市竞争力聚类分析中,竞争力存在着随时间动态变化过程,仅仅固定在某一年度的截面数据分析就显得有失偏颇,假设依据一个较长时期的面板数据进展聚类分析则显得较为合理。城市竞争力是国内近年来正在兴起的一个课题,目前处于起步争论阶段, 还未形成公认的完整体系。经济全球化,学问经济时代的到来,促使我国城市 必需进展转型改革,走上型的进展道路。我国现阶段的城市要从建设城市转 向治理和经营城市,就是要重塑城市资源整合和配置资源机制,提高城市对社 会资源的吸引力和制造社会财宝的力量,从根本上就是提高城市竞争力
5、。城市 竞争力评价是典型的综合评价,在不同的评价体系下有不同的指标指标,而且 必需考虑时间因素,因此相关的数据就是典型的多指标面板数据。1994年5月,经中心机构编制委员会第 6次会议通过,打算将原来的 14个打算单列市和杭州、济南2市正式确定为副省级市其中,重庆市97年恢复直辖。将这15个城市定为副省级市,是中心对于区域经济进展的重要决策,加强了省级机构统筹规划和协调的地位和作用,不仅有利于加快这些城市的经济与社会进展,而且有利于更好的发挥这些中心城市的辐射作用。在国家政策层面和经济决策权待遇同等的状况下,经过 20年,这15个副省级城市的进展消灭了很大差异,城市竞争力也日趋呈现差异化。鉴于
6、此,我们小组打算利用多指标面板数据的聚类方法对此进展探析,一方面介绍面板数据的一些处理思路,另一方面通过聚类查找15个城市类别之间的差异,以提出相关建议。2 聚类分析与聚类算法2.1 聚类分析2.1.1 相关概念与定义聚类分析 Cluster Analysis又称群分析,是依据“物以类聚”的道理, 对样品或指标进展分类的一种方法,其目的是将有限个无标注数据划分到有限 个离散的组或类中,觉察数据隐蔽的内部构造。聚类分析是数据挖掘的一种重 要手段,是一种无监视的模式分类方法,在分类时只依靠对象自身所具有的属 性来区分对象之间的相像程度。聚类分析作为一种有效的数据分析方法被广泛应用于数据挖掘、机器学
7、习、图像分割、语音识别、生物信息处理等方面。给定一个对象集合 X = x , x , x ,假设每个对象 x , i = 1, n 含有 m 个12ni特征,在此用向量的方式来表示对象的特征, x = (l , l ,i12, l),聚类分析的过m程就是依据对象的特征来分析对象之间的相像程度,并依据某种聚类决策准则来获得聚类结果。聚类的结果用C = c , c , c 表示,则聚类结果满足以下条12k件: c , i = 1, k ; kc = X ; c c= , i j, i, j = 1, k 。模糊聚类的结ii=1 iij果没有上面的约束条件,模糊聚类给出的结果只是对象隶属于每个类的程
8、度。通常聚类分析一般包含四个局部: (1)特征猎取与指标选择; (2)计算相像度;(3)聚类分组;(4)结果分析。2.1.2 相像度计量模型给定数据矩阵,通常需要通过某种相像度计算模型来计算相像度矩阵。相像性计算模型一般需满足如下三个条件:(1) 非负性:对于任两个对象 x 和 y,有0 s(x, y) 1;(2) 对称性:对于任两个对象 x 和 y,有s(x, y) = s( y, x) ;(3) s(x, x) = 1 。相像度的计算依靠于数据的特性,针对不同的数据类型,目前有很多相像度的计算公式,下面列出一些常见的计算公式:1数值型数据的相像度数值型数据的相像度通常利用数据间的距离来构造
9、,可以利用公式s ( x, y ) =1d ( x, y )=-, s( x, y )e - d ( x , y ) 或s ( x, y )1d ( x, y ) + 1max_ d将距离转化为相像度,其中 max_d 表示集中数据之间的最大距离。常见的距离公式有:1 npu 闵可夫斯基Minkowski距离: d (x, y) = x- y p iii=1u 切比雪夫(Chebyshev)距离: d (x, y) = n x - y ()i=1ii()1u 马氏(Mahalanobis)距离: d (x, y) =x - y T S -1 (x - y) 2其中, 表示取大运算。闵可夫斯基距
10、离是一个一般化的距离度量,当p=1 是为曼哈顿距离,当 p=2 是为欧式距离。(2) 二元数据的相像度二元数据是由二元变量构成,二元变量只能有两种取值状态:0 或 1,其中0 表示该特征为空,l 表示该特征存在。假设二元变量的两个状态是同等价值的具有同样的权重称为对称的二元变量,否则称为不对称的二元变量。对于对称的二元变量评价两个对象和之间相像度的最著名的系数是简洁匹配系数: d (x, y) =r,其中 r 为 x 和 y 取值不一样的属性的个数,s 为 x 和 yr + s, x n取值一样的属性的个数。对于非对称的二元变量,常用系数来表示,其中最常用的是 Jacard 系数。下面给出常见
11、系数的计算公式, 设 x =x , x ,12y = y , y , y 为二元数据,常用 0-0 匹配表示 x =0 且 y =0,同理可用 0-1、12nii1-0 及 1-1 匹 配 表 示 x及 y 相 应 的 取 值 , 其 中 f表 示 集 合()i iijx , yx =i且 y =j, k = 1,2, n的基数, i, j 0,1 。kkkku Jacard 系数 J =f11f+ f+ f011011u Rogers-Tanimoto 系数 RT =ff+ f+11002( ff) + f00011011u Sokal-Sneath-a 系数 Sa =(3) 其他相像度2(
12、 f+ f)+11002 fff2 f00011011u 余弦相像度 cos(x, y) =xy,其中xy=nxyi=1x y , x =ni=1x2kiiu 相关系数构成的相像度s(x, y) = corr(x, y)或者s(x, y)= 1+corr(x, y)22.2 聚类算法2.2.1 传统聚类算法及其比较聚类分析的核心就是聚类算法,在不断的进展过程中演化出了多种经典的聚类算法,在现有文献中,传统的聚类算法主要有几种类型:划分方法、层次方法、密度方法、模型方法和网格方法。(1) 基于划分的方法对于给定的包含n个数据对象的数据库,通常基于划分的方法要求用户给定 构建数据的最终划分数目k,
13、通过承受目标函数最小化策略,将数据分成 k个簇。可以看出,算法将整个数据集划分为k个簇,同时满足以下两个条件:每个簇 至少包含一个数据对象;每个数据对象必需属于且唯一的属于一个簇。但在某些模糊划分技术中,如在FCM算法中,其次个要求可以放宽。给定划分数目 k,基于划分的方法首先创立一个初始划分,通常承受的方法是随机选取k个数据对象作为初始聚类中心点,然后承受一种迭代的重定位技术,尝试通过对象在划分间移动来改进划分,承受的准则是:在同一个簇中的数据对象尽可能相像,不同的簇中的数据对象尽可能相异。依据对象在划分之间移动的衡量参数和簇的表示方法不同,基于划分的方法主要包括有K-Means法,K-中心
14、点算法以及对他们的扩展。(2) 基于层次的方法层次的方法按数据分层建立簇,形成一棵以簇为节点的树。依据层次如何形成,层次的方法可以分为分散的和分裂的。分散的方法,也称自底向上的方法,该方法从数据点作为个体簇开头,每一步合并两个最接近的簇,直到全部的簇合并为一个(层次的最上层),或者到达一个终止的条件。在这里,推断最接近的簇需要簇的接近性定义。大多数的层次聚类算法都属于这类。分裂的方法,也称为自顶向下的方法,它与分散的方法正好相反,该方法从包含全部点的一个簇开头,每一步分裂一个簇,最终每个对象在单独的一个簇中,或者到达一个终止条件,比方到达某个期望的簇数目,或者两个最近的簇之间的距离超过了某个闭
15、值。在这种状况下,我们需要确定每一步分裂哪一个簇,以及如何分裂。无论是分散算法还是分裂算法都要承受一个划分准则,以便判定簇之间的相像性或相异性,五个广泛承受的簇间距离度量方法如下:d(C ,C ) = min P - P , PC , PC.最小(单链)距离:minijijiijj.最大(全链)距离: d(C ,C ) = max P - P , PC , PCminijijiijj.平均值(质心)距离: dmean(C ,Cij) = mi- m,其中 mji、 m 是 C ,Cji的质心j.平均(组平均)距离: d(C ,C ) =nP - P , PC , PCavgijijiijj1n
16、ij.中心点距离: dmedian(C ,Cij) = Mi- M,其中 M 、 Mji是 C ,Cji的中心点。j这里 P - P 表示两个对象 P 和 P 之间的距离, m 是簇C的平均值(质心),ijijiiM 是簇C 的中心点,而 niii是簇C 中对象的数目。i如图 2.1 所示,分散的层次算法和分裂的层次算法在包含五个对象的数据集合上的处理过程。分散的方法将每个对象看作一个簇,然后将这些簇一步一步进展合并。图中簇 a 和 b 相像性最高首先进展合并,其次是 d 和 e,再 de 合并的簇与簇 c 合并,最终与 a,b 组成的簇合并,合并过程反复进展直到最终合并为一个簇。而在分裂方法
17、处理的过程中,初始时全部对象都放到一个簇中, 依据数据对象之间的相异性将该簇分裂,簇的分裂过程反复进展,直到最终每个簇中只包含一个对象。图 2.1 分散和分裂层次聚类算法层次聚类算法可以在不同粒度水平上对数据进展探测,而且很简洁实现相像度量或距离度量。但是层次聚类算法由于合并或分裂簇的操作不行逆,也给聚类结果带来不准确性。有一些技术试图抑制“合并是最终的”这一限制。一种方法试图通过移动树的分支以改善全局目标函数。另一种方法使用划分聚类技术来创立很多小簇,然后从这些小簇动身进展层次聚类。分散层次聚类技术使用各种标准,在每一步局部地确定哪些簇应当合并 (或分裂,对于分裂方法)。这种方法产生的聚类算
18、法避开了解决困难的组合优化问题。这样的方法没有很难确定初始点和局部最小问题。但是,在很多状况下, O(n2 log n) 的时间简单度和O(n2 ) 的空间简单度阻碍了它们的应用。通常在解决实际聚类问题时把层次方法与其他方法结合起来。改进层次方法聚类质量的一个很有前途的方向, 是把层次聚类和其他聚类方法相结合起来,形成多阶段的聚类,改善聚类质量。这类方法包括 BIRCH 和 CURE 算法等。BIRCH 算法利用层次方法进展平衡迭代归约和聚类。它引入了两个概念:聚类特征和聚类特征树。聚类特征是一个反映类内对象信息的三元组,包含类内数据点的个数、线性和以及平方和。它首先将对象划分成树形构造,然后
19、承受其他聚类算法对聚类结果求精。 BIRCH 算法承受多阶段聚类技术,对数据集进展一遍扫描后生成初步簇的 CF 树,再经过一遍或多遍扫描改进 CF 树的质量。CF 树建好后,可以使用任何聚类算法,如典型的划分方法,对其叶节点进展聚类。BIRCH 算法支持增量聚类。当插入数据对象时,CF 树可以动态构造,CF 树的重建类似于 B+树构建中的节点插入和分裂。但由于 CF 树的每个节点的大小的限制,可能导致节点并不总是对应于用户所认为的一个自然聚类。而且,假设簇不是球形的, BIRCH 算法不能很好地工作,由于它用了直径的概念来掌握聚类的边界。CURE 算法使用各种不同的技术创立一种能够处理大型数据
20、、离群点和具有非球形和非均匀大小的簇的数据的方法。CURE 使用簇中多个代表点来表示一个簇。实际上,CURE 是从一个簇中选择肯定数目散布很好的点来代表该簇,这些点能够用于确定簇的外形和大小。一旦选定代表点,他们就以肯定的收缩因子向簇中心收缩,这有助于减轻离群点的影响。使用这些点收缩之后的位置来代表簇,从中找到最近的两个簇,然后把它们进展合并。CURE 算法抑制了利用单个代表点或基于质心的方法的缺点,可以觉察非球形及大小差异明显的簇。同时承受了收缩因子在处理孤立点上也更加强健。(3) 基于密度的方法很多算法中都使用距离来描述数据对象之间的相像性,前面提到的两种聚类方法就是基于这种相像性进展聚类
21、,这样的聚类方法对于大局部的球形簇聚类效果较好。但往往对任意外形的簇聚类结果较差,甚至无法进展有效聚类,因此提出了基于密度的聚类方法。这类方法将簇看作是数据空间被低密度区域分割开的高密度区域。该类算法除了可以觉察任意外形的类,还能够有效去除噪声。典型的基于密度的聚类方法包括 DBSCAN 和 OPTICS。1) DBSCAN算法主要思想是:只要接近区域的密度 (对象或数据点的数目)超过某个预先设定的闭值,该数据对象就属于此簇,并连续聚类,直至全部的对象都唯一的划定到一个簇中。基于密度的聚类方法通常是对于给定类中的每个数据点,在一个给定范围 的区域中设定必需至少包含数据点的数目。它定义簇为密度相
22、连点的最大集合。以下为有关密度的一些相关概念:. e-邻域:给定对象 e半径内的区域称为该对象的 e-邻域;.核心对象:假设一个对象的 e邻域至少包含最小数目 MinPts 个对象,则称该对象为核心对象,MinPts 由用户给定;.直接密度可达:给定一个对象集合 D 假设 p 是在 q 的 e-邻域内,而 q是一个核心对象,我们说对象 p 从对象 q 动身是直接密度可达的;.密度可达:假设存在对象链 P , P12, P , Pn1= q , Pn= p 对P Di( 1 i n), P 是从P 关于 e和 MinPts 直接密度可达的,则对象 P 是从对象 qi+1i关于 e和 MinPts
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 指标 面板 数据 聚类分析 研究
限制150内