大数据典型相关分析的云模型方法.pdf
《大数据典型相关分析的云模型方法.pdf》由会员分享,可在线阅读,更多相关《大数据典型相关分析的云模型方法.pdf(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2013 年 10 月 Journal on Communications October 2013 第 34 卷第 10 期 通 信 学 报 Vol.34 No.10 大数据典型相关分析的云模型方法 杨静,李文平,张健沛(哈尔滨工程大学 计算机科学与技术学院,黑龙江 哈尔滨 150001)摘 要:针对传统大数据典型相关分析(CCA,canonical correlation analysis)方法的高复杂度在面临大数据 PB 级数据规模时不再适应的现状,提出了一种基于云模型的大数据 CCA 方法。该方法在云计算架构的基础上,通过云运算将各端点云合并为中心云,并据此产生中心云滴,以中心云滴作为
2、大数据的不确定性复原小样本,在其上施以 CCA 运算,中心云滴的较小数据量提高了运算效率。在真实数据集上的实验结果验证了该方法的有效性。关键词:大数据;典型相关分析;云模型;云运算;云计算 中图分类号:TP391 文献标识码:B 文章编号:1000-436X(2013)10-0121-14 Canonical correlation analysis of big data based on cloud model YANG Jing,LI Wen-ping,ZHANG Jian-pei(College of Computer Science and Technology,Harbin Eng
3、ineering University,Harbin 150001,China)Abstract:The complexity of traditional CCA methods is too high to meet the requirements to analyze big data due to their huge scale which is reaching the level of peta-byte.A novel approach to CCA was proposed to mine the big data by introducing the cloud mode
4、l which is a brand-nowel theory about the uncertainty artificial intelligence.A distributed ar-chitecture based on cloud computing was established.All of the clouds distributing on the nodes of the distributed archi-tecture were combined to a center cloud via cloud operation(where cloud is a synopsi
5、s of data and which is a concept coming from the cloud theory).A type of virtual sample of data called cloud drops created based on the center cloud.Fi-nally the computing of CCA was imposed on the cloud drops.The CCA was impose on the cloud drops with less volume,which improves the efficiency.Exper
6、imental results on real data sets indicate the effectiveness of this method.Key words:big data;canonical correlation analysis(CCA);cloud model;cloud operation;cloud computing 1 引言 自 2008 年 9 月Nature杂志推出名为“大数据”(big data)的封面专栏1以来,产业界和学术界便掀起了大数据研究热潮。数据量巨大是大数据的首要特性,通常认为PB级别及其以上的数据称为“大数据”。大数据还具有稀疏价值特性,即大
7、数据所携带的信息在刻画某特定知识方面是冗余的。这些特性为大数据挖掘带来了巨大的挑战。大数据典型相关分析(CCA,canonical correla-tion analysis)是大数据研究的重要内容之一,它不仅有助于揭示大数据间的相关关系,而且可提取蕴含于大数据中的低维特征。大数据CCA可用于大数据特征融合2、机器学习3、数据降维4、数据流挖掘5等领域。因此大数据CCA具有重要的意义。大数据 CCA 研究极具挑战性,其困难不仅源于 CCA 本身具有的高复杂度,而且也来自大收稿日期:2013-04-21;修回日期:2013-07-30 基金项目:国家自然科学基金资助项目(61370083,610
8、73043,61073041);高等学校博士学科点专项科研基金资助项目(20112304110011,20122304110012);黑龙江省自然科学基金资助项目(F200901);哈尔滨市科技创新人才研究专项基金(优秀学科带头人)资助项目(2011RFXXG015)Foundation Items:The National Natural Science Foundation of China(61370083,61073043,61073041);The Research Fund for the Doctoral Program of Higher Education of China(
9、20112304110011,20122304110012);The Natural Science Foundation of Heilong-jiang Province(F200901);The Harbin Special Funds for Technological Innovation Research(2011RFXXG015)doi:10.3969/j.issn.1000-436x.2013.10.015 122 通 信 学 报 第 34 卷 数据巨大规模以及稀疏价值等特性。面向传统数据的 CCA 方法的高空间复杂度在面临大数据PB 级规模时已不再适应。针对此问题,本文拟研究
10、一种基于云模型的大数据 CCA 方法,期望该方法能克服大数据巨大规模所带来的高复杂度等困难。云理论是一种实现定量数据和定性概念之间相互转换的不确定性人工智能方法,最早由我国学者李德毅院士提出。云的具体实现称为云模型。云模型在信任评估6,7、时间序列挖掘8以及图像分割9等广泛领域得到了成功应用。然而,将云模型与CCA结合,以用于大数据研究还鲜有学者涉足,本研究拟在此方面展开初探工作。本文首先根据逆向云发生器生成各云端的数据概要;其次将数据概要发送至中心云端,利用云运算操作产生中心云数字特征;最后根据中心云数字特征,利用正向云发生器产生中心云滴,在中心云滴上施加 CCA 操作。中心云数字特征刻画了
11、各云端中数据的语言值,据此产生的中心云滴是原来大数据的不确定性复原小样本。中心云滴在概念粒度上携带了原始数据的重要信息,从这个意义上来说,研究中心云滴不是在原始数据上直接计算,是探讨大数据挖掘的一个良好视角;此外,中心云滴的小样本特性为 CCA 赢得了效率。2 基础知识回顾 2.1 CCA CCA是研究2个随机向量之间相关性的一种常用多元统计方法10。给定p维随机向量X和q维随机向量Y,pq,CCA的目标是寻找投影向量k 和k,使得在方差TTvar()var()1kk=XY的约束下,Pearson相关系数 TTTTT(,)()()xyxxyykkkkkkkk =C X Y C C (1)达到最
12、大值。其中,TTxyyx=CCXY为 X 和 Y 之间的互协方差矩阵,而Txx=CXX和Tyy=CYY分别为X 和 Y 的自协方差矩阵。称TkX 和TkY 为 X 和 Y的第 k 对典型相关变量,其相关系数称为第 k 个典型相关系数。CCA 实质是一个最优化问题。以第一对典型变量为例(省略1和1下标),即求 TTT11,max,s.t.1,1 xyxxyypq =C C C (2)其中,s.t.表示约束条件,为实数域。用拉格朗日(Lagrange)乘子法求解式(2)有 11yyyx=C C (3a)12xyyyyxxx=C C CC(3b)式(3b)是广义特征值问题,由此解出和,代入式(3a)
13、可得。即为所求典型相关系数。CCA 有多种解法,如基于 SVD 的方法等,具体可参阅文献11,12。2.2 云和云模型 设U为定量论域,C为其上的定性概念,若xU 是C的随机实现,且x对C的确定度()0,1x是有稳定倾向的随机数。:0,1,()Uxx 则x在U上的分布称为云(cloud),而x称为云滴(cloud drop)13。云理论用期望Ex、熵En和超熵He3 个数字特征来表征概念的整体定量特性。在不至混淆时,也将云的 3 个数字特征构成的三元组(,)Ex En He称为云。云模型是云的具体实现。由云数字特征产生云滴的实现称为正向云发生器,而由云滴群得到云数字特征的实现称为逆向云发生器。
14、由于正态分布的普适性,建立在其上的正态云是各种云模型中最重要的一种。期望曲线是云理论研究数据集在空间中随机分布统计规律的重要方法,一般方程为 22exp()/2()yxExEn=(4)云运算是云理论中用语言值进行计算和推理的重要基础。给定 2 个一维云1111(,)CEx En He和2222(,)CEx En He,则1C加2C之和(,)C Ex En He可以定义为 1222122212()()()()ExExExEnEnEnHeHeHe=+=+=+(5)需要补充的是,“云”一词有趣地同时光顾了云计算和云理论,为了不至于混淆,本文所述云端皆指云计算平台中的分布式节点或机群,而其他关于云的词
15、汇,特指云理论中的概念。此外,应将云第 10 期 杨静等:大数据典型相关分析的云模型方法 123 运算和云计算区别开来。云运算是云理论中对云进行操作的规则,属于不确定性人工智能范畴;而云计算是一种计算范式,强调计算资源的有效利用和整合,与云运算截然不同。3 相关工作 人类在科研和工程实践项目中收集的大量数据多数具有大数据特性,但将大数据抽象出来作为一门独立科学进行研究还是最近的事14。在生物信息学等领域,Benjamin等人深入研究了在系统神经生物学领域担当重要角色的生理电大数据压缩及存储等问题15;Aronova等人将生物学研究中收集的数据视为大数据,从大科学(big science)视角挖
16、掘这类数据蕴含的重要知识16;Werner则更进一步,从方法论角度分析了如何应对大数据生物学带来的挑战17。在数据挖掘等领域,Alfredo等人从数据仓库和OLAP等视角分析了多维大数据研究存在的问题以及研究趋势18;Steven等人研究了大数据挖掘中的在线特征选择问题19;Simon等人基于模糊查找词典(fuzzy find dictionary)研究了一种面向数据流大数据的数据流聚类方法20;John研究了大数据上的并行学习问题21。在面向大数据的程序开发和存储等方面,Thomas等人探讨了如何在大数据上构建程序实现问题22;Yu等人提出了一种可扩展的用于大数据分析的分布式系统23;Kyu
17、seok以及Jens等人同时探讨了MapReduce架构在大数据分析中的应用24,25;Divyakant等人分析了大数据及云计算现状和研究挑战26;Huiqi等人研究了在云平台上进行可视聚类的一种方法体系27。此外,也有学者开始涉足大数据安全方面的研究,如Colin等人探讨了大数据中存在的安全问题及解决策略28。大数据研究还刚刚起步,尽管有学者探讨了基于云计算平台的大数据存储方法,但未发现关于大数据 CCA 的研究报告,也未发现在此方面基于云理论的研究方法,期望本研究能对此做出些许初探性工作。4 大数据 CCA 方法 本节重点研究基于云模型的大数据 CCA 方法(BDCCA,big data
18、 CCA)。首先阐述面向大数据的云架构,其次重点探讨端点云的生成方法,再次研究端点云的合并技术。下文约定运算符,为欧氏内积,而为 Hadamard 积。4.1 面向大数据的分布式云架构 就容量而言,PB 级数据量被认为是大数据的显著特性,这一特性使得大数据一般通过机群等分布式方式存储。迄今为止,云平台是大数据存储的理想载体。本研究假设大数据以分布式方式存储在云端。图 1 刻画了所提出的由若干个云端构成的大数据分布式云架构。此云架构从功能上分 4 层:1)顶层为数据存储层,其中,第i个云端存储第i段数据Datai;2)第 2层为多维逆向云发生器(MBCG,multidimensional bac
19、kward cloud generator)层,其核心任务在于由原始数据产生各云端的云,即端点云;3)第 3 层为中心云端(center node),该层主要进行云合并运算,并用于产生和存储中心云滴;4)第 4 层为应用层(applications),基于中心云滴,在此层可进行CCA等挖掘或分析任务。在大数据分布式云架构中:1)根据多维逆向云发生器MBCG,由第i个云端中的数据Datai产生端点云(,)iiiiCEx En He,简记为iC;2)将iC传送至中心云端的云收集器(collector);3)将云收集器中的云传送至多维云合并节点(MCC,multidimensional cloud
20、combiner);4)根据多维云合并运算,将所有云iC合并为中心云(,)C Ex En He,简记为C;5)将中心云C传送至多维正向云发生器(MFCG,multi-dimensional forward cloud generator)节点;6)根据MFCG,由中心云C产生中心云滴;7)应用层中CCA等任务到中心云端获取中心云滴,并据此进行相应的挖掘任务。此云计算架构用于处理大数据是合适的。1)各云端向中心云端仅传送数据概要,即由云数字特征构成的三元组,如此小的数据量传送是快速的;2)由中心云产生的中心云滴群规模往往较小,这有助于提高 CCA 的运算速度。4.2 BDCCA 执行流程 BDC
21、CA 的基本思路在于:1)在各云端利用逆向云发生器根据当前云端中数据并行生成云(即云数字特征);2)将各端点云发送至中心云端,利用多维云合并操作,在中心云端产生中心云;3)根据中心云,利用正向云发生器产生中心云滴;4)在中心云滴上施加 CCA 操作。图 2 描述了其执行流程。124 通 信 学 报 第 34 卷 图 1 大数据分布式云架构 图 2 BDCCA 执行流程 第 10 期 杨静等:大数据典型相关分析的云模型方法 125 数据在每个云端分为iX和iY两部分,其中,ip niX和iq niY,in为第i个云端中的样本数目,p为iX的维数,q为iY的维数。特别地,同类数据的维数在所有云端都
22、一致,而样本数目可以不同。此外,云端个数m、各云端标识符iN、云重要度向量T12(,)m=以及中心云滴数目等需预先设定。流程执行结束后,输出典型相关系数向量 以及对应典型相关向量为列的矩阵U、V。基于式(3),可通过特征分解或 SVD 等方法求解 X和 Y 的典型相关系数和典型相关变量,具体可参阅文献11。本文将采用文献30的多维正向正态云发生器产生中心云滴群(,)xdrop X 和(,)ydrop Y。限于篇幅,此两点不再赘述。图 2 所示流程中,产生各端点云以及在中心云端进行云合并是关键,后文将分别详述这两点,一方面后文将对多维逆向云发生器进行改进,使之适宜于在大数据环境下产生各端点云;另
23、一方面将提出一种一次合并多个多维云的方法,以提高大数据环境下云合并运算的效率。4.3 端点云生成 所谓端点云的生成,是指根据逆向云发生器,由云端中数据产生云的过程。本文采用无确定度的多维逆向正态云发生器30作为端点云的生成模型。尽管已将大数据存储于分布式云架构各云端(如图 1 所示),但是由于大数据的巨大容量特性,在每个云端所存储的数据量往往还较大,现存多维逆向正态云发生器不再满足大数据环境下计算效率的要求,对之加以改进是必要的。为了提高多维逆向正态云发生器在大数据环境下产生云的效率,本文基于随机采样法,采用启发式云生成策略,将多维逆向正态云发生器拓展到大数据情形。4.3.1 大数据随机采样
24、本文借鉴随机子空间法29思想,在各云端进行大数据随机采样。设各云端将大数据分为若干块,首先对每块按照相同划分方式将其分割成s个子块;然后将所有块中相同位置的子块转换成列向量并进行组合,形成一个子块集,如图 3 所示。基于划分的数据块,在每个子块集上执行随机采样。对第i个子块集iT,根据随机子空间法思想,随机产生*r维索引向量*12,irjjj=I,*rr,则下一次迭代时将加大随机采样的样本容量;反之若iC负向偏离1iC,即1iiCC,则下一次迭代时将减小随机采样的样本容量。其中,0,为常量。此策略的 2 个关键问题在于,其一每次迭代后云的更新;其二相邻两次更新所生成云之间差异的刻画或度量。图
25、3 数据子块划分 126 通 信 学 报 第 34 卷 4.3.3 云的部分增量式更新 每次迭代后的云更新是云的启发式生成策略需要解决的首要问题。云更新即是云期望11nkkxn=Ex、熵/2n=EA和超熵2enn=HSEE的更新。其中 11|nkkn=A|xx 211()()1nkkkn=Sxxxx 若记 1111=()()|iiiniikkinikikiknikikxn=Exxxxxx|xx(6)其中,in为第i次迭代后的样本1inkk=x总容量,而in为第i次迭代进行随机采样所得的样本1inkk=x容量,显然-1=+iiinnn。云增量式更新的本质在于:用1ixE刻画ixE;根据1i 求解
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 典型 相关 分析 模型 方法
限制150内