基于信息损失量估计的匿名图构造方法-苏洁.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于信息损失量估计的匿名图构造方法-苏洁.pdf》由会员分享,可在线阅读,更多相关《基于信息损失量估计的匿名图构造方法-苏洁.pdf(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第37卷第6期2016年6月通信学报Journal on Communicatiom、,0137 No6June 2016doi:1011959aissn1000-436x2016116基于信息损失量估计的匿名图构造方法苏洁,刘帅,罗智勇,孙广路(哈尔滨理工大学计算机科学与技术学院,黑龙江哈尔滨】50080)摘要:首先分析了在进化的社会网络序列中,攻击者利用节点度信息,通过识别目标节点的方法对局部社会网络进行攻击过程,分析了利用k匿名方法对该类攻击进行隐私保护时存在的信息损失问题,针对该问题,提出了一种基于信息损失量估计的k匿名图流构造方法,通过子图节点属性泛化、子图内部结构的泛化控制图重构的
2、信息损失,通过禁止子图内部扰动阻止网络攻击。定义匿名过程中由于图重构造成的节点和结构信息损失的估算方法,建立了基于贪婪聚类算法的网络节点的k匿名聚类算法,根据信息损失估计实现匿名分组,在进化的社会网络中以最小信息损失量构造匿名社会网络,在医疗诊断数据集上的实验表明所提方法能够较理想地控制信息损失量。关键词:社会网络;隐私保护;k匿名:信息损失估计中图分类号:TP3092 文献标识码:AMethod of constructing an anonymous graphbased on information loss estimationSU Jie,LIU Shuai,LUO Zhiyong,
3、SUN Guanglu(SchoolofComputerScienceandTechnology,HarbinUniversityofScienceandTechnology,H盯bin 150080,China)Abstract:A potential attack based on degree information by reidentifying target vertexes from a sequence of publishedgraphs Was analyzedTo deal with this kind of attack,a k-anonymous graph stre
4、am constructing method based on infor-mation loss estimation was provided。Information loss caused by reconstructing graph was controlled by using themethod of attributes generalization of nodes and the structure generalization of subgraphne disturbance in subgraphwas forbidden to prevent the attackT
5、he method of measuring the information lOSS of nodes and structures during theanonymous process due to reconstruction of graph Was definedA k-anonymity cluster algorithm based on greedy clustering algorithm Was build,which realized anonymous partition according to the information lossFinally,a metho
6、d ofconstructing anonymous social network for the evolving social network with the least information lOSS was providedTheexperiments on medical diagnostic data set show that the algorithm of constructing anonymous graph based on the information 10SS estimation Can be used to control the loss of info
7、rmationKey words:social network,privacy protection,k-anonymity,information loss estimation1 引言随着社会网络分析方法在各个社会研究领域中的广泛应用,越来越多的研究人员开始关注社会网络相关问题ul,其中,社会网络的隐私保护成为该研究领域的关键问题之一。发布社会网络时,需要保护私人的敏感信息和社会关系,而社会网络的攻击方试图通过数据挖掘等技术发现社会网络中的敏感信息。社会网络通常以图的形式发布,网络中的节点表示个体,边表示个体间的关系。在社会收稿日期:20151112;修回日期:20160426基金项目:黑
8、龙江省自然科学基金资助项目(NoA201301);黑龙江省教育科学规划课题基金资助项目(NoGBCl21 1062);黑龙江省普通高等学校新世纪优秀人才培养计划基金资助项目(No1155-ncet-008);黑龙江省博士后基金资助项目(NoLBHZ12082)Foundation Items:The Natural Science Foundation of Heilongjiang Province(NoA201 301),Scientific Planning Issues of Educa-tion in Heilongjiang Province(NoGBCl211062),Resea
9、rch Fund for the Program ofNew Century Excellent Talents in HeilongjiangProvincial University fro1 155ncet-008),Post Doctoral Fund ofHeilongjiang Province(NoLBH-Z12082)20161 161万方数据第6期 苏洁等:基于信息损失量估计的匿名图构造方法 57网络图中,每个节点由实体一属性集合描述,有唯一的标识符,由于对社会网络的研究可以利用图工具实现,越来越多的研究人员通过研究图匿名方法来解决隐私保护问题。文献2】将匿名方法进行了分类,
10、分析了图的匿名方法,指出由于动态社会网络需要定期发布网络数据来支持动态分析,因此会造成信息的泄露。文献3,4】提出了基于群和分类的匿名图,文献5】提出了一种社会网络中数据和结构化匿名的聚类方法,文献【6】介绍了在图中怎样保护敏感关系,文献【7】提出一种基于差分隐私模型的随机扰动方法,实现边及边权重的强保护,文献8验证了匿名图中节点的再识别问题,文献9】提出了通过发布和分析合成图的方法来保护社会网络中的个人社会关系,文献【10提出一种在共享有意义的图形数据集的同时保护个人隐私的解决方案,文献11,12】研究了进化社会网络中的匿名图问题。然而,隐私保护技术仍然处于研究的初级阶段,网络的攻击方仍然能
11、够在发布的匿名图中根据背景知识找到社会网络中感兴趣的个体和相关信息,文献13,14】证明现有的图匿名方法并未取得k匿名方法的理想结果。现有的图的匿名方法分为3类:1)基于k匿名的方法,通过调整图的结构保护敏感信息【l 5161,采用k匿名方法,网络节点无法识别子图内的扣1个节点;2)基于概率的方法,通过随机添加删除边或切换边的方法保护敏感信息1 7】;3)基于泛化的方法,通过隐藏个人细节信息的隐私保护方法J。在社会网络发布过程中,通过更换节点的识别信息或者通过增加删减边来改变结构信息,实现社会网络隐私保护。由于存在大量可获取的历史发布数据和节点度信息,社会网络攻击者会在某一时刻插入一个目标节点
12、,在发布网络序列中利用背景信息识别该目标节点,实现网络攻击。针对该类攻击的匿名方法包括:1)采用节点度泛化的匿名方法,针对攻击者利用指定个体社会关系的先验知识对网络进行的攻击,通过插入或删除边的方法实现基于度匿名图的重构,使每个节点至少与卜1个节点有相同的度;2)采用k邻域匿名方法,利用贪婪图调整算法生成节点标签,插入边,使每个邻接节点能够区分卜1个节点,该方法避免了攻击者根据已知目标节点的邻接子图进行的网络攻击;3)利用k子图同构的匿名方法,重构图至少包含k个子图的同构子图,避免攻击者通过识别指定个体的任意子图进行的网络攻击。利用此类方法保护社会网络需要重构社会网络图,在此过程中产生的信息损
13、失既包括节点属性信息损失,又包括结构信息损失。在分析k匿名方法的基础上,针对社会网络发布过程中潜在的安全问题及匿名过程中的信息损失问题,本文利用匿名图工具,提出了在进化的社会网络中通过信息损失估计的方法,利用边的泛化构造k匿名图。本文创新之处如下。1)在社会网络发布过程中,利用信息损失估计方法构建k匿名子图,在节点信息损失、结构信息损失和社会网络安全级别方面取得折衷的最优值。2)利用节点信息、子图结构信息泛化构建的匿名子图,避免了扰动攻击对网络安全的威胁。3)在发布的社会网络中,通过判断网络结构图的变化选择构建子图方法,提出以极小的信息损失代价平衡网络子图构建的时间复杂性的方法,最大程度保证动
14、态网络的稳定性。2基于节点度的社会网络攻击社会网络图被定义为G(V,占),矿是节点集合,表示社会网络中的个体,E是边的集合,表示个体之间的关系。G用邻接矩阵M=(埘i)表示,n为节点数。若节点f和节点,相邻接,则m。=1,否则撒。=0。节点i的度表示为谚,谚=:朋;,J=1,2,门。匿名的发布图表示为G7(矿7,E,),用邻接矩阵M7=(聊。,)表示。节点i的度在发布的社会网图中表示为d,当社会网络随时间进化时,任意时刻t的社会网络图和发布的社会网络图分别表示为G,和G,t=0,l,2,玎。在社会网络图中,关键信息包括节点属性、表示节点间关系的边属性、节点度、目标个体的邻接关系、子图等,其中标
15、识符不会随着时间改变。图1中用来描述节点的属性信息分成3类l】2J:1)唯一标识信息,例如身份证号、驾驶证号、社会安全保障号SSN等,该类属性在社会网络发布前已经被隐藏;2)近似标识信息,例如邮政编码、家庭住址等;3)敏感属性信息,如家庭、收入等。社会网络的攻击方能够访问到Gn,Gt,G。的部分网络数据,利用节点度信息,通过查询节点相关匹配信息的候选集来识别插入在图G中的目标节点,该过程如图l所示。对图G采用边扰动的方法得到图G,由文献t8】得到利用邻接背景知识识别图G7中的目标节点的概万方数据通信学报 第37卷率小于二。为了保护个体间的联系,采用连接扰动k方法,向图中随机添加和删除相等数量的
16、边,通过向图中随机添加噪声的方法隐藏链接信息。社会网络进化过程中,社会网络的攻击方根据节点的背景知识,通过分析节点的拓扑特征识别目标节点。图1中,Go为初始社会网络图,序列G,q,G;表示社会网络随时间的进化过程,序列Gn,G,G,是匿名发布社会网络,Gn通过连接扰动方法得到发布图G0。该社会网络中,目标节点攻击方试图识别目标节点c。假设已知节点c的度,扰动律为10,攻击方推断Gn,中目标节点的度为2,4】,查询图Gn,所有节点的度都在2-4,候选目标节点序列为翻,E C,D,G)。在图G中新插入6个节点E、F、,、K和且为了在Gn中识别目标节点,攻击者用节点E、F、I、J和K连接节点C。G;
17、中C的度为6,候选节点的度应为5,7】,因此推断Gi的候选节点集合是09)。经过段时间后,攻击者在Gi中删除子网到节点C的连接后,候选节点的度应该为【2,4,推断G,中的目标节点的候选节点集合是C。因此,攻击者有机会在社会网络的进化中,利用匿名图工具,通过识别目标节点的方法实现网络攻击。上述分析表明,利用边扰动的方法实现动态社会网络匿名,攻击者可以利用收集到的节点信息实现局部网络攻击。虽然Facebook、Twitter等社会网络已经限定网络用户的访问范围,但是基于应用的需要,攻击者仍然能够利用仁述方法攻击局部开放网络。采用k邻域匿名方法能够有效控制攻击者利用已知目标节点的邻接子图信息进行的网
18、络攻击,但是构建k匿名图的过程中会有大量信息损失,31节中给出了利用贪婪图调整算法生成节点标签,通过构建信息损失量估计算法,预估计构建k匿名子图的损失量,实现最小信息损失匿名图构造。3构建社会网络的匿名子图31基于泛化的k匿名k匿名是隐私保护的经典方法,每个数据组至少包含k个无法区分的节点。传统方法通过插入或删除边的扰动方法保护节点不被识别,该匿名方法构造过程中会造成信息损失,影响数据的可信性。基于属性泛化的方法能够降低对原图结构的破坏,降低信息损失。原图 匿名图驴嘶珍G,妙!森。砷瞻瑰。砷赡图1 基于节点度的社会网络攻击为了构建k匿名子图,既要对节点信息泛化,也要对子图内部结构和子图间的联系
19、泛化。表示子图之问的关系的边显示了网络的结构特征,以实现某些应用。匿名网络结构中,子图内部不允许使用扰动方法,有效防止了基于节点度的攻击。利用节点信息、子图内部关系和子图间的关系,通过估计信息损失,构造k匿名图。社会网络图表示为G(V,E),l V lN,N为节点数,根据网络节点度信息,采用贪婪聚类算法对网络图进行节点k匿名分组,使分组满足以下2个条件:1)每个分组至少包含k个节点;2)估计聚类的信息损失,降低匿名过程的信息损失量。因此,需要定义一种信息损失的估算方法。32基于信息损失估计的匿名图重构方法基于信息损失估计的匿名图重构方法将具有相似属性且具有最小信息损失的k个节点聚为一个集合,聚
20、类分组过程中,用于损失估计的信息包括图重构信息和节点与分组的结构信息。设V表示有序节点序列v0,v1,v),节点间的邻接关系表示为邻接矩阵A=ai,),f_O,1,2,J=O,1,2,N。和v,直接连接时,ai,=1,否则口i i=0。利用该矩阵检索邻接节点,任意节点20161 163万方数据第6期 苏洁等:基于信息损失量估计的匿名图构造方法 59定誊1,翌专譬意曾,、2 7:警二:竺,节点V size(gen(s)M】)=maxX【M,上,x“【M)一和1,i间的距离定义为vj和1,间的最短距离 “ “D(vi,vj): minx1M】,厶x“M (7)Idid=ai,+q,g+绵,J,ik
21、qPJ(1)其中,ai,t=ak,g=ap。,=1,表示节点yJ和vj之间的最短路径,mrl是该最短路径上的节点数。任意节点vi(v,芒S。)与聚类集合S。间的距离定义为fD(v,_)1VvjSk,D(u,&)=业Tj (2)hl其中,节点间的距离、节点与聚类集合间的距离取值为【0,1】。在图G中选择度最大的节点作为聚类集合的中心节点,选择扣1个与当前聚类集合有最小距离但未分配的节点来构造新的聚类集合。节点间的距离和结构距离分别表示为D(vf,v,)和D(V,Sk)。根据节点属性计算聚类分组过程的信息损失包括泛化信息损失和结构信息损失【141。泛化信息损失用于计算节点描述性信息的损失【2们,定
22、义泛化信息损失为皿酬G删:圣盐出竺坐!:竺塑虬)其中,CL=S1 s:,S。)是采用聚类方法得到的分组,hl是s,的基,N=1,2,Np)和c=C1,C2,Cq分别表示数字化属性和分类结构属性的集合,S,的生成属性表示为gen(sf),生成信息损失因子分别表示为Attr(s,N)和Cate(s,C)。Attr(s,N)定义如式(4)所示,Cate(s,C)定义如式(5)所示。,lr、Fp size(g(0)【M)腑()2善面了焉群翔(4)c叱c)=圭k=l半筹(5)其中,gen(s,)包含数字和分类属性,定义为size(gen(sMM】)=【minXl【M】,x。【M】),maxX1【M,x“
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 信息 损失 估计 匿名 构造 方法 苏洁
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内