基于项目合作的社会关系网络构建-何贤芒.pdf





《基于项目合作的社会关系网络构建-何贤芒.pdf》由会员分享,可在线阅读,更多相关《基于项目合作的社会关系网络构建-何贤芒.pdf(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、计算机研究与发展DOI:107544issnl00012392016201 51172Journal of Computer Research and Development 53(4):776784,2016基于项目合作的社会关系网络构建何贤芒h 4 陈银冬2 李 东3 郝艳妮31(宁波大学信息科学与工程学院浙江宁波315211)2(汕头大学工学院 广东汕头 515063)3(国家自然科学基金委员会信息中心 北京 100085)4(复旦大学计算机科学技术学院 上海 200433)(hexianmangnbueducn)A Construction for Social Network on
2、the Basis of Proj ect CooperationHe Xianman91一,Chen Yindon92,Li Don93,and Hao Yanni31(Facult了of Information Science and Engineering,Ningbo University,Ningbo,Zhejiang 315211)2(College of EngineeringShantou University,Shantou,Guangdong 515063)3(Information Center,National Natural Science Foundation of
3、 China,Beijing 100085)4(School of Computer Science,Fudan University,Shanghai 200433)Abstract For the time being,the social network based on paper cooperation has gained a great deal ofattention,but there exists inaccurate entity recognition,failing to update data in time,and uncertaindata quality et
4、c In view of this,this paper puts forward the cooperation on the basis of the historyproject application,and the problem of the entity recognition attributes to a clustering problemThecomDutational complexity of the problem is provedThen the algorithm is proposed to settle theproblemFinally,the effi
5、ciency of the algorithm is verified by the experiments on real dataKey words project cooperation;social network;entity recognition;clustering;computatlonal geometrYproblems摘要 目前,基于论文合作关系的科学研究人员社会关系网络得到了极大的关注,但是存在实体识别不准确、数据更新不及时等数据质量问题有鉴于此,提出利用历年项目申请书的合作关系,同时将实体识别问题归结为一个聚类问题,证明该问题的计算复杂度,然后提出了算法来解决该问题
6、,最后在真实数据上验证算法的效率关键词 项目合作;社会关系网络;实体识别;聚类;计算几何问题中图法分类号TP31113l收稿日期:2015一1221;修回日期:201603 11基金项目:国家自然科学基金项目(61103244,U1509213);广东省自然科学基金项目(201 5A030313433);广东省高等学校优秀青年教师培养计划项目(Yq2013074);广东省普通高校特色创新项目(2015KTSCX036);广东省高校工程技术研究中心建设项目(GCZXA1306);信息与通信工程浙汀省重中之重学科开放基金项目;中国博士后科学基金项目(2013M540323);教育部人文社会科学研究
7、项目(1 5YJA630069);汕头市科技计划项目(98)This work was supported by the National Natural Science Foundation of China(61103244,U1509213),the Natural ScienceFoundation of Guangd。ng Province of China(2015A030313433), the Foundation for Distinguished Young Talents in HigherEdueation of Guarlgdong(Yq2013074),the Ch
8、aracteristic Innovation Project in Higher Education of Gua“gdo“g(201 5KTSCX036)the Engineering and Technology Research Center of Guangdong Higher Education Institutes(GCZX A1306),the Top Pri。rity of the DiscipIine(Information and Communication Engineering) Open Foundation of Zhejiang,the ChinaPostdo
9、ctoral Seience Foundation(2013M540323),the Humanity and Social Science Foundation of Ministry of Education of China(1 5YJA630069),and the Shantou Science and Technology Foundation(98)通信作者:陈银冬(ydchenstueducn)万方数据何贤芒等:基于项目合作的社会关系网络构建 777由于社交网络的繁荣发展和广泛应用,越来越多的研究者将其科学研究和应用开发的注意力集中到社会网络这种虚拟世界当中社会网络分析已然成为
10、社会学、地理学、经济学、信息科学等诸多学科的重要研究内容,其研究涉及了数据挖掘、知识管理、数据可视化、统计分析、社会资本、小世界理论、信息传播等多个学科基于社会关系网络数据进行数据挖掘和潜在模式分析比传统数据统计分析更加科学、效果更好、应用前景更突出,通过对社会网络进行挖掘可以获得比简单实体数据更详实(如实体在社会网络中的关系)、更准确(如挖掘实体间的关系)的信息目前国内已有的基础研究人员社会关系网络主要是基于论文合作关系的信息服务平台,具有代表性的工作有深圳爱瑞斯公司研发的科研之友u J、清华大学知识工程库开发的ArnetMiner21、CCF学术空间(仅限计算机领域的合作关系)E3、中国人
11、民大学研发的学术空间ScholarSpace4一等这些平台共同的特点是提供了针对网络中海量文献检索服务,同时从作者、期刊会议、工作单位、学科领域、合作者关系等多个角度进行统计与分析,还挖掘出基于论文合作的合作关系但是上述平台的数据主要抽取网络中的不确定性数据,存在数据来源多样化、格式不一致、数据不准确、更新不及时等数据质量问题,导致实体识别不准确本文的研究动机有如下2个:1)张冠李戴在实践中,作者中文姓名重复的现象非常普遍比如中文名“张伟”,我们对CNKI数据库经过专门的实体识别后发现,存在460多个张伟对这众多似是而非模棱两可的“张伟”,哪怕采用人工尚有不小难度,更何况是计算机呢?“张伟现象
12、”的根本原因在于从论文中提取的信息太少,只包括姓名、单位、邮箱、期刊名、论文共同作者等有限信息,而且在关于邮箱信息上往往也只有通信作者的邮箱(如果考虑到格式问题,很多作者的邮箱也不完整)。因此,基于论文合作的社会关系网络的构建,即使考虑领域信息和共同合作关系,也无法做到准确的识别“张伟现象”仅仅是以论文合作社会关系网络的构建中的一个普通案例事实上,我们在尝试构建3 000多位国家杰出青年基金获得者的社会关系网络时,依然存在识别准确性不高的现象,特别是论文与作者问张冠李戴的现象相当突出因此,基于论文合作的社会关系网络难以做到对实体的准确识别2)项目合作论文和项目都是科研工作者最主要的科研成果形式
13、,也自然是科研合作最常见的表现形式既然基于论文合作构建社会关系网络比较困难,那么是否可以基于项目合作来构建社会关系网络呢?通过项目共同参与申请,将实体联系成一个复杂的社会关系网络在社会关系网络中,每一个实体都是一个顶点,同一申请书中的申请人A与参与者B之间存在有向边:BA,其他参与者之间没有边关联由于申请人也往往是其他项目中的参与者,如此便构成了一个复杂的社会关系网络以国家自然科学基金委员会(简称基金委)每年接收的申请书为例,目前已累积1000多万条申请人与参与人的信息,这些申请者的信息包括姓名、性别、单位、邮箱、身份证号、出生日期、职称、申请人参与者等通过对真实数据分析发现,绝大多数信息都是
14、完整准确的需要强调的是:同一实体在不同申请书中的信息有可能并非完全一致比如由于工作调动而导致单位、邮箱等信息的变化而更加特别的现象是,部分实体基于某些原因(比如规避基金委的申请限项规定)而故意错误填写某些关键信息(比如身份证号码)表1给出了项目申请书合作关系的一个示例其中,id,prp code,name,sex,org name,Table 1 An Example of Cooperation in Project Application表1项目申请书合作关系示例万方数据778 计算机研究与发展2016,53(4)birthday,email,ispc,cardcode等字段分别表示元组序
15、号、项目受理号、姓名、性别、单位、出生日期、邮箱、是否项目负责人、身份证号等基于隐私保护考虑,已对身份证号进行了替换处理在通过手工整理与实体识别处理后发现:基于项目合作的社会关系网络关系准确、可靠性高,为科学基金项目管理提供辅助检索与查询,保证科学基金的公正与公平,具有重要的研究价值和现实需求本文的主要工作包括3个方面:1)提出了一个基于项目合作的社会关系网络的构建设想,并从中发现一个重要现象:3个属性值相同的元组可以认定为同一实体,从而引出本文讨论的主要问题2)研究求解该问题的计算复杂度通过证明该问题等价于计算几何中的USEC问题,说明该问题的计算复杂度的下界满足n(托刮3),除非USEC问
16、题和Hopcroft问题在算法理论上有重大突破3)利用数据聚类方法构建一个基于项目合作的社会关系网络,并提出高效的解决算法,同时基于真实数据对算法运行效率进行了验证1基本概念与问题定义给定一个数据集丁(A。,A。,A。),假定T共有d个属性,用tEA,表示其属性值,数据集中的一个点称为对象定义1一邻域B(多,)给定对象多,其半径e内的区域称为该对象的s一邻域定义2核心对象(core point)如果给定对象e-邻域B(声,e)内的样本点数大于等于MinPts,则称该对象为核心对象,其中参数MinPts是一个预先给定的正整数定义3密度可达对于数据集T,如果存在一个对象链P。一q,P:,P s,P
17、t,PtP,其中P,P2,P女,是核心对象,且p:一-B(P:,),i一1,2,k一1,则称q密度可达P例1图1给出一个密度可达的示例此时Mi,IPs一3,P,密度可达P。,对象链是P,Pc,Pj,但Pj并非核心对象在数据整理的实践过程中,我们发现了重要现象(以下统称为“三属性现象”):观察1申请人数据库中,在性别相同的情况下,任何2条元组只要在姓名、单位、邮箱、身份证、出生日期等5个主要属性上有3个以上的值相同,00 凡Pl o尸2P4Fig1 An example for MinPts:3图1 MinPts:3的示例图可认定为同一实体根据“三属性现象”,在表1中,元组t,tj,t。,t。可
18、认定为同一实体,元组t2,t3,6也可认定为同一实体,而对元组t,则无法确定其是否与元组t。,t。,。为同一实体此外,对于一些明显错误的证件号码比如123456,2222222,00000000等进行去除操作,同时注意到2个不同的申请人伪造了相同的证件号码可能性是很低的,比如表1中的证件号码000000123456789012,尽管是错误的,但仍然有参考价值定义43一属性值相同(3-attribute valuesame)任取数据集T中2条元组t,t。E T,如果存在至少3个属性值相同,便认定为同一实体定义5距离2个元组t1,t2的距离dist(tl,t2)定义如下:一f 1,J i:1id,
19、t】EA:一t。A。J3;出“1嘞户10,id,tl EA:一。A,I3,按照上述类和距离的定义,将数据集T分成不同的类2聚类问题的计算复杂度首先给出2个计算几何问题和若干已经证明的相关结论21 2个计算几何问题定义8USEC问题给定一些半径r相同的球集合5叫和点集S判断是否存在某个点PS,P在某个球内其中,点和球均为d维数据,d是常数定义9Hopcroft问题给定2一D空间上的点集S。和一些线S嘶。,判断是否存在某些点PE S叫P在S。的某些线上定义10Hopcroft困难问题口】如果问题X可以在()(引3)内解决,表明存在算法在o(n刮3)内解决Hopcroft问题,那么问题X是Hopcr
20、oft困难问题换句话说,如果Hopcroft问题能在n(押4加)时间内解决,那么问题X也存在同样时间复杂度的算法设卵一f S。f+l S川I,当d一3时,USEC问题可以在O(九log)副3)内解决,而寻找时间复杂度O(n 43)的算法依然是公开难问题类似地,设九一S。l+J S。I,研究认为Hopcroft问题的时间复杂度是n(册叫3),而对于USEC问题则有结果:引理16当d5时,USEC问题是Hopcroft难问题2个计算几何问题的示意图如图2所示:o(b)HopcroftFig2 TWO computational geometry problems图2 2个计算几何问题22计算复杂度
21、下面证明问题1与USEC问题等价,进而说明其与DBSCAN问题等价定理1当d4时,问题1与USEC问题等价证明对于任意维数矗4,如果我们能在厂(行)时间内解决问题1,那么就可以在厂(钾)+0(以)时间内解决USEC问题考虑到USEC问题是定义犁空间上的S。点集和半径相同的S BaIt球集合设算法A能在,(朋)内完成问题1我们设计一个算法1在f(行)+0(”)时间内回答USEC问题,行=S,l+|S叫 证毕算法1USEC问题回答算法记5。,的球心集合为S。,设数据集PS。:U5。刚球半i芑一l;在数据集上运行算法A;如果存在某个点PS。和P 7S。,在同一个类中,那么回答Yes;否则回答No显然
22、,算法l的执行时间不超过厂(理)+o(门),下面分2种情形证明其正确性情形1回答Yes情形首先注意到如果把一个类里面的点作为顶点,若顶点问距离为l则用边连接,那么在同一个类中的点便构成一个连通图若P,P 7处于同一个类中,则存在一个对象链:P。一P,Pz,P。,P;,P。一P 7,从而,一定存在P。,PH使得P,SPS。考虑到P。B(pH,),从而球覆盖了点Pi。情形2回答No情形相反地,如果P和P并非处于同一类中,那么二者之间的距离为0,故不存在某个P:属于P 7的一邻域B(P,),因此回答是No定理2当d4时,问题1与BSCAN问题等价Tao等人_3证明了DBSCAN算法与USEC问题定价
23、结合定理1,定理2的结论不言而喻事实上,问题1与DBSCAN问题的等价性是明显的,只需巧妙设置DBSCAN问题中的2个参数(Minpts一1,一1)即可此时,Minpts一1意味着DBSCAN里面所有点都是核心对象综上,本文得到问题1的计算复杂度的结论如下:当d4时,问题1与USEC问题和DBSCAN算法均等价。当d一4时,问题1需要在f(九4邝)时间内解决,除非USEC问题可以在0(,24邝)解决当d5时,问题1是Hopcroft难问题,亦即问题1需要在22(”射。)时间内解决,除非USEC问题可以在()(”“3)内解决3 相关工作目前社会关系网络研究中最受关注的是,除了基于论文合作的社会关
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 项目 合作 社会关系 网络 构建

限制150内