基于全球整合新闻数据库的开源情报关联与可视化分析-刘坤佳.pdf
《基于全球整合新闻数据库的开源情报关联与可视化分析-刘坤佳.pdf》由会员分享,可在线阅读,更多相关《基于全球整合新闻数据库的开源情报关联与可视化分析-刘坤佳.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、情报学报2017年2月 第36卷第2期Journal of the China Society for Scientific and Technical Information,Feb201 7,36(2):1 52_1 58基于全球整合新闻数据库的开源情报关联与可视化分析刘坤佳,陈科第,乔凤才,王 晖(国防科学技术大学信息系统与管理学院,长沙410073)摘 要GDELT是一个实时、开源、全球性的社会事件新闻数据库,它收录全世界从1979年至今的网络、纸质新闻报道中抽取的事件。本文设计并实现了一个GDELT数据库采集器,实时采集GDELT的元数据,并将其存储在HDFS分布式文件系统中;提出了
2、一种基于哈希的方法在Spark中对GDELT的三个主要数据表进行快速的连接操作,得到GDELT联合数据集,以便充分挖掘每个事件的详细信息;最后,以韩国地区的GDELT联合数据集为例进行了时空可视化分析,如事件热度的区域时间分布、关注媒体分布、抽取结果的置信度分布等。为情报科技工作者及相关人员提供了一个新的角度和解决方案。关键词 全球整合新闻数据库;可视化分析;关联分析Correlation and Visualization Analysis of Open Source IntelligenceBased on Global Dataset of Events,Location and To
3、neLiu Kunj ia,Chen Kedi,Qiao Fengcai and Wang Hui(College ofinformation Systems andManagement,National University ofDefense Technology,Changsha 410073,China)Abstract:The GDELT iS a real time database of global human society for open research which monitors the worldSbroadcast,print,and web news sinc
4、e 1 979,creating a free open platform for computing on the entire worldFirst,wedesigned and realized a data collectorwhich collects metadata of GDELT database in real time and stores them in aHadoop Distributed File System(HDFS)Then,we proposed a hashbased method to correlate Event tables,Mentionsta
5、bles and GKG tables in GDELT,in order to digest every detailed information of each eventFinally,we took SouthKorea as example to make spatiotemporal visualization analysis,such as Event Spatiotemporal Heat Map,Distribu-tion of Media Attention and Event Extraction Confidence Dot MaoThis all will prov
6、ide a new perspective and solution for further researchKey words:GDEIJ:visualization analysis;correlation analysis引 言全球整合新闻数据库(The Global Database ofEvents,Language,and Tone,GDELT)由美国乔治城大学教授Kalev Leetaru于201 3年创建并发布,是目前世界上规模最大、内容最全面、分类粒度最细、开源免费的冲突与调解事件数据库,包含了从1979年到现在从全球新闻媒体报道中抽取得到的各类冲突与调解事件。GDELT数据
7、库实时监测世界上65种语言的电视、广播、报纸、网络媒体甚至学术论文中的新闻事件,对其进行分析提取,提炼出新闻事件相关的人物、地点、组织和事件类型等关键信息。目前,该数据库每15分钟便会进行一次更新。GDELT数据库的主表称为Event表,该表是基收稿日期:20060528作者简介:刘坤佳,女,1994年生,本科生,主要研究方向为情报与安全信息学,Email:liukunjjal2qq com;陈科第,男,1992年生硕士生,主要研究方向为情报与安全信息学;乔凤才,男,1988年生,博士生,主要研究方向为情报与安全信息学;王晖,男,1968年生,博士,教授,博士生导师,主要研究方向为大数据与社会
8、计算、情报与安全信息学。万方数据第2期 刘坤佳等:基于全球整合新闻数据库的开源情报关联与可视化分析 153于CAMEO(Conflict and Mediation Event Observations)机制对抽取到的事件进行编码的,定义了事件的时间、参与者、事件类型、地理位置共四个方面的属性信息。Event表中设计了许多变量将原始的CAMEO人物编码分解到各变量对应的字段中进行存储,这为研究人员与数据进行交互提供了方便;事件类型被分解成不同的层级,而且每个层级对应相应的GoldsteinScale指数;同时还包含一系列用于地理位置查询的字段,提供动作的发出者与接受者所在位置和动作发生地点的具
9、体地理信息1】。在数据规模上,Event表目前包含了1979年至今36年多时间的将近379亿条事件记录,数据大小约为136 GB。这里对CAMEO定义的事件类型进行简要介绍。CAMEO的中文全名是“冲突与调解事件观察”,是用于分析国家间政策相互影响的一种新的事件数据框架。CAMEO共定义了20大类和将近300小类的冲突与调解事件,其中20大类事件编码及其描述见表1。表1 CAMEO事件类型类型编码 类型描述 类型编码 类型描述0 l 发表公开声明(MAKE PUBLIC STATEMENT) 11 反对(DISAPPROVE)02 呼吁(APPEAL) 12 拒绝(REJECT)03 表明合作
10、意图(EXPRESS INTENT TO COOPERATE) 13 威胁(THREATEN)04 磋商(CONSULT) 14 抗议(PROTEST)05 进行外交合作(ENGAGE IN DIPLOMATIC COOPERATION) 15 显示兵力态势(EXHIBIT FORCE POSTURE)06 进行实质性合作(ENGAGE IN MATERIAL COOPERATION) 1 6 减少联系(REDUCE RELATIONS)07 提供援助(PROVIDEAID) 17 迫使(COERCE)08 投降(YIELD) 18 攻击(ASSAULT)09 调查(INVESTIGATE)
11、19 斗争(FIGHT)10 要求(DEMAND) 20 使用非常规性大规模暴力(USE UNCONVENTIONAL MASS VIOLENCE)自2015年2月起,GDELT数据库引入了另外两个数据表:Mentions数据表与Global KnowledgeGraph(GKG)表。Mentions表通过全球媒体追踪每条报道的来源;记录Event表中提及的所有的事件,便于我们梳理全球媒体系统中的各类事件,使其之间错综复杂的网状的关系清晰地呈现出来。Event表中提及的每一个事件都对应着一条Mentions表记录,所以如果一个事件在Event表中被记录了100次,Mentions表中就会对应有
12、100条记录。目前Mentions表的数据规模约为831 GB(约为402亿条记录)。GKG表扩展了GDELT量化全球人类社会的能力,使其不止限于记录事件流于表面的基础信息,而是更深入地关注新闻事件的详细信息,如人物或组织信息、地理信息和情感态度等。GKG数据表应用了一系列十分复杂的自然语言处理算法,计算一系列编码元数据,将数据中隐藏的信息进行解码。一言以蔽之,它将每个孤立的人、地理位置、数字、主题、消息来源和全球的事件联结为一个巨大的网络,这个网络每天都捕捉最新的全球动态,此时此刻正在发生什么,什么人参与其中,人们对此持什么看法等2。GKG表中的全球内容分析度量(GlobalContent
13、Analysis Measure,GCAM)模块是世界上最大的情感分析模块,可以实时分析15种语言的新闻事件报道并利用该模块的24个情感度量程序包将报道划分为2300种不同的情感和主题。GKG还将新闻报道中的多媒体信息(如图片,视频等)和引用,名字,数字,日期等信息都提取出来,为后续分析整合提供了极大的方便。此外,值得一提的是,GDELT应用了世界上最大的实时新闻流翻译部署器,可以将世界上984的非英语新闻报道,涉及65种语言,实时翻译为英文。目前,GKG表的数据规模为276 TB(约277亿条记录)。基于以上对GDELT数据库的认识与介绍,本研究旨在对利用该数据库实现开源情报可视化分析进行探
14、索。首先,本文设计并实现了一个数据采集器,该采集器能够实时采集GDELT中Event表、Mentions表和GKG表的元数据,并将其存储在HDFS分布式文件系统中,从而进一步利用Spark SQL进行快速查询处理;然后,本文提出了一种基于哈希的方法在Spark中对Event、Mentions和GKG三个表进行快速的连接操作,得到GDELT联合数据集,以便充分挖掘每个事件的详细信息;最后,本文以韩国的GDELT联合数据集为例进行了时空可视化分析,如万方数据154 情 报 学 报 第36卷事件热度的区域时间分布、关注媒体分布、抽取结 3 GDELT数据存储与处理果的置信度分布等。31存储与处理架构
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 全球 整合 新闻 数据库 情报 关联 可视化 分析 刘坤佳
限制150内