联通大数据公安情报应用技术方案培训资料20372.docx
《联通大数据公安情报应用技术方案培训资料20372.docx》由会员分享,可在线阅读,更多相关《联通大数据公安情报应用技术方案培训资料20372.docx(46页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、联通“大数据”公安情报应用技术方案联通“大数数据”公安情报报应用技术方案中国联通贵贵州省分公公司2015年年11月目录第1章 概概述51.1 项项目背景551.2 项项目建设目目标51.3 项项目建设内内容6第2章 系系统总体架架构6第3章 系系统网络及及硬件环境境7第4章 数数据能力开开发84.1 联联通总部大大数据平台台能力介绍绍84.2 数数据采集994.2.11 实时数数据采集994.2.22 定时数数据采集994.2.33 网页数数据(非结结构化)数数据采集994.3 实实时数据加加工和处理理104.3.11 Spaark平台台104.3.22 Spaark SStreaamingg
2、实时数据据加工1004.4 定定时数据存存储及加工工114.4.11 数据存存储策略1114.4.22 Haddoop存存储与加工工124.4.33 Oraacle数数据展现117第5章 应应用功能开开发185.1 数数据查询1185.1.11 号码位位置查询1185.1.22 详单查查询模块1195.1.33 号码轨轨迹查询模模块205.1.44 基站信信息查询2215.1.55 机主信信息查询模模块225.2 数数据推送2235.2.11 用户基基本信息推推送235.2.22 手机标标记信息推推送235.2.33 数据接接口245.3 监监控告警2245.3.11 标记管管理245.3.2
3、2 号码位位置告警2255.4 统统计分析2255.4.11 区域热热力255.4.22 关键词词热力2665.5 数数据分析2275.5.11 号码碰碰撞分析2275.5.22 联系人人分析2775.5.33 关系人人分析2885.5.44 外来人人员分析2295.5.55 网上异异动分析330第6章 项项目实施3316.1 人人员组织安安排316.2 项项目实施步步骤326.2.11 平台搭搭建326.2.22 功能开开发336.2.33 应用及及优化3336.3 项项目投入估估算34附件1.大大数据平台台相关技术术原理说明明341.Haddoop基基础平台3341.1.HHDFS3341
4、.2.YYarn3361.3.ZZookeeeperr372.Hbaase高速速即时查询询382.1.HHbasee基础组件件382.2.HHbasee封装组件件403.Spaark实时时数据处理理42附件2.可可对外提供供数据合作作的数据4431.用户位位置数据4432.用户特特征数据(标标签)4443.网上搜搜索关键词词数据466第1章 概述1.1 项目背景2014年年中国联通通集团大数据据平台建设设完成,平平台具备20000个计算算节点和220PB数数据量,形形成了全国国性的数据据中心,能能够基于全全国用户数数据加工数数据应用产产品。20155年贵州公公安厅计划划将大数据据应用在数数据查
5、询、预预警分析、综综合分析、治治安管理、指指挥调度等等公安情报报应用上。为此双方将联通公司的大数据进行开发利用,为公安情报应用服务。1.2 项目建设目目标建设联通“大数据”公安情报报应用平台台,服务贵州州公安情报报应用,具具体包括八八类公安情情报应用需需求: 电子地图、人人员布控:划定某一一区域实时时查询号码码个数和明明细,调取取通话记录录;当特定定号码进出出某一区域域进行实时时预警,并并显示号码码活动轨迹迹。 预警分析(涉涉恐类):设定敏感感号码关注注,对号码进进入/离开开预定区域域进行预警;设定定涉恐敏感感词、网页页、APPP,对发送送、访问、使使用涉恐敏敏感词、网网页、APPP的号码码进
6、行预警警。 预警分析(涉涉稳类):对号码进进行标签管理,进入入限定区域域预警;群体性事事件人员分分别热力图;网上串串联异动分分析。 综合分析(案案件侦查类类):对前科人员员号码进行行标签管理,进入入某个地市市预警;查查询犯罪嫌嫌疑人上网网数据、宽宽带数据、上上网行为习习惯、网上上关系人等等;对上网详详单、短信信详单文本本进行关键字字过滤;找出出在逃人员员的各种关关系人数据据; 综合分析(个个案分析):对人员和区域标记管理;号码位置查询、号码碰撞分析,目标号码进出固定区域告警;检索异常人群关键词;分析出目标号码使用的新手机号码; 服务治安管管理:区域内人员员热力分布布;外来人员员信息获取取。 服
7、务指挥调调度:警员手机机号的定位位,群发信息。 战略分析:长期上网网行为分析析;网上特定定信息分析析;全国话单单调取服务务;群体“迁徙”分析。1.3 项目建设内内容利用中国联联通全国大大数据优势势,搭建联联通“大数据”公安情报报应用平台台,服务贵贵州公安情情报应用。 平台及网络络环境搭建建:建设大大数据应用用平台,具具备数据计计算与存储储环境,打打通与用户户单位的网网络连接。 数据采集:具备对移移动网络信信令、详单单、业务日日志等数据据采集功能能。 数据实时计计算:开发发对用户位位置和轨迹迹、区域热热力、实时时告警等功功能的数据据加工处理理能力。 数据定时加加工存储:实现通信行行为、通信内容容
8、、号码轨迹迹、用户特征征的数据存存储和高速速查询;实实现分析模模型、统计汇总总、应用模型型的开发;为应用功功能加工所所需数据。 应用功能开开发:开发数据查查询、数据据推送、监监控告警、统统计分析、数数据分析应应用功能。第2章 系统总体架架构系统总体架架构分为三三层架构,硬件平台、数据能力、应用功能。系统硬件平台位于联通网络,服务器由X86服务组成,用于搭建Hadoop集群环境和Oracle数据环境。网络交换机统一采用万兆交换机。数据能力由数据采集、实时数据加工、定时数据存储加工组成。应用功能由数据查询、数据推送、监控告警、统计分析、数据分析五大模块组成。第3章 系统网络及及硬件环境境“大数据”
9、公安情报报应用平台台位于联通网网络,公安用户户通过专线线访问大数数据应用平平台。(1)服务务器统一由X886服务组组成,X86服服务器硬件件如下: 2路*8核核双线程CCPU,内内存1288G,硬盘盘16TBB,网卡66千兆;(2)大数数据应用平平台硬件组组成: Hadooop集群220台X886服务器器; Speakk实时计算算平台8台台X86服服务器; 传统Oraacle平平台2台XX86服务务器; FTP接口口机1台XX86服务务器; WEB应用用服务2台台X86服服务器; ETL流程程控制1台台X86服服务器; 万兆交换机机3台;第4章 数据能力开开发4.1 联通总部大大数据平台台能力
10、介绍绍(一)总部部大数据系系统每日采采集并处理理全国311省生产数数据。数据据量B/MM域1700多亿条,OO域27000多亿条条,其中涉涉及数据源源: BSS域118个总部部横向系统统,包括集集中结算,集集中渠道等等; BSS域省省经分系统统将31个个不同版本本的BSSS系统按照照统一接口口规范加工工上传总部部。 MSS域113个总部部集中系统统,包括EERP核心心系统等。(二)上线线设备整体体配备存储储容量6.78PBB,X866存储服务务器共13301台,分分别搭建了了Greeenpluum和Haadoopp环境。OOraclle数据库库:3*22节点RAAC数据库库。4.2 数据采集4
11、.2.1 实时数据采采集(一)采集集内容采集内容包包括手机信信令数据、手手机短信日日志。1、手机信信令数据:MC口手手机信令采采集数据包含手机号号码、基站LAAC、基站CEELLIDD、触发时间间字段。2、手机短短信日志:从短信平台台手机短信信发送日志志采集数据据包含手机机号码、发发送时间、被被叫号码、短短信内容字字段。(二)采集集方式1、手机信信令数据:通过文件接接口联机采采集,即MC口口系统将信信令数据转转为TXTT文本,每每5分钟接接口生成一一次接口文文件,FTTP到接口口机上。2、手机短短信日志:通过过文件接口口联机采集集。短信平平台从短信信发送日志志中生成接接口数据文文件,FTTP到
12、接口口机上。4.2.2 定时数据采采集(一)采集集内容1、详单数数据:移动动网语音详详单、流量量详单、短短信详单。l 语音详单采采集数据内内容包括电电话号码、主主/被叫号号码、呼叫叫时间、呼呼叫时长、长长途类型、漫漫游类型、基基站LACC和ID。l 流量详单采采集数据内内容包括电电话号码、通通信时间、通通信时长、上上行流量、下下行流量、访访问URLL地址、基基站LACC和ID。l 短信详单采采集数据内内容包括电电话号码、发发送时间、接接收号码。2、用户信信息:包括括用户基本本信息,用用户标签。l 用户基本信信息有用户户号码、姓姓名、证件件号码、联联系地址、性性别、年龄龄。l 用户标签包包括用户
13、业务标签和和互联网标标签。4.2.3 网页数据(非非结构化)数据采集网页数据通通过网络爬爬虫采集数数据。网络爬虫虫(又被称称为网页蜘蜘蛛,网络络机器人),是是一种按照照一定的规规则,自动动的抓取万万维网信息息的程序或或者脚本。爬虫系统有四个存储结构:待抓取 URL 库、原始网页库、链出 URL库和 xml库。这四个存储结构都是存在于 Hadoop的分布式文件系统以 HDFS为载体。(1)待抓抓取 URRL 库:存放当前前层需要抓抓取的 UURL集合合,实际上上就是一个个记录着待待抓取 UURL的文文本文件,其其中 URRL之间以以“n”为分隔符符。在第一一层抓取之之前,这个个文本文件件是用户提
14、提交的 UURL种子子集合作为为爬虫进入入互联网的的入口。(2)原始始网页库:存放每一一层抓取下下来的原始始网页。这这里的网页页是未经过过任何处理理的 HTTML 信信息,其存存放形式是是 keyy值为 UURL,vvaluee值为 UURL对应应的网页 HTMLL信息。(3)链出出 URLL 库:存存放每一层层解析出来来的链出链链接,其存存放形式是是 keyy值为 UURL,vvaluee值为 UURL对应应网页包含含的链出链链接集合。(4)xmml库:存存放所有层层抓取下来来的网页经经过转化的的 XMLL信息。这这里的转化化相当于对对 HTMML信息的的预处理。其其存放形式式是 keey值
15、为 URL,vvaluee值为URRL对应的的网页的 XML信信息。4.3 实时数据加加工和处理理4.3.1 Sparkk平台实时计算平平台采用SSparkk组件替换Haadoopp的MappReduuce,数数据存在HHDFS上上,计算时时读入内存存进行运算算,运算结结果输出至至HDFSS。(1)信令令数据,在在HDFSS上存储数据据包含手机机号码、基站LAAC、基站CEELLIDD、触发时间间字段。存存储方式是是文本,压压缩存储。(2)短信信日志,在HDFSS上存储数据据包含手机机号码、发发送时间、被被叫号码、短短信内容字字段。存储储方式是文文本,压缩缩存储。4.3.2 Sparkk St
16、rreamiing实时时数据加工工Sparkk strreamiing是构构建在sppark上上的实时流流计算框架架,扩展了了sparrk流式大大数据处理理能力。本本项目中SSparkk strreamiing具体体完成工作作如下:(一)基站站下用户信信息查询(人数数统计、号码码明细提取取)。1、基站与与用户对应关关系口径:当用户与与该基站发发生信令交交互时,用用户在此时时归属该基基站。如用用户未与其其他基站发发生信令交交互,则一一直归属该该基站,直直到用户与与另一个基基站发生信信令交互后后,才归入入另一个基基站。2、基站用用户统计口口径:先统统计归属该该基站的联联通用户,并并根据用户户来源地
17、的的联通市场场份额占比比,反推出出该位置的的全量人数数。计算所涉及及的数据字字段:用户户号码、用用户归属地地市、基站站LAC和和ID、基基站经纬度度、全国各各地市联通通市场份额额占比。(二)号码码当前位置置和号码今今日轨迹。1、号码当当前位置计计算口径:按该号码码最近一次次交互的基基站位置作作为号码当当前位置。2、号码今今日轨迹计计算口径:从凌晨00时起,根根据信令数数据,按基基站与用户对应关关系口径记记录号码与基站发生交交互的变化化顺序,号码与基站对应关关系不重复复记录。号码轨迹记记录字段包包括手机号号码、日期期、位置经经纬度、进进入时间、退出时间、停留时间。(三)区域域热力(人人流聚集分分
18、布)。1、区域热热力计算。按5分钟一一次时间间间隔,根据据基站用户户统计口径径,汇总统统计区域内内基站用户户数,形成人流流聚集区域域热力图。2、区域热热力动态计计算。根据据基站人流流量变化趋趋势,计算算区域内人员流向向及动态,形成人员数量动态变化的预判,并通过区域热力图告警实现。例如有100人正向区域中心聚集。计算所涉及及的数据字字段:用户户号码、日日期及时间间、基站LLAC和IID、基站站经纬度。(四)实时时告警。1、号码位位置告警。已经标记记的号码进入或或离开限定定区域,系统实时告告警。进入告警时间在在标记的号号码进入限定区区域内的第一个个基站范围围时产生。离开告警时间在在标记的号码进入限
19、定区域外的第一个基站范围时产生。计算所涉及及的数据字字段:用户户号码、日日期及时间间、基站LLAC和IID、基站站经纬度、限定区域经纬度。4.4 定时数据存存储及加工工4.4.1 数据存储策策略根据数据重重要性、访访问频率、访访问性能要要求、数据据量等指标标对HDFFS、Hiive、HHBasee的数据进进行分类,并并制定相应应的存储策策略。考虑虑本项目的实实际情况,主主要从数据据周期、数数据访问情情况、数据据粒度等几几个方面考考虑数据分分级存储策策略,其中中数据周期期作为管理理的主要关关注点。在线级别采集来源数数据 详单明细数数据 分析及统计计数据汇总数据(DM) 日 月 日月日月日月在线区
20、 1个月 2个月 2个月6个月6个月12个月长期近线区 3-6个月月7-12个个月6-12个个月1-2年归档区 1-5年2-5年销 毁大于5年大于五年在线存储:在线存储储又称工作作级的存储储,存储设设备和所存存储的数据据时刻保持持随时响应应状态,可可以实时读读写的,可可满足计算算平台对数数据访问的的速度要求求。近线存储:近线存储储定位于在在线存储和和离线存储储之间的应应用,对性性能要求相相对来说并并不高,但但又提供相相对较好的的读取性能能。归档存储:数据归档档是将不再再经常使用用的数据移移到一个单单独的存储储设备来进进行长期保保存的过程程,对涉及及的数据进进行离线存存储,以备备非常规查查询等。
21、4.4.2 Hadooop存储与与加工基于Haddoop+Hbasse的大数数据平台,可可实现海量量数据存储储和高速数数据查询。4.4.2.1 通信行为数数据在贵州省内内联通用户户(包括贵贵州省本地地用户和外外省漫入用用户)产生生的通信行行为数据,即即O域预处处理详单。1、语音详详单数据。字字段包括电电话号码、主主/被叫号号码、呼叫叫时间、呼呼叫时长、长长途类型、漫漫游类型、基基站LACC和ID。数据量1.5GB/天。2、流量详详单数据。字字段包括电电话号码、通通信时间、通通信时长、上上行流量、下下行流量、访访问URLL地址、基基站LACC和ID。数据量3GB/天。3、短信详详单数据。字字段包
22、括电电话号码、发发送时间、接接收号码。数据量0.5GB/天。4.4.2.2 通信内容数数据1、短信日日志。手机机短信平台台发送日志志包含手机机号码、发发送时间、被被叫号码、短短信内容字字段。数据据量1GB/天天。2、上网UURL关键键词。数据来源源O域流量量详单,字字段包括电电话号码、通通信时间、访问URL地址、基站LAC和ID、URL关键词。数据量3GB/天。3、网页内内容识别。数据来源源对互联网网网页的爬爬虫抓取,字段包括网页URL、关键词。数据量10GB/天。4.4.2.3 号码轨迹数数据1、手机信信令(MCC口)数据据。字段包括电电话号码、通通信时间、基站LAC和ID,数据量15GB/
23、天。2、号码轨轨迹数据。从手手机信令数数据加工得得到。字段段包括电话话号码、到到达时间、离离开时间、位位置经纬度度、停留时时间。数据据量1GB/天天。4.4.2.4 用户特征数数据1、基本信信息。字段包括用户姓姓名、开户户地、证件件号、证件件地址、性性别、年龄龄、业务类类型、品牌牌套餐等信信息。数据量1GB/天天。2、上网行行为特征。数据内容容包括上网流量、主主要的上网网地点、上上网时间段段、喜欢访访问的网站站排名。数数据量1GB/天天。3、活动轨轨迹特征。数据内容容包括主要的的活动地点点(经纬度度)、活动动时间段;从早到晚晚的主要活活动轨迹。数据量1GB/天。4、朋友圈圈。手机号码码的交际圈
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 联通 数据 公安 情报 应用技术 方案 培训资料 20372
限制150内