《联通大数据公安情报应用技术方案_4.docx》由会员分享,可在线阅读,更多相关《联通大数据公安情报应用技术方案_4.docx(47页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、联通“大数据”公安情报应用技术方案联通“大数据”公安情报应用技术方案 中国联通贵州省分公司2015年11月目录第1章 概述51.1 项目背景51.2 项目建设目标51.3 项目建设内容6第2章 系统总体架构6第3章 系统网络及硬件环境7第4章 数据能力开发84.1 联通总部大数据平台能力介绍84.2 数据采集94.2.1 实时数据采集94.2.2 定时数据采集94.2.3 网页数据(非结构化)数据采集94.3 实时数据加工和处理104.3.1 Spark平台104.3.2 Spark Streaming实时数据加工104.4 定时数据存储及加工114.4.1 数据存储策略114.4.2 Had
2、oop存储与加工124.4.3 Oracle数据展现17第5章 应用功能开发185.1 数据查询185.1.1 号码位置查询185.1.2 详单查询模块195.1.3 号码轨迹查询模块205.1.4 基站信息查询215.1.5 机主信息查询模块225.2 数据推送235.2.1 用户基本信息推送235.2.2 手机标记信息推送235.2.3 数据接口245.3 监控告警245.3.1 标记管理245.3.2 号码位置告警255.4 统计分析255.4.1 区域热力255.4.2 关键词热力265.5 数据分析275.5.1 号码碰撞分析275.5.2 联系人分析275.5.3 关系人分析285
3、.5.4 外来人员分析295.5.5 网上异动分析30第6章 项目实施316.1 人员组织安排316.2 项目实施步骤326.2.1 平台搭建326.2.2 功能开发336.2.3 应用及优化336.3 项目投入估算34附件1.大数据平台相关技术原理说明341.Hadoop基础平台341.1.HDFS341.2.Yarn361.3.Zookeeper372.Hbase高速即时查询382.1.Hbase基础组件382.2.Hbase封装组件403.Spark实时数据处理42附件2.可对外提供数据合作的数据431.用户位置数据432.用户特征数据(标签)443.网上搜索关键词数据46第1章 概述1
4、.1 项目背景2014年中国联通集团大数据平台建设完成,平台具备2000个计算节点和20PB数据量,形成了全国性的数据中心,能够基于全国用户数据加工数据应用产品。2015年贵州公安厅计划将大数据应用在数据查询、预警分析、综合分析、治安管理、指挥调度等公安情报应用上。为此双方将联通公司的大数据进行开发利用,为公安情报应用服务。1.2 项目建设目标建设联通“大数据”公安情报应用平台,服务贵州公安情报应用,具体包括八类公安情报应用需求: 电子地图、人员布控:划定某一区域实时查询号码个数和明细,调取通话记录;当特定号码进出某一区域进行实时预警,并显示号码活动轨迹。 预警分析(涉恐类):设定敏感号码关注
5、,对号码进入/离开预定区域进行预警;设定涉恐敏感词、网页、APP,对发送、访问、使用涉恐敏感词、网页、APP的号码进行预警。 预警分析(涉稳类):对号码进行标签管理,进入限定区域预警;群体性事件人员分别热力图;网上串联异动分析。 综合分析(案件侦查类):对前科人员号码进行标签管理,进入某个地市预警;查询犯罪嫌疑人上网数据、宽带数据、上网行为习惯、网上关系人等;对上网详单、短信详单文本进行关键字过滤;找出在逃人员的各种关系人数据; 综合分析(个案分析):对人员和区域标记管理;号码位置查询、号码碰撞分析,目标号码进出固定区域告警;检索异常人群关键词;分析出目标号码使用的新手机号码; 服务治安管理:
6、区域内人员热力分布;外来人员信息获取。 服务指挥调度:警员手机号的定位,群发信息。 战略分析:长期上网行为分析;网上特定信息分析;全国话单调取服务;群体“迁徙”分析。1.3 项目建设内容利用中国联通全国大数据优势,搭建联通“大数据”公安情报应用平台,服务贵州公安情报应用。 平台及网络环境搭建:建设大数据应用平台,具备数据计算与存储环境,打通与用户单位的网络连接。 数据采集:具备对移动网络信令、详单、业务日志等数据采集功能。 数据实时计算:开发对用户位置和轨迹、区域热力、实时告警等功能的数据加工处理能力。 数据定时加工存储:实现通信行为、通信内容、号码轨迹、用户特征的数据存储和高速查询;实现分析
7、模型、统计汇总、应用模型的开发;为应用功能加工所需数据。 应用功能开发:开发数据查询、数据推送、监控告警、统计分析、数据分析应用功能。第2章 系统总体架构系统总体架构分为三层架构,硬件平台、数据能力、应用功能。系统硬件平台位于联通网络,服务器由X86服务组成,用于搭建Hadoop集群环境和Oracle数据环境。网络交换机统一采用万兆交换机。数据能力由数据采集、实时数据加工、定时数据存储加工组成。应用功能由数据查询、数据推送、监控告警、统计分析、数据分析五大模块组成。第3章 系统网络及硬件环境“大数据”公安情报应用平台位于联通网络,公安用户通过专线访问大数据应用平台。(1)服务器统一由X86服务
8、组成,X86服务器硬件如下: 2路*8核双线程CPU,内存128G,硬盘16TB,网卡6千兆;(2)大数据应用平台硬件组成: Hadoop集群20台X86服务器; Speak实时计算平台8台X86服务器; 传统Oracle平台2台X86服务器; FTP接口机1台X86服务器; WEB应用服务2台X86服务器; ETL流程控制1台X86服务器; 万兆交换机3台;第4章 数据能力开发4.1 联通总部大数据平台能力介绍(一)总部大数据系统每日采集并处理全国31省生产数据。数据量B/M域170多亿条,O域2700多亿条,其中涉及数据源: BSS域18个总部横向系统,包括集中结算,集中渠道等; BSS域
9、省经分系统将31个不同版本的BSS系统按照统一接口规范加工上传总部。 MSS域13个总部集中系统,包括ERP核心系统等。(二)上线设备整体配备存储容量6.78PB,X86存储服务器共1301台,分别搭建了Greenplum和Hadoop环境。Oracle数据库:3*2节点RAC数据库。4.2 数据采集4.2.1 实时数据采集(一)采集内容采集内容包括手机信令数据、手机短信日志。1、手机信令数据:MC口手机信令采集数据包含手机号码、基站LAC、基站CELLID、触发时间字段。2、手机短信日志:从短信平台手机短信发送日志采集数据包含手机号码、发送时间、被叫号码、短信内容字段。(二)采集方式1、手机
10、信令数据:通过文件接口联机采集,即MC口系统将信令数据转为TXT文本,每5分钟接口生成一次接口文件,FTP到接口机上。2、手机短信日志:通过文件接口联机采集。短信平台从短信发送日志中生成接口数据文件,FTP到接口机上。4.2.2 定时数据采集(一)采集内容1、详单数据:移动网语音详单、流量详单、短信详单。l 语音详单采集数据内容包括电话号码、主/被叫号码、呼叫时间、呼叫时长、长途类型、漫游类型、基站LAC和ID。l 流量详单采集数据内容包括电话号码、通信时间、通信时长、上行流量、下行流量、访问URL地址、基站LAC和ID。l 短信详单采集数据内容包括电话号码、发送时间、接收号码。2、用户信息:
11、包括用户基本信息,用户标签。l 用户基本信息有用户号码、姓名、证件号码、联系地址、性别、年龄。l 用户标签包括用户业务标签和互联网标签。4.2.3 网页数据(非结构化)数据采集网页数据通过网络爬虫采集数据。网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。爬虫系统有四个存储结构:待抓取 URL 库、原始网页库、链出 URL库和 xml库。这四个存储结构都是存在于 Hadoop的分布式文件系统以 HDFS为载体。(1)待抓取 URL 库:存放当前层需要抓取的 URL集合,实际上就是一个记录着待抓取 URL的文本文件,其中 URL之间以“n”为分隔
12、符。在第一层抓取之前,这个文本文件是用户提交的 URL种子集合作为爬虫进入互联网的入口。(2)原始网页库:存放每一层抓取下来的原始网页。这里的网页是未经过任何处理的 HTML 信息,其存放形式是 key值为 URL,value值为 URL对应的网页 HTML信息。(3)链出 URL 库:存放每一层解析出来的链出链接,其存放形式是 key值为 URL,value值为 URL对应网页包含的链出链接集合。(4)xml库:存放所有层抓取下来的网页经过转化的 XML信息。这里的转化相当于对 HTML信息的预处理。其存放形式是 key值为 URL,value值为URL对应的网页的 XML信息。4.3 实时
13、数据加工和处理4.3.1 Spark平台实时计算平台采用Spark组件替换Hadoop的MapReduce,数据存在HDFS上,计算时读入内存进行运算,运算结果输出至HDFS。(1)信令数据,在HDFS上存储数据包含手机号码、基站LAC、基站CELLID、触发时间字段。存储方式是文本,压缩存储。(2)短信日志,在HDFS上存储数据包含手机号码、发送时间、被叫号码、短信内容字段。存储方式是文本,压缩存储。4.3.2 Spark Streaming实时数据加工Spark streaming是构建在spark上的实时流计算框架,扩展了spark流式大数据处理能力。本项目中Spark streamin
14、g具体完成工作如下:(一)基站下用户信息查询(人数统计、号码明细提取)。1、基站与用户对应关系口径:当用户与该基站发生信令交互时,用户在此时归属该基站。如用户未与其他基站发生信令交互,则一直归属该基站,直到用户与另一个基站发生信令交互后,才归入另一个基站。2、基站用户统计口径:先统计归属该基站的联通用户,并根据用户来源地的联通市场份额占比,反推出该位置的全量人数。计算所涉及的数据字段:用户号码、用户归属地市、基站LAC和ID、基站经纬度、全国各地市联通市场份额占比。(二)号码当前位置和号码今日轨迹。1、号码当前位置计算口径:按该号码最近一次交互的基站位置作为号码当前位置。2、号码今日轨迹计算口
15、径:从凌晨0时起,根据信令数据,按基站与用户对应关系口径记录号码与基站发生交互的变化顺序,号码与基站对应关系不重复记录。号码轨迹记录字段包括手机号码、日期、位置经纬度、进入时间、退出时间、停留时间。(三)区域热力(人流聚集分布)。1、区域热力计算。按5分钟一次时间间隔,根据基站用户统计口径,汇总统计区域内基站用户数,形成人流聚集区域热力图。2、区域热力动态计算。根据基站人流量变化趋势,计算区域内人员流向及动态,形成人员数量动态变化的预判,并通过区域热力图告警实现。例如有100人正向区域中心聚集。计算所涉及的数据字段:用户号码、日期及时间、基站LAC和ID、基站经纬度。(四)实时告警。1、号码位
16、置告警。已经标记的号码进入或离开限定区域,系统实时告警。进入告警时间在标记的号码进入限定区域内的第一个基站范围时产生。离开告警时间在在标记的号码进入限定区域外的第一个基站范围时产生。计算所涉及的数据字段:用户号码、日期及时间、基站LAC和ID、基站经纬度、限定区域经纬度。4.4 定时数据存储及加工4.4.1 数据存储策略根据数据重要性、访问频率、访问性能要求、数据量等指标对HDFS、Hive、HBase的数据进行分类,并制定相应的存储策略。考虑本项目的实际情况,主要从数据周期、数据访问情况、数据粒度等几个方面考虑数据分级存储策略,其中数据周期作为管理的主要关注点。在线级别采集来源数据 详单明细
17、数据 分析及统计数据汇总数据(DM) 日 月 日月日月日月在线区 1个月 2个月 2个月6个月6个月12个月长期近线区 3-6个月7-12个月6-12个月1-2年归档区 1-5年2-5年销 毁大于5年大于五年在线存储:在线存储又称工作级的存储,存储设备和所存储的数据时刻保持随时响应状态,可以实时读写的,可满足计算平台对数据访问的速度要求。近线存储:近线存储定位于在线存储和离线存储之间的应用,对性能要求相对来说并不高,但又提供相对较好的读取性能。归档存储:数据归档是将不再经常使用的数据移到一个单独的存储设备来进行长期保存的过程,对涉及的数据进行离线存储,以备非常规查询等。4.4.2 Hadoop
18、存储与加工 基于Hadoop+Hbase的大数据平台,可实现海量数据存储和高速数据查询。4.4.2.1 通信行为数据在贵州省内联通用户(包括贵州省本地用户和外省漫入用户)产生的通信行为数据,即O域预处理详单。1、语音详单数据。字段包括电话号码、主/被叫号码、呼叫时间、呼叫时长、长途类型、漫游类型、基站LAC和ID。数据量1.5GB/天。2、流量详单数据。字段包括电话号码、通信时间、通信时长、上行流量、下行流量、访问URL地址、基站LAC和ID。数据量3GB/天。3、短信详单数据。字段包括电话号码、发送时间、接收号码。数据量0.5GB/天。4.4.2.2 通信内容数据1、短信日志。手机短信平台发
19、送日志包含手机号码、发送时间、被叫号码、短信内容字段。数据量1GB/天。2、上网URL关键词。数据来源O域流量详单,字段包括电话号码、通信时间、访问URL地址、基站LAC和ID、URL关键词。数据量3GB/天。3、网页内容识别。数据来源对互联网网页的爬虫抓取,字段包括网页URL、关键词。数据量10GB/天。4.4.2.3 号码轨迹数据1、手机信令(MC口)数据。字段包括电话号码、通信时间、基站LAC和ID,数据量15GB/天。2、号码轨迹数据。从手机信令数据加工得到。字段包括电话号码、到达时间、离开时间、位置经纬度、停留时间。数据量1GB/天。4.4.2.4 用户特征数据1、基本信息。字段包括
20、用户姓名、开户地、证件号、证件地址、性别、年龄、业务类型、品牌套餐等信息。数据量1GB/天。2、上网行为特征。数据内容包括上网流量、主要的上网地点、上网时间段、喜欢访问的网站排名。数据量1GB/天。3、活动轨迹特征。数据内容包括主要的活动地点(经纬度)、活动时间段;从早到晚的主要活动轨迹。数据量1GB/天。4、朋友圈。手机号码的交际圈,从长期(如三个月)的语音详单中对手机号码的主被号码分析,按叫呼叫时长和次数排序,确定常用联系人清单,即朋友圈。数据量1GB/天。5、标记信息。主动标记,通过用关键词库(涉案、涉毒、涉恐)过滤上网流量详单和短信日志内容,主动匹配出发送或使用过相关关键词的手机号码,
21、并给予标记。被动标记,对涉稳人员、各类犯罪前科人员手机号码打标记。数据小于1GB/天。4.4.2.5 分析模型数据1、交际圈分析模型。交际圈用于机主关系分析,手机号码之间的交际紧密程度和交际对象,如下图:交际圈分析按月从语音详单中对手机号码的主被叫情况统计分析,无论主被叫都记为一次接触,并按接触进行排序。数据字段:手机号码、接触号码、接触次数、接触次数占比。数据量约2GB/月。2、呼叫指纹分析模型。呼叫指纹分析模型用于关系人分析,即分析出老手机号码用户使用的新手机号码。呼叫指纹分析通过目标号码的语音呼叫范围特征、上网行为特征判断相似的目标号码。(1)语音呼叫范围特征:l 主叫号码排序l 被叫号
22、码排序(2)上网行为特征:l 访问网站排序l 使用APP排序(3)短信行为特征:l 主叫号码排序l 被叫号码排序数据字段:手机号码、关联手机号码、匹配度。数据字段:数据量约2GB/月。3、号码碰撞分析模型。号码碰撞分析用于个案分析,根据号码活动轨迹,分析限定时段的几个区域内或某个区域多个时段内,找出同时出现的手机号码频率。可配置条件按出现次数进行过滤。数据字段:区域、日期时段,手机号码,出现次数。数据量约1GB/月。4、外来人员分析模型。外来人员分析模型服务治安管理。对进入贵州省停留达30日的外省手机号码进行标记为外来人员。将用户信息推送到派出所开展暂住人口登记核查。停留地市按30天内手机号码
23、停留最多的地市进行计算。数据字段:手机号码、来源省份、停留地市。数据量约1GB/月。5、网上异动分析模型。网上异动分析用于涉稳预警。通过对目标号码的流量大小和通话次数和范围变化,判断异动行为。(1)语音呼叫异动条件:l 主叫范围突增300%;l 被叫范围突增300%;l 主叫时长突增300%;l 被叫时长突增300%;(2)上网行为特征:l 访问特定网站流量突增;l 使用特定APP流量突增;(3)短信行为特征:l 主叫范围突增300%;l 被叫范围突增300%;数据字段:异动手机号码、异动时间、异动原因。数据量约1GB/月。4.4.2.6 统计汇总数据1、关键词热力数据。1)从手机上网内容UR
24、L中的关键词进行汇总计算。数据字段:日期、关键词、手机号码数据量。手机号码数据量按联通市场占比进行推算,得出全量人数。数据量约1GB/月。2)设定关键词库,对微博等网页爬取数据,进行分词统计,获取对政策的评价。数据字段:日期、关键词、网上发布数量。数据量约30GB/月。2、区域热力数据。通过手机号码、基站ID和经纬度,计算出区域内的号码个数。通过基站热力图反映区域内人流热度。计算频率为每5分钟按基站用户统计口径,对全省基站进行一次汇总统计。数据字段:日期、时间、位置经纬度、人数。人数按联通市场占比进行推算,得出全量人数。数据量约10GB/月。4.4.2.7 应用模型数据1、标记计算模型。通过用
25、关键词库(涉案、涉毒、涉恐)过滤上网流量详单和短信日志内容,主动匹配出发送或使用过相关关键词的手机号码,并给予标记。数据字段:异动手机号码、异动时间、异动原因。数据量约1GB/月。4.4.3 Oracle数据展现 4.4.3.1 告警信息及分发 1、标记管理数据。1)对特定人员进行标记,给手机号码打上标记(涉恐、涉稳等)。数据字段:手机号码、标记信息、标记时间。2)对特定区域进行标记,按经纬度给划定区域打上党政机关、加油站等标记。数据字段:区域、标记信息、标记时间。 3)对特定时间进行标记,按日期打上两会等标记,按时间打上上下班高峰等标记。数据字段:日期、标记信息、标记时间。数据字段:时间、标
26、记信息、标记时间。2、号码位置告警数据。1)当标记的特定号码进入特定区域后,系统自动报警。 数据字段:日期和时间、告警号码、告警位置、告警方式(进入特定区域)。2)当标记的特定号码离开特定区域后,系统自动通知。数据字段:日期和时间、告警号码、告警位置、告警方式(离开特定区域)。4.4.3.2 统计分析结果 统计分析结果数据是指在Hadoop平台加工完成的分析模型数据、统计汇总数据、应用模型数据等。统计分析结果数据直接用于界面展现。4.4.3.3 配置与管理 1、关键词库配置数据针对涉案、涉毒、涉恐、涉稳等应用方向,配置和管理关键词及分类信息。2、手机号码标记管理数据(1)主动标记的手机号码数据
27、。即系统通过用关键词库(涉案、涉毒、涉恐)过滤上网流量详单和短信日志内容,自动匹配出发送或使用过相关关键词的手机号码,并给予标记。(2)被动标记的手机号码数据。即民警对涉稳人员、各类犯罪前科人员手机号码打标记。第5章 应用功能开发联通“大数据”公安情报应用平台功能包括数据查询、数据推送、监控告警、统计分析、数据分析五个模块。5.1 数据查询5.1.1 号码位置查询【业务功能】1、划定一个位置(区域),查询其中电话号码。2、手机号码查询实时位置。【功能设计】1、通过手机实时信令数据中手机号码、基站ID并关联基站经纬度,计算出区域内的号码个数。2、输入手机号码,通过手机实时信令数据手机号码、基站I
28、D并关联基站经纬度,找出手机号码的最近一次基站交互记录,将基站位置作为手机号码的位置。【应用场景】1、基础功能(电子地图)。查询特定号码位置。2、综合分析(个案分析)。划定区域查询手机号和有关信息。3、服务指挥调度。警员手机号的定位。5.1.2 详单查询模块【业务功能】1、根据电话号码调取用户通信详单; 2、对设定的敏感词、网页、APP进行过滤,找出相关号码。【功能设计】1、通过手机号码调取详单。可用单个号码或多个号码批量查询;查询结果可以导出。 语音详单显示电话号码、主/被叫号码、呼叫时间、呼叫时长。 流量详单显示电话号码、通信时间、通信时长、上行流量、下行流量。2、根据已经设置的关键词库,
29、上网详单对URL中的关键词进行敏感词过滤,根据网页URL库和APP库进行特点网页、小众APP过滤。【应用场景】1、基础功能(电子地图)。话单调取。2、预警分析(涉恐类)。对手机短信和上网数据涉恐敏感词过滤。3、综合分析(案件侦查类)。上网、短信、社交软件涉毒品、涉案件分析。4、综合分析(个案分析)。检索异常人群关键词检索。5、战略分析。全国话单调取服务。5.1.3 号码轨迹查询模块【业务功能】1、查询手机号码的位置轨迹;【功能设计】通过手机信令和基站数据,按天绘制手机号码的活动位置轨迹。以一次基站切换表示一次位置移动,在电子地图上显示。号码轨迹显示内容包括手机号码、日期、位置经纬度、进入时间、
30、退出时间、停留时间。【应用场景】1、基础功能(人员布控),显示人员活动轨迹,。2、预警分析(涉恐类) ,特定号码活动轨迹展示。3、战略分析,群体“迁徙”分析。5.1.4 基站信息查询【业务功能】1、展现基站位置图层,并可导出和进行叠加; 【功能设计】基站数据(基站名称、经纬度、基站编号)在地图上展现。点击可显示具体基站编号和名称。【应用场景】基础功能(电子地图),基站地图图层。5.1.5 机主信息查询模块【业务功能】1、单个或批量手机号码查询用户信息;2、查询用户上网行为习惯、交际圈、关系人等。【功能设计】1、通过输入手机号码(单个或多个)查询用户资料,包括用户姓名、证件号、证件地址、性别、年
31、龄等信息,并可扩展查询用户特征刻画数据,如上网行为习惯、交际圈、关系人等。例如交际圈显示与目标号码有通信关系人际圈,并标记出相互之间的联系频度,如下图。【应用场景】基础功能(电子地图),电话号码用户信息的批量查询。综合分析(案件侦查类),针对犯罪嫌疑人的数据分析。5.2 数据推送5.2.1 用户基本信息推送【业务功能】1、通过数据接口,定时向公安内网提供用户手机号、用户基本信息;【功能设计】1)从数据平台获取用户号码、姓名、证件号、地址、性别、年龄等信息,生成接口文件并推送至接口机。 2)接口方式采用FTP方式,使用FTP服务器,主动定时生成接口文件,由公安数据使用者下载。3)推送频率,每天1
32、次全量数据。【应用场景】综合分析(个案分析),向公安内网提供用户手机号、用户基本信息。5.2.2 手机标记信息推送【业务功能】1、发送手机标记信息(使用敏感软件、发送过涉恐关键词等短信、访问涉恐音视频等);【功能设计】1)当大数据平台进行用户手机标记计算之后,从大数据平台获取用户手机标记信息,生成接口文件并推送至接口机。推送的手机标记信息包括手机号码、标记信息、标记时间。2)接口方式采用FTP方式,使用FTP服务器,主动定时生成接口文件,由公安数据使用者下载。3)推送频率,每天1次全量数据。【应用场景】综合分析(个案分析),向公安内网提供用户手机号、用户基本信息。5.2.3 数据接口【业务功能
33、】1、使用FTP服务器,主动定时生成接口文件,由公安数据使用者下载;【功能设计】由FTP文件接口机实现数据文件推送。【应用场景】综合分析(个案分析)。5.3 监控告警5.3.1 标记管理【业务功能】1、对特定人员进行标记,给手机号码打上标记(涉恐、涉稳等); 2、对特定区域进行标记,按经纬度给划定区域打上党政机关、加油站等标记; 3、对特定时间进行标记,按日期打上两会等标记,按时间打上上下班高峰等标记; 【功能设计】对标记数据进行维护。手机号码标记、特定区域标记、日期和时间标记,由公安民警通过系统界面进行配置,数据实时生效。【应用场景】基础功能(人员布控)预警分析(涉恐类)预警分析(涉稳类)综
34、合分析(案件侦查类)综合分析(个案分析)5.3.2 号码位置告警【业务功能】1、当标记的特定号码进入特定区域后,系统自动报警; 2、当标记的特定号码离开特定区域后,系统自动通知;【功能设计】1)手机信令和基站数据实时计算,通过手机号码、基站ID和经纬度,实时得出号码经纬度。2)与标记信息进行比对后告警。告警内容包括告警时间、告警区域/位置、手机号码、告警内容(进入/离开)。【应用场景】基础功能(人员布控),区域布控。预警分析(涉恐类),设定关注(敏感)区域号码入黔来对某区域的人员进行关注。预警分析(涉稳类),涉稳人员预警。综合分析(案件侦查类),前科人员异动分析预警。综合分析(个案分析),目标
35、号码进出固定区域告警。5.4 统计分析5.4.1 区域热力【业务功能】1、信号热度,统计一个区域内的人数; 2、区域内的号码查询;【功能设计】1)手机信令和基站数据实时计算。通过手机号码、基站ID和经纬度,计算出区域内的号码个数。通过基站热力图反映区域内人流热度。显示内容为区域内的人数。2)通过区域内的基站查找在基站下的号码明细。点击基站显示当前在这个基站下的号码明细。【应用场景】预警分析(涉稳类),群体性事件处置。服务治安管理,信号热度分布。5.4.2 关键词热力【业务功能】1、长期上网行为分析,对网上搜索的景区、餐饮、购物、交通路线等进行分析汇总,提供数据参考; 2、政策出台前的网上信息分
36、析,对网上针对该政策的反馈进行分析,提供数据参考;【功能设计】1)从手机上网记录URL中的关键词进行汇总计算。能够对关键词进行分类,例如按地州市进行分类,显示一个地州市的关键词排行,如下图,也可以按贵州省汇总显示。2)设定关键词库,对微博等网页爬取数据,进行分词统计,获取对政策的评价。【应用场景】战略分析,长期上网行为分析、网上信息分析。5.5 数据分析5.5.1 号码碰撞分析【业务功能】1、几个区域,某个区域多个时段的号码进行碰撞分析,得出目标号码; 【功能设计】1)通过手机信令进行计算,碰撞出限定区域或时段内的高频出的号码信息。能够分析限定时段的几个区域内或某个区域多个时段内,找出同时出现
37、的手机号码频率。显示的内容有区域、日期时段,手机号码,出现次数。2)可配置条件按出现次数进行过滤。【应用场景】综合分析(个案分析),固定区域固定时段查询目标号码。5.5.2 联系人分析【业务功能】1、分析出目标号码的常用联系人; 【功能设计】从手机语音详单,找出目标号码的主被号码按叫呼叫时长和次数排序,确定常用联系人。常用联系人界面展示前8位用户号码及接触次数占比,前1-3位距离最近;前4-6位距离适中;后7-8位距离最远,如下图:【应用场景】综合分析(案件侦查类),在逃人员及其关系人的数据分析。综合分析(个案分析),生成朋友圈信息。5.5.3 关系人分析【业务功能】1、分析出目标号码的新手机
38、号码;【功能设计】1、通过目标号码的语音呼叫范围特征、上网行为特征判断相似的目标号码,由数据分析模型加工计算。2、显示新号码与旧号码的匹配程度(百分比)。 【应用场景】综合分析(个案分析),分析出目标人员使用的新手机号码。5.5.4 外来人员分析【业务功能】1、找出进入我省停留达30日的外省人员; 【功能设计】通过手机信令进行计算,找出停留30天的外省号码。界面显示外省人员手机号码、来源省份、停留地市。【应用场景】服务治安管理,外来人员信息获取。5.5.5 网上异动分析【业务功能】1、对涉稳人员手机号码打标签,对串联的行为进行分析和预警; 【功能设计】通过对目标号码的流量大小和通话次数和范围变
39、化,判断异动行为。由数据分析模型加工计算,界面展现分析结果。【应用场景】预警分析(涉稳类),网上串联异动分析。第6章 项目实施6.1 人员组织安排按照项目管理方法,采取自上而下,统一组织,分期实施,严格划分项目系统阶段目标,确保如期完成,并保证前后系统无缝衔接,达到系统总体功能一致。在有关负责人的领导下,成立项目领导小组,直接指挥协调。项目组织机构可用下图表示:(一)项目领导小组项目领导小组为项目实施的最高决策机构。职责:批准该系统总体设计方案和实施计划,决定项目重大投资决策,认定系统实施中的重要业务范围和技术标准,协调工程实施过程中贵州省公安厅和承建方之间的关系。运作方式:通过定期和不定期地
40、协调会的方式,即在项目进展的每个阶段定期召开协调会,研究协调下一阶段的工作和在项目实施过程中遇到要协调问题时召开领导成员参加的协调会,产生协调会纪要,用纪要来指导项目建设。组成:项目领导小组由贵州省公安厅(或其领导机关人员)与承建方人员共同组成。(二)项目实施小组职责:按照项目设计指标、进度安排和协调会纪要的要求,按期保质地完成项目建设。运作方式:实行项目经理负责制,项目经理技术要求和进度制定各阶段的项目实施计划和相应的财务管理,监督项目各部分的实施。组成:由承建方及有关的产品供货商组成,下划三个功能小组:即专家组、开发组、测试组。1、专家组职责:提供专业咨询意见,协助总体设计。人员组成:大数
41、据技术专家、熟悉公安业务专家、对软件开发工程有丰富管理工作经验的专家。2、软件开发组职责:具体承担信息系统的开发任务。人员组成:数据开发员、数据分析员、程序员。3、测试组职责:对各种设备进行进货、安装、测试检验;对软件各子系统模式的功能、可靠性进行测试,并写出测试报告。人员组成:熟悉公安业务的工作人员、大数据技术专家、承建方有关技术人员。6.2 项目实施步骤通过平台搭建、功能开发、应用及优化三个阶段逐步完成“大数据”公安情报应用平台建设,满足八类公安情报应用需求。6.2.1 平台搭建平台搭建主要工作内容是搭建平台网络及硬件环境,实现数据采集存储。(一)平台搭建 基于X86服务器的实时计算平台搭
42、建:完成服务器硬件安装,建立好Speak计算平台软件环境。 Hadoop大数据集群环境搭建:完成服务器硬件安装,完成Hadoop集群软件安装,正常运行大数据集群。 完成网络连接:完成大数据集群网络环境,与接口机、WEB应用服务器网络连接。打通与贵州省公安厅专线网络连接。(二)数据采集存储 详单数据采集:实现在贵州省内联通用户(包括贵州省本地用户和外省漫入用户)产生的通信详单采集,即O域预处理详单采集。 信令和业务日志数据采集:实现移动网络MC口信令数据采集,实现短信日志数据采集。6.2.2 功能开发功能开发主要包括开发数据加工处理能力开发和开发应用系统界面功能开发两个方方面。(一)数据加工、计
43、算 实时数据加工和计算:开发实时数据加工程序,完成区域热力、实时告警、位置轨迹等实时计算功能。 定时数据加工和计算:开发定时数据加工程序,完成分析模型、统计分析、标记计算等数据加工和计算功能。(二)应用功能开发 开发数据查询、数据告警、数据推送功能界面。 开发统计分析、数据分析功能界面。6.2.3 应用及优化大数据应用功能优化主要工作内容是数据模型优化和应用功能优化。(一)数据模型优化 积累历史数据:积累最新三个月数据,为数据计算和模型验证提供基础数据。 模型配置优化,模型效果评估:验证数据模型加工结果,反复调整模型参数,优化模型效果。(二)应用功能优化 选择试点单位,推广8类应用需求。 优化
44、应用功能:根据试点单位试用结果,反复优化、完善界面功能。6.3 项目投入估算本期项目建设需投入X86服务器、交换机以及配套设施,应用软件开发。硬件资源投入包括X86服务器、交换机以及配套设施。大数据机房及网络环境选择中国联通贵安大数据基地。应用软件开发投入主要是联通“大数据”公安情报应用平台建设。附件1. 大数据平台相关技术原理说明1. Hadoop基础平台1.1. HDFSHDFS概述Hadoop Distributed File System,简称HDFS。分布式文件系统,设计之初用来存储大文件,将大文件分散成很多块存储至多台服务器。HDFS是整个Hadoop生态圈的基础。技术原理HDFS
45、的服务角色分为Namenode和Datanode。Namenode:主要负责存储一些metadata信息,主要包括文件目录、block和文件对应关系,以及block和datanote的对应关系。Datanode:负责存储数据。 Block:大文件的存储会被分割为多个block进行存储。默认为64MB,每一个block会在多个datanode上存储多份副本,默认为3份,多个副本避免硬件故障带来的文件丢失。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS结构图:HDFS读流程结构图:HDFS写流程结构图:1.2. YarnYarn概述为了实现一个 Hadoop 集群的集群共享、可伸缩性和可靠性。设计人员采用了一种分层的集群框架方法。具体来讲,特定于 MapReduce 的功能已替换为一组新的守护程序,将该框架向新的处理模型开放。回想一下,由于限制了扩展以及网络开销所导致的某些故障模式,MRv1 JobTracker 和 TaskTracker 方法曾是一个重要的缺陷。这些守护程序也是 MapReduce 处理模型所独有的。为了消除这一限制,JobTracker 和 TaskT
限制150内