基于云计算的移动互联网大数据用户行为分析引擎设计_陶.pdf
《基于云计算的移动互联网大数据用户行为分析引擎设计_陶.pdf》由会员分享,可在线阅读,更多相关《基于云计算的移动互联网大数据用户行为分析引擎设计_陶.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、电信科学2013年第3期基于云计算的移动互联网大数据用户行为分析引擎设计*陶彩霞,谢晓军,陈康,郭利荣,刘春(中国电信股份有限公司广东研究院广州510630)摘要:随着移动互联网的迅速发展,运营商面临的竞争日益激烈,流量经营势在必行,基于用户行为分析的精确营销是重要手段。但在大数据时代,随着移动互联网业务和用户数量的快速增长,传统的架构难以适应海量数据挖掘的要求。本文提出了一种基于云计算的移动互联网大数据用户行为分析引擎解决方案,包括系统总体架构设计、大数据入库与预处理组件、大数据用户行为分析模型等关键模块的设计,最后分析了系统测试效果。关键词:云计算;大数据;移动互联网;用户行为分析;Map
2、Reduce;应用平台;DPIdoi:10.3969/j.issn.1000-0801.2013.03.006*国家“863”计划基金资助项目(No.2012AA12A203)1引言从2010年开始,国内移动互联网进入快速发展阶段,领先的电信运营商开始布局移动互联网,同时,互联网公司全面介入,终端厂商也基于应用商店模式快速加入移动互联网领域。根据艾瑞咨询发布的数据,全球移动互联网用户数正呈爆发式增长,2014年全球移动互联网用户数有望达到14亿。然而在数据流量快速增长的同时,电信运营商却出现数据业务收入增速放缓的困境,面临被管道化的威胁。为应对移动互联网带来的挑战,中国电信提出了从话务量经营转
3、向流量经营的战略目标,从传统的注重用户规模转变为注重流量发展。运营商拥有庞大的用户,同时具有对终端及用户上网通道的掌控能力,使得在用户行为分析方面具有很好的数据基础,深入分析用户流量行为特征和规律,发现用户潜在流量使用需求,是提升流量规模和价值、提高流量经营水平的有效手段。Design of Mobile Internet Big Data User BehaviorAnalysis Engine Based on Cloud ComputingTao Caixia,Xie Xiaojun,Chen Kang,Guo Lirong,Liu Chun(Guangdong Research Ins
4、titute of China Telecom Co.,Ltd.,Guangzhou 510630,China)Abstract:Along with the rapid development of mobile internet,telecom operators face an increasingly competition.So traffic operations are imperative for telecom operators,and precise marketing based on user behavior analysis isan important mean
5、s.But in the era of big data,with the rapid growth of the mobile internet service and the numberof users,the traditional architecture is difficult to adapt to the requirements of mass data mining.A design of mobileinternet big data user behavior analysis engine based on cloud computing was provided,
6、including the overall systemarchitecture design solution,the big data loading components and the big data user behavior analysis modelcomponents.Additionally,the test results of system performance were analyzed.Key words:cloud computing,big data,mobile internet,user behavior analysis,MapReduce,appli
7、cation platform,DPI专题:大数据技术与应用27专题:大数据技术与应用然而随着移动互联网的迅速发展,用户行为分析面临着新的挑战:一是移动互联网新业务、新产品“短、平、快”的特征,要求运营商支持快速变化的营销活动;二是随着移动互联网业务及终端、传感器技术发展带来的数据量的急剧膨胀,需要分析和处理的数据规模从GB级迈向TB级甚至PB级。传统的数据分析架构已经不能适应这种海量数据处理和快速、深度挖掘的需求,迫切需要引入大规模并行处理技术和分布式架构,构建基于云计算的移动互联网用户行为分析引擎系统,以应对移动互联网大数据时代的挑战。2基于云计算的系统总体设计方案2.1系统总体技术架构本
8、文设计的移动互联网用户行为分析引擎通过云计算技术实现分布式并发的大规模计算能力,构建移动互联网端到端的大数据挖掘分析系统,实现对DPI和应用平台用户上网行为的偏好分析,提供个性化推荐服务,打通从数据采集、分析到服务提供、营销执行的全过程。系统通过FTP服务器获取数据,在接口层采用分布式计算与批量处理相结合的方式,将大数据存入Hbase数据库中,支持海量数据和非结构化数据的存储,数据入库之后利用Hive进行整合层和汇总层的ETL处理,再基于MapReduce计算框架设计大数据分析模型,最后通过Hive数据库将结果导入前端展现数据库。在数据处理层,利用Hbase、Hive的优势进行海量数据的存储和
9、处理,考虑到前端展现要求的灵活性,采用关系型数据库MySQL作为前端展现。系统总体技术架构如图1所示。2.2系统总体拓扑和功能分布系统的总体拓扑如图2所示,系统由一台服务器作为Hadoop平台和Hbase的主节点服务器,其他服务器为Hadoop平台和Hbase的从节点服务器,从节点服务器的数量可根据系统处理需求动态扩展。主节点服务器主要负责从节点服务器任务和流量的分配,并对从节点服务器的执图1基于云计算的移动互联网大数据用户行为分析引擎总体技术架构28电信科学2013年第3期行状态进行监控,多台从节点服务器在主节点服务器的控制下执行具体的任务。主节点服务器的软件功能架构如图3所示,各模块具体介
10、绍如下。(1)任务管理与调度模块集中式的任务调度控制台,提供任务的创建、调整和删除等功能,通过业务类型选择、执行周期设置等,定义应用的处理逻辑;自动控制数据抽取、数据整理到数据建模、模型运行、结果输出等过程,根据任务设置的激活处理条件,自动加载任务运行,系统提供任务的暂停、恢复以及优先级管理功能。(2)大数据入库与预处理组件将DPI用户的上网行为、应用平台的用户行为和内容信息等大数据,及时导入用户行为分析引擎系统,作为数据分析和模型挖掘的数据源。(3)大数据用户行为分析模型组件基于汇聚到系统中的海量移动互联网用户行为数据,利用MapReduce计算框架构建用户行为分析模型资源池,快速分析用户的
11、偏好、社会关系信息,且支持多类业务实现精准的内容推荐。从节点服务器的软件结构与主节点服务器基本相同,区别主要在于从节点服务器不需要部署任务管理和调度模块。3大数据入库组件设计移动互联网用户行为分析引擎的数据来源主要有两类:应用平台数据和DPI数据。两类数据源的特点不同:应用平台的数据主要集中在一个访问行为表上,每天一个文件,每个文件的大小为GB级;而DPI数据的特点是大量的小文件,每个文件大小在10 MB以内,但文件来源频率快,一般2 min就有好几个文件,一个省份累计1天的数据量可达1 TB。针对上述不同的数据源特点,系统采用不同的技术方案,具体介绍如下。(1)应用平台数据入库应用平台采用每
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 计算 移动 互联网 数据 用户 行为 分析 引擎 设计
限制150内