基于OLAP和数据挖掘的客户通话数据分析.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于OLAP和数据挖掘的客户通话数据分析.pdf》由会员分享,可在线阅读,更多相关《基于OLAP和数据挖掘的客户通话数据分析.pdf(59页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、广东工业大学硕士学位论文基于OLAP和数据挖掘的客户通话数据分析姓名:曾婷婷申请学位级别:硕士专业:软件工程指导教师:滕少华20050425摘要摘要本课题来自电信业务部门的业务需求,基于O L A P 和数据挖掘的客户通话数据分析项目正是为了解决从不同的角度对移动企业的收益情况进行分析,用不同方法进行呼叫特征分析和品牌业务的预测,建立基于O L A P 和数据挖掘的客户通话数据分析系统,着重针对客户通话数据表、客户通话清单表、清单格式表、行政区格式表、呼叫类型表、语音格式表、短信格式表、统计类型表等数据资源,利用数据仓库、联机分析技术及挖掘技术对客户通话信息进行分析,从而对高层次决策人员提供辅
2、助决策支持。课题着重在O L A P 的应用研究,实现了基于客户通话信息的数据仓库的设计,首先用了多种D T S 工具实现了异构数据转换,解决了大数据量的数据转换及联机分析处理问题,在这个数据仓库上建立了多维数据集,确立了分析维度和度量。从多个维度与不同粗细粒度出发对客户通话信息进行了多层次的分析,实现对客户通话信息的联机分析处理和辅助决策支持。本课题采用微软公司的数据库系统S Q LS e r v e r2 0 0 0 作为数据仓库和O L A P数据库的数据库服务器,针对异构数据库来源,采用D T S 数据转换工具、A n a l y s iSS e r v i c e s 数据分析工具,
3、技术上实现了数据仓库的数据转换、星型模型建立、多维数据集设计、O L A P 查询分析、数据挖掘分析,数据展现等功能模块。本论文的O L A P 架构在实际的运用中取得了一定的成效,为电信营运商运用数据仓库进行决策分析做出了自己的努力。息关键字:数据仓库,O L A P,数据挖掘,数据分析,D T S,电信,客户通话信英文摘要=!=A B S T R A C TT h i sp r o j e c tc o m e sf r o mt h et e l e c o m m u n i c a t i o ns e r v i c ed e m a n d,i t sb a s e do nO
4、L A Pa n dt h ed a t am i n i n gp h o n ec o n v e r s a t i o nr e c o r da n a l y s i sp r o j e c t,i t Sp r e c i s e l yf o ra n a l y s i st h ei n c o m es i t u a t i o no fm o b i l eb u s i n e s sf r o mt h ed i f f e r e n ta n g l e C a r r i e so nt h ec a lIc h a r a c t e r i s t i
5、 ca n a l y s i sa n dt h eb r a n ds e r v i c ef o r e c a s tw i t ht h ed i f f e r e n tm e t h o d,E s t a b l i s h m e n tb a s e do nO L A Pa n dd a t am i n i n gp h o n ec o n v e r s a t i o nr e c o r da n a l y s i Ss y s t e m,A i m sm a i n l ya tt h ep h o n ec o n v e r s a t i o n
6、d a t as h e e t,d e t a i l e dl i s tf o r mt a b l e,a d m i n i s t r a t i v ea r e af o r mt a b l e,c a l lt y p et a b l e,p r o n u n c i a t i o nf o r mt a b l e,s h o r tn o t ef o r mt a b l e,s t a t i s t i c a lt y p et a b l e,U s i n gt h ed a t aw a r e h o u s e,t h eo n 一1i n ea
7、 n a l y s i st e c h n o l o g ya n d t h ee x c a v a t i o nt e c h n o l o g yc a r r yo nt h ea n a l y s i St ot h ec u s t o m e rt e l e p h o n ec o n v e r s a t i o ni n f o r m a t i o n,T h u sp r o v i d e st h ea u x i l i a r yp o l i c y m a k i n gs u p p o r tt ot h eh i g h1 e v
8、e ld e c i s i o n m a k i n gp e r s o n n e l。T h i Sr e s e a r c he m p h a s i So na p p l i c a t i o no fO L A P,h a sr e a l i z e db a s e do nt h ep h o n ec o n v e r s a t i o nd a t aw a r e h o u s ed e s i g n F i r s tu s e dt h em a n yk i n d so fD T St o o lt or e a l i z et h et
9、r a n s f o r m a t i o ni s o m e r i s md a t a b a s et ot h ed a t aw a r e h o u s es y s t e mc o r r e s p o n d i n gt a b l ei n,S o l v e st h eg r e a td a t aq u a n t i t yd a t ac o n v e r s i o na n dt h eo n l i n ea n a l y s i sp r o c e s s i n gq u e s t i o n;H a se s t a b l i
10、 s h e dt h em u l t i d i m e n s i o n a ld a t as e ti nt h i sn u m b e ra c c o r d i n gt ot h ew a r e h o u s ei n,E s t a b l i s ht h ea n a l y s i Sd i m e n s i o na n dt h em e a s u r e H a sc a r r i e do nt h em u l t i l e v e la n a l y s i Sf r o mm a n yd i m e n s i o n sa n dt
11、 h ed i f f e r e n tt h i c kf i n eg r a i nu n i o nt ot h ec u s t o m e rt e l e p h o n ec o n v e r s a t i o ni n f o r m a t i o n,R e a li z a t i o nt oc u s t o m e rt e l e p h o n ec o n v e r s a t i o ni n f o r m a t i o nd a t ao n l i n ea n a l y s i sp r o c e s s i n ga n da u
12、x i l i a r yp o l i c y m a k i n g T h i sr e s e a r c hu s e dM i c r o s o f tC o r p o r a t i o n Sd a t a b a s es y s t e mS O LS e r v e r2,0 0 0t ot a k et h ed a t aw a r e h o u s ea n dt h eO L A Pd a t a b a s es e r v e r,I nv i e wo fi s o m e r i s md a t a b a s eo r i g i n,U s e
13、 st h eD T Sd a t ac o n v e r s i o nt o o l,A n a l y s i sS e r v i c e s d a t aa n a l y s i st o o l,I nt h et e c h n o l o g yh a sr e a l i z e dt h ed a t a第一章绪论第一章绪论1 1 课题研究的背景随着计算机应用的展开与深入,大量数据存储在计算机中,人们迫切需要将这些数据转换成有用的信息和知识,并将获取的信息和知识可以广泛用于各行各业,包括商务管理、生产控制、市场分析、工程设计和科学探索等uJ。2 0 世纪6 0 年代,
14、数据库和信息技术的发展,使数据从原始的文件处理演化到复杂的功能强大的数据库系统。7 0 年代,数据库系统的研究和开发已经从层次和网状数据库系统发展到开发关系数据库系统、数据建模工具。8 0 年代中期以来,开始使用先进的数据模型,各种数据库系统百花齐放,涉及分布式、多样性和数据共享问题。这些技术大大推动了数据库和信息产业的发展,使得大量数据库和信息存储用于事务管理、信息检索和数据分析口l。现在,数据可以存放于不同类型的数据库中。而新型数据存储数据仓库是一个将异种数据源在单个站点以统一的模型组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成、联机分析处理(O L A P)和数据挖掘(D
15、 M)。O L A P 是一种多维查询和分析工具,支持决策者围绕决策主题对数据进行多角度、多层次的分析。O L A P 侧重于交互性、快速的响应速度及提供数据的多维视图,而D M 则注重自动发现隐藏在数据中的模式和有用信息。O L A P 的分析结果可以给D M 提供分析信息,作为挖掘的依据;D M 可以拓展O L A P 分析的深度,可以发现O L A P 所不能发现的更为复杂、细致的信息。从上面的论述可以看出:O L A P 是联机分析处理,D M 是通过对数据库、数据仓库中的数据进行分析而获得知识的一系列方法和技术,具体地说是通过建立模型来发现隐藏在组织机构数据库中的模式和关系。这两者结
16、合起来可以满足企业对数据整理和信息提取的要求,帮助企业高层做出决策【3“。1 2 联机分析处理和数据挖掘当前应用状况2 0 世纪9 0 年代初,在国外兴起了数据仓库(D a t aW a r e h o u s e,D W)技术,促进了O L A P 技术和基于海量数据仓库的数据挖掘(D a t aM i n i n g,D M)技术的发广东工业人学工学硕士学位论文展,这些技术的成熟和发展表现为基于这些技术的产品研制蓬勃开展。数以百计的数据仓库、O L A P 和数据挖掘软件产品走向市场、走向应用。在国外,O L A P 技术目前在商业、生产制造、电信、金融以及教育、卫生、税收等各个行业都有广
17、泛应用并获得极大成功。国内真正从事数据挖掘的项目还不多,多数还是停留在“看想说”这些步骤。也就是说,看一些资料文献参考书,再从目前的情况中展开联想,最后将这些整理的想法形成方案,并报告(说)出来。参考文献1 中指出:目前一些数据量比较大的行业,如电信、银行、保险、证券、电力等不少大中型行业用户已经开始关注和应用数据挖掘技术,但是达到理想状态的应用还很少,多数用户仍处于摸索阶段。另外,我国许多中小企业的基础系统还没建立,数据无法集成,这也使得数据挖掘难以开展。极个别大型企业采用了国外的O L A P 应用系统。1 3 课题来源电信业内有大量成熟的数据库应用系统,像“电信业务计算机综合管理系统”,
18、“本地网管系统”,“财务管理系统”,“计费账务系统”、“1 1 2 障碍管理系统”、“收费销账系统”等,通过这些系统产生了大量的业务处理数据。而许多的历史数据都存储在磁带、光盘中,或是分布在不同的硬件、数据库内,要对历史数据进行查询,既费力又费时,更不用说把不同业务部门的数据进行关联比较分析了。同时也存在诸如数据类型不匹配,数据定义不同,数据不一致、数据冗余等问题。随着国内电信市场竞争的日趋激烈,电信运营商的经营模式逐渐从“技术驱动”向“市场驱动”、“客户驱动”转化。这就要求运营商要采取以客户为中心的策略,根据客户的实际需求提供多样化、层次化、个性化的服务解决方案。因此,客户关系管理(C R
19、M)成了电信运营商增加收入和利润,提高客户满意度、忠诚度的有效工具。在客户关系管理的流程中,为了准确、及时地进行经营决策,必须充分获取并利用相关的数据信息对决策过程进行辅助支持。近几年迅速发展起来的O L A P 和数据挖掘技术就是实现这一目标的重要手段。本课题来自某电信营运商业务部门的需求,这个课题主要是为了解决从不同的角度对移动企业的收益情况进行分析,用不同方法进行呼叫特征分析和品牌业2第一章绪论务的预测,从而对高层决策人员提供辅助决策支持。1 4 课题的研究内容本课题通过对某电信商的客户通话数据进行数据分析,将开展下列研究:(1)运用O L A P 及D T S 工具,实现对异构数据源的
20、转换及装入数据仓库;(2)构建客户通话数据的事实表和维表,实现对维、计算成员的建立,进而创建数据仓库的星型模型;(3)选择挖掘算法对数据进行分析,利用图形工具对分析结果进行了展现,进而将分析结果用于辅助决策。J 1 糸工、l k 大学工学硕士论文第二章理论基础2 1 数据仓库众所周知,如何有效地管理公司和企业在运营过程中产生的大量数据和信息一直是I T 人员面临的重要问题。2 0 世纪7 0 年代出现并被广泛应用的关系型数据库技术为解决这一问题提供了强有力的工具。然而,从2 0 世纪8 0 年代中期开始,随着市场竞争的加剧,信息系统用户已经不满足于仅仅用计算机去管理日复一日的运营数据,他们更需
21、要的是从这些数据中得到有用的信息,以便于进行决策支持,这种需求使得在2 0 世纪8 0 年代中后期出现了数据仓库思想的萌芽,为数据仓库概念的最终的提出和发展打下了基础。1 9 2 0 年,W tH I n m o n 在其里程碑式的建立数据仓库一书中提出了“数据仓库”的概念,数据仓库的研究和应用得到了广泛的关注。数据仓库其实是有关大量数据的数据存储,它有以下几个特点盯I:1、面向主题:以一个企业或组织中固有的业务主题作为处理的主体,是从整体、全局的角度来衡量这些主题在企业中的作用;2、集成:采用某种方法消除应用问题中存在的例如编码、命名习惯、属性、属性量度等方面的不一致;3、非易失:反映一段相
22、当长时间内历史数据的内容,是不同时间点的数据库快照的集合以及基于快照的统计、综合和重组。数据一旦进入数据仓库,只要数据没超过数据仓库的数据存储限期,一般不对数据进行更新操作;4、随时间变化:时间元素(如年、月、日)明确包含在数据中,使得随时间变化的趋势可以用于分析研究,随着时间变化新数据不断集成到数据仓库中,过时的数据被剔除。数据仓库系统与O L T P 系统的差异口I:1、O L T P 是针对工商企业目前业务的自动化而设计的,而数据仓库是针对工商企业数据分析需求而设计的,是一种新业务;2、O L T P 是在协助工人执行既有的活动,数据仓库是协助工作人员执行管理决策;3、O L T P 可
23、让多个用户同时使用信息系统,一般而言,数据仓库不会有太4第二草理论基础多用户在同一时间使用;4、O L T P 存储的数据注重细节,数据仓库则重较高级别的集合信息:5、O L T P 的数据来源是用户日常工作的输入,数据仓库系统来源是O L T P系统:6、O L T P 数据库内容会随时被添加、删除以及更新,数据仓库的内容是历史数据,不会随时加以更新;7、O L T P 数据的处理以交易为单位,交易时间短而且占用系统的资源少,而数据仓库处理不以交易为单位,一个用户的需求会占用大量的系统资源;8、O L T P 设计数据库是采用正规化的设计方式,数据仓库系统采用非正规化的设计方式。2 2O L
24、 A P 的基本原理6 0 年代末,E EC o d d 所提出的关系数据模型促进了关系数据库及联机事务处理(O L T P)的发展。数据不再以文件方式同应用程序捆绑在一起,而是分离出来以关系表方式供大家共享。1 9 9 3 年,C o d d 认为O L T P 已不能满足终端用户对数据库查询分析的需求,S Q L 对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者的需求。因而C o d d 提出了多维数据库和多维分析的概念,即O L A P。O L A P(O n L i n e A n a l y t i
25、 c a lP r o c e s s i n g)是针对特定问题的联机数据访问和分析。通过对信息(这些信息已经从原始的数据进行了转换,以反映用户所能理解的企业的真实的“维”)的很多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察(8 I。O L A P 的基本概念(1)度量:度量是数据的实际意义,即描述数据的一个量值。一般情况F,它总是一些数值度量指标,例如:“人数”、“单价”、“销售额”等。(2)维:维是人们观察数据的特定角度。例如,企业常常关心产品销售数据随着时间推移而产生的变化情况,这时如果从时间的角度来观察产品的销售,所以时间就是一个维(时间维)。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 OLAP 数据 挖掘 客户 通话 分析
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内