欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    基于OLAP和数据挖掘的客户通话数据分析.pdf

    • 资源ID:69686903       资源大小:2.83MB        全文页数:59页
    • 资源格式: PDF        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    基于OLAP和数据挖掘的客户通话数据分析.pdf

    广东工业大学硕士学位论文基于OLAP和数据挖掘的客户通话数据分析姓名:曾婷婷申请学位级别:硕士专业:软件工程指导教师:滕少华20050425摘要摘要本课题来自电信业务部门的业务需求,基于O L A P 和数据挖掘的客户通话数据分析项目正是为了解决从不同的角度对移动企业的收益情况进行分析,用不同方法进行呼叫特征分析和品牌业务的预测,建立基于O L A P 和数据挖掘的客户通话数据分析系统,着重针对客户通话数据表、客户通话清单表、清单格式表、行政区格式表、呼叫类型表、语音格式表、短信格式表、统计类型表等数据资源,利用数据仓库、联机分析技术及挖掘技术对客户通话信息进行分析,从而对高层次决策人员提供辅助决策支持。课题着重在O L A P 的应用研究,实现了基于客户通话信息的数据仓库的设计,首先用了多种D T S 工具实现了异构数据转换,解决了大数据量的数据转换及联机分析处理问题,在这个数据仓库上建立了多维数据集,确立了分析维度和度量。从多个维度与不同粗细粒度出发对客户通话信息进行了多层次的分析,实现对客户通话信息的联机分析处理和辅助决策支持。本课题采用微软公司的数据库系统S Q LS e r v e r2 0 0 0 作为数据仓库和O L A P数据库的数据库服务器,针对异构数据库来源,采用D T S 数据转换工具、A n a l y s iSS e r v i c e s 数据分析工具,技术上实现了数据仓库的数据转换、星型模型建立、多维数据集设计、O L A P 查询分析、数据挖掘分析,数据展现等功能模块。本论文的O L A P 架构在实际的运用中取得了一定的成效,为电信营运商运用数据仓库进行决策分析做出了自己的努力。息关键字:数据仓库,O L A P,数据挖掘,数据分析,D T S,电信,客户通话信英文摘要=!=A B S T R A C TT h i sp r o j e c tc o m e sf r o mt h et e l e c o m m u n i c a t i o ns e r v i c ed e m a n d,i t sb a s e do nO L A Pa n dt h ed a t am i n i n gp h o n ec o n v e r s a t i o nr e c o r da n a l y s i sp r o j e c t,i t Sp r e c i s e l yf o ra n a l y s i st h ei n c o m es i t u a t i o no fm o b i l eb u s i n e s sf r o mt h ed i f f e r e n ta n g l e C a r r i e so nt h ec a lIc h a r a c t e r i s t i ca n a l y s i sa n dt h eb r a n ds e r v i c ef o r e c a s tw i t ht h ed i f f e r e n tm e t h o d,E s t a b l i s h m e n tb a s e do nO L A Pa n dd a t am i n i n gp h o n ec o n v e r s a t i o nr e c o r da n a l y s i Ss y s t e m,A i m sm a i n l ya tt h ep h o n ec o n v e r s a t i o nd a t as h e e t,d e t a i l e dl i s tf o r mt a b l e,a d m i n i s t r a t i v ea r e af o r mt a b l e,c a l lt y p et a b l e,p r o n u n c i a t i o nf o r mt a b l e,s h o r tn o t ef o r mt a b l e,s t a t i s t i c a lt y p et a b l e,U s i n gt h ed a t aw a r e h o u s e,t h eo n 一1i n ea n a l y s i st e c h n o l o g ya n d t h ee x c a v a t i o nt e c h n o l o g yc a r r yo nt h ea n a l y s i St ot h ec u s t o m e rt e l e p h o n ec o n v e r s a t i o ni n f o r m a t i o n,T h u sp r o v i d e st h ea u x i l i a r yp o l i c y m a k i n gs u p p o r tt ot h eh i g h1 e v e ld e c i s i o n m a k i n gp e r s o n n e l。T h i Sr e s e a r c he m p h a s i So na p p l i c a t i o no fO L A P,h a sr e a l i z e db a s e do nt h ep h o n ec o n v e r s a t i o nd a t aw a r e h o u s ed e s i g n F i r s tu s e dt h em a n yk i n d so fD T St o o lt or e a l i z et h et r a n s f o r m a t i o ni s o m e r i s md a t a b a s et ot h ed a t aw a r e h o u s es y s t e mc o r r e s p o n d i n gt a b l ei n,S o l v e st h eg r e a td a t aq u a n t i t yd a t ac o n v e r s i o na n dt h eo n l i n ea n a l y s i sp r o c e s s i n gq u e s t i o n;H a se s t a b l i s h e dt h em u l t i d i m e n s i o n a ld a t as e ti nt h i sn u m b e ra c c o r d i n gt ot h ew a r e h o u s ei n,E s t a b l i s ht h ea n a l y s i Sd i m e n s i o na n dt h em e a s u r e H a sc a r r i e do nt h em u l t i l e v e la n a l y s i Sf r o mm a n yd i m e n s i o n sa n dt h ed i f f e r e n tt h i c kf i n eg r a i nu n i o nt ot h ec u s t o m e rt e l e p h o n ec o n v e r s a t i o ni n f o r m a t i o n,R e a li z a t i o nt oc u s t o m e rt e l e p h o n ec o n v e r s a t i o ni n f o r m a t i o nd a t ao n l i n ea n a l y s i sp r o c e s s i n ga n da u x i l i a r yp o l i c y m a k i n g T h i sr e s e a r c hu s e dM i c r o s o f tC o r p o r a t i o n Sd a t a b a s es y s t e mS O LS e r v e r2,0 0 0t ot a k et h ed a t aw a r e h o u s ea n dt h eO L A Pd a t a b a s es e r v e r,I nv i e wo fi s o m e r i s md a t a b a s eo r i g i n,U s e st h eD T Sd a t ac o n v e r s i o nt o o l,A n a l y s i sS e r v i c e s d a t aa n a l y s i st o o l,I nt h et e c h n o l o g yh a sr e a l i z e dt h ed a t a第一章绪论第一章绪论1 1 课题研究的背景随着计算机应用的展开与深入,大量数据存储在计算机中,人们迫切需要将这些数据转换成有用的信息和知识,并将获取的信息和知识可以广泛用于各行各业,包括商务管理、生产控制、市场分析、工程设计和科学探索等uJ。2 0 世纪6 0 年代,数据库和信息技术的发展,使数据从原始的文件处理演化到复杂的功能强大的数据库系统。7 0 年代,数据库系统的研究和开发已经从层次和网状数据库系统发展到开发关系数据库系统、数据建模工具。8 0 年代中期以来,开始使用先进的数据模型,各种数据库系统百花齐放,涉及分布式、多样性和数据共享问题。这些技术大大推动了数据库和信息产业的发展,使得大量数据库和信息存储用于事务管理、信息检索和数据分析口l。现在,数据可以存放于不同类型的数据库中。而新型数据存储数据仓库是一个将异种数据源在单个站点以统一的模型组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成、联机分析处理(O L A P)和数据挖掘(D M)。O L A P 是一种多维查询和分析工具,支持决策者围绕决策主题对数据进行多角度、多层次的分析。O L A P 侧重于交互性、快速的响应速度及提供数据的多维视图,而D M 则注重自动发现隐藏在数据中的模式和有用信息。O L A P 的分析结果可以给D M 提供分析信息,作为挖掘的依据;D M 可以拓展O L A P 分析的深度,可以发现O L A P 所不能发现的更为复杂、细致的信息。从上面的论述可以看出:O L A P 是联机分析处理,D M 是通过对数据库、数据仓库中的数据进行分析而获得知识的一系列方法和技术,具体地说是通过建立模型来发现隐藏在组织机构数据库中的模式和关系。这两者结合起来可以满足企业对数据整理和信息提取的要求,帮助企业高层做出决策【3“。1 2 联机分析处理和数据挖掘当前应用状况2 0 世纪9 0 年代初,在国外兴起了数据仓库(D a t aW a r e h o u s e,D W)技术,促进了O L A P 技术和基于海量数据仓库的数据挖掘(D a t aM i n i n g,D M)技术的发广东工业人学工学硕士学位论文展,这些技术的成熟和发展表现为基于这些技术的产品研制蓬勃开展。数以百计的数据仓库、O L A P 和数据挖掘软件产品走向市场、走向应用。在国外,O L A P 技术目前在商业、生产制造、电信、金融以及教育、卫生、税收等各个行业都有广泛应用并获得极大成功。国内真正从事数据挖掘的项目还不多,多数还是停留在“看想说”这些步骤。也就是说,看一些资料文献参考书,再从目前的情况中展开联想,最后将这些整理的想法形成方案,并报告(说)出来。参考文献1 中指出:目前一些数据量比较大的行业,如电信、银行、保险、证券、电力等不少大中型行业用户已经开始关注和应用数据挖掘技术,但是达到理想状态的应用还很少,多数用户仍处于摸索阶段。另外,我国许多中小企业的基础系统还没建立,数据无法集成,这也使得数据挖掘难以开展。极个别大型企业采用了国外的O L A P 应用系统。1 3 课题来源电信业内有大量成熟的数据库应用系统,像“电信业务计算机综合管理系统”,“本地网管系统”,“财务管理系统”,“计费账务系统”、“1 1 2 障碍管理系统”、“收费销账系统”等,通过这些系统产生了大量的业务处理数据。而许多的历史数据都存储在磁带、光盘中,或是分布在不同的硬件、数据库内,要对历史数据进行查询,既费力又费时,更不用说把不同业务部门的数据进行关联比较分析了。同时也存在诸如数据类型不匹配,数据定义不同,数据不一致、数据冗余等问题。随着国内电信市场竞争的日趋激烈,电信运营商的经营模式逐渐从“技术驱动”向“市场驱动”、“客户驱动”转化。这就要求运营商要采取以客户为中心的策略,根据客户的实际需求提供多样化、层次化、个性化的服务解决方案。因此,客户关系管理(C R M)成了电信运营商增加收入和利润,提高客户满意度、忠诚度的有效工具。在客户关系管理的流程中,为了准确、及时地进行经营决策,必须充分获取并利用相关的数据信息对决策过程进行辅助支持。近几年迅速发展起来的O L A P 和数据挖掘技术就是实现这一目标的重要手段。本课题来自某电信营运商业务部门的需求,这个课题主要是为了解决从不同的角度对移动企业的收益情况进行分析,用不同方法进行呼叫特征分析和品牌业2第一章绪论务的预测,从而对高层决策人员提供辅助决策支持。1 4 课题的研究内容本课题通过对某电信商的客户通话数据进行数据分析,将开展下列研究:(1)运用O L A P 及D T S 工具,实现对异构数据源的转换及装入数据仓库;(2)构建客户通话数据的事实表和维表,实现对维、计算成员的建立,进而创建数据仓库的星型模型;(3)选择挖掘算法对数据进行分析,利用图形工具对分析结果进行了展现,进而将分析结果用于辅助决策。J 1 糸工、l k 大学工学硕士论文第二章理论基础2 1 数据仓库众所周知,如何有效地管理公司和企业在运营过程中产生的大量数据和信息一直是I T 人员面临的重要问题。2 0 世纪7 0 年代出现并被广泛应用的关系型数据库技术为解决这一问题提供了强有力的工具。然而,从2 0 世纪8 0 年代中期开始,随着市场竞争的加剧,信息系统用户已经不满足于仅仅用计算机去管理日复一日的运营数据,他们更需要的是从这些数据中得到有用的信息,以便于进行决策支持,这种需求使得在2 0 世纪8 0 年代中后期出现了数据仓库思想的萌芽,为数据仓库概念的最终的提出和发展打下了基础。1 9 2 0 年,W tH I n m o n 在其里程碑式的建立数据仓库一书中提出了“数据仓库”的概念,数据仓库的研究和应用得到了广泛的关注。数据仓库其实是有关大量数据的数据存储,它有以下几个特点盯I:1、面向主题:以一个企业或组织中固有的业务主题作为处理的主体,是从整体、全局的角度来衡量这些主题在企业中的作用;2、集成:采用某种方法消除应用问题中存在的例如编码、命名习惯、属性、属性量度等方面的不一致;3、非易失:反映一段相当长时间内历史数据的内容,是不同时间点的数据库快照的集合以及基于快照的统计、综合和重组。数据一旦进入数据仓库,只要数据没超过数据仓库的数据存储限期,一般不对数据进行更新操作;4、随时间变化:时间元素(如年、月、日)明确包含在数据中,使得随时间变化的趋势可以用于分析研究,随着时间变化新数据不断集成到数据仓库中,过时的数据被剔除。数据仓库系统与O L T P 系统的差异口I:1、O L T P 是针对工商企业目前业务的自动化而设计的,而数据仓库是针对工商企业数据分析需求而设计的,是一种新业务;2、O L T P 是在协助工人执行既有的活动,数据仓库是协助工作人员执行管理决策;3、O L T P 可让多个用户同时使用信息系统,一般而言,数据仓库不会有太4第二草理论基础多用户在同一时间使用;4、O L T P 存储的数据注重细节,数据仓库则重较高级别的集合信息:5、O L T P 的数据来源是用户日常工作的输入,数据仓库系统来源是O L T P系统:6、O L T P 数据库内容会随时被添加、删除以及更新,数据仓库的内容是历史数据,不会随时加以更新;7、O L T P 数据的处理以交易为单位,交易时间短而且占用系统的资源少,而数据仓库处理不以交易为单位,一个用户的需求会占用大量的系统资源;8、O L T P 设计数据库是采用正规化的设计方式,数据仓库系统采用非正规化的设计方式。2 2O L A P 的基本原理6 0 年代末,E EC o d d 所提出的关系数据模型促进了关系数据库及联机事务处理(O L T P)的发展。数据不再以文件方式同应用程序捆绑在一起,而是分离出来以关系表方式供大家共享。1 9 9 3 年,C o d d 认为O L T P 已不能满足终端用户对数据库查询分析的需求,S Q L 对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者的需求。因而C o d d 提出了多维数据库和多维分析的概念,即O L A P。O L A P(O n L i n e A n a l y t i c a lP r o c e s s i n g)是针对特定问题的联机数据访问和分析。通过对信息(这些信息已经从原始的数据进行了转换,以反映用户所能理解的企业的真实的“维”)的很多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察(8 I。O L A P 的基本概念(1)度量:度量是数据的实际意义,即描述数据的一个量值。一般情况F,它总是一些数值度量指标,例如:“人数”、“单价”、“销售额”等。(2)维:维是人们观察数据的特定角度。例如,企业常常关心产品销售数据随着时间推移而产生的变化情况,这时如果从时间的角度来观察产品的销售,所以时间就是一个维(时间维)。企业也时常关心自己的产品在不同地区的销售J 东D k 大学工学硕士论文分布情况,这时可从地理分布的角度来观察产品的销售,所以地理分布也是一个维(地理维)。(3)维的层次:人们观察数据的某个特定角度(及某个维)还可以存在细节程度不同的多个描述方面,称这些描述方面为维的层次。例如描述时间维时,可以从口、月、季、年等不同层次来描述。(4)维成员:维的一个取值称为该维的一个维成员。如果一个维是多层次的,那么该维的维成员是在不同维层次的取值的组合。(5)多维数据集:是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构,如:(维1,维2,维n,度量)。(6)数据单元:(单元格)多维数据集的取值称为数据单元。2 2 1O L A P 的基本分析动作O L A P 分析主要是通过对多维组织后的数据进行切片、切块、聚合、钻取、旋转等分析动作,以求剖析数据使用户能够从多种维度、多个侧面、多种数据综合度查看数据,从而了解数据背后蕴含的规律。1、数据切片:多维数据集中数据的一个子集,由维度的成员限制一个或多个维度来指定。例如,特定年份的事实数据构成多年数据的一个切片。2、数据切块:将完整的数据立方体切取一部分数据而得到的新的数据立方体。3、数据钻取:从较高的维度层次下降到较低的维度层次上的多维数据。4、数据聚合:也就是钻取的逆向操作,是对数据进行高层次综合的操作。5、数据旋转:改变维度的位置关系,使得最终用户可以从其他视角来观察多维数据。2 2 2O L A P 的体系机构和分类O L A P 的具体实现方案通常采用三层或多层客户,服务器结构如图2-l 所示。第一层是数据仓库服务器,它实现与基层运营的数据库系统的连接,提供企业级数据库和数据共享的工作;第二层是O L A P 服务器,它根据最终客户的请求实现分解成O L A P 分析的各种分析动作,使得数据仓库中的数据完成这些动作;第三层是前端的展现工具,用于将O L A P 服务器处理得到的结果用直观的方式,如多6第二璋理论基础维表、饼图、柱状图、三维图等展现给最终用户。巳 固O L A P 日圈数据仓库S Q L A n a l y s i sS e r v i c e sB O,C o g n o s,S A S E G图2-1 三层客户服务器结构示意图F i g u r e2-1T h r e e l a y e rC Sa r c h i t e c t u r e这种三层体系结构使数据、应用逻辑和客户应用分离开,有利于系统的维护和升级。当系统需要修改功能或者增加功能时,可以只修改三层中的某些部分,而不需要向两层的客户,服务器体系那样做整体的改动。提供O L A P 的服务器的工具很多,通常按照O L A P 的存储方式的不同,可以将O L A P 服务器分成M O L A P、R O L A P、H O L A P。M O L A P(M u l t i D i m e n s i o n a lo L P),多维联机分析处理。M O L A P 以多维数据库为核心,以多维阵列方式来存储数据,以多维视图的方式显示数据。阵列中的每个单元是由每个维的交叉点构成,在这种设计中,不是所有的单元都有指标值。同时,随着立方体维数的增加,稀疏性(即空单元的数目)也将随之增加,立方体中的指标量也将大大增加。针对这种情况,可以将逻辑设计分散到多个数据立方体中以减少稀疏性的影响,同时,还可运用特殊的物理存储管理技术(如数据压缩)和索引方案,提高访问的速度。在M O L A P 中,将分散在各O L T P 的数据源经过清洗、整理和转换后存入多维数据库,并根据维信息进行计算、合并等预处理,按一定层次综合存入多维数据库中,从而建立很多“实视图”。使用M O L A P 的主要原因是它的存储机制在检索数据时尤为高效。它不像关系数据库,必须为快速应答查询建立一个结果集。M O L A P 很容易辨别预先计算好的元素所在的位置或者说单元,并返回数据以做出响应。R O L A P(R e l a t i o n a lO L A P),关系型联机分析处理。R O L A P 在功能上类似于M O L A P,它以关系数据库为中心,用二维表来组织数据,表现多维用户视角。当用户发出多维分析请求时,O L A P 服务器动态将这些请求转换为S Q L 语句,并将结果转换为多维视图返回到用户。在R O L A P 中,数据的预处理程度一般不广东工、【k 大学1 学硕士论文高,但灵活性高,用户可以动态定义统计和计算方式,并且有成熟稳定的关系数据库管理工具和开放式S Q L 接口,可移植性好。但性能一般不如M O L A P,因为表连接等操作的系统开销较大。为了降低R D B M S 处理开销,可以采用星型模式设计方案。R O L A P 利用现成的关系数据库技术来模拟多维数据。因为在当今的企业业务系统中,关系数据库的管理系统占绝大多数,同时也积累了大量相关的业务数据,自然,建立基于关系的R O L A P 更符合实际。H O L A P,混合型。H O L A P 不仅仅是M O L A P 和R O L A P 的简单组合,丽是两者技术优点的有机结合,并很好的满足用户的各种分析请求。因此,实现H O L A P 的方法有下面几种:(1)同时提供M D D B 和R D B M S,由设计、开发人员来选择。(2)在运行时把从关系型数据库中查询的结果存入多维数据库中。开发人员要定义一个静态结构的多维模型来暂存运行时查询出的数据。当客户提交一个分析请求时,系统首先检查多维缓存中是否含有分析所需数据,若有则可直接利用,若无则要利用S Q L 语句从R D B M S 中获取相应数据,并存入多维缓存中。(3)将细节数据存储在R D B M S 中,而利用多维数据库存储高级别的综合数据。这种方法现在被认为是实现H O L A P 较为理想的方法。它结合M O L A P 和R O L A P 的优点,当客户端用户提交一个分析请求时,系统透明地从M D D B 中获取综合数据或从R D B M S 提取细节数据”。2 3 数据挖掘(O M)的基础原理数据挖掘是一个发现的过程,它在非常大的数据库中发掘隐藏其中的有意义的某种模式和关系。对表和记录的浏览几乎不能引导你得到有用的模式,即通过自动处理对数据做典型分析,也就是通过在数据挖掘术语中称为知识挖掘(K D)。数据挖掘能够发现描述性和预见性的信息。你选择哪种类型的信息用于数据挖掘,很大程度取决于你想用它的结论完成什么工作。当你寻求预测信息时,目标是从信息中挖掘出能够提供关于未来事件的线索”2 1。2 3 TD M 与O L A PO L A P 和D M 的功能视为不交的:O L A P 是数据汇总聚集工具,它能帮助简化数据分析;而数据挖掘自动发现隐藏在大量数据中的隐含模式和有趣知识。第:苹理论基础:=:=:=:=:=O L A P 工具的目标是简化和支持交互数据分析,而数据挖掘的目标是尽可能自动处理,尽管允许用户知道这一过程。在这种意义下,数据挖掘比传统的联机分析处理前进了一步。由于O L A P 系统可以提供数据仓库中数据的一般描述,O L A P 的功能基本上是用户指挥的汇总和比较(通过上钻,下钻,旋转,切片,切块和其他操作)。数据挖掘的涵盖数据汇总和比较,关联、分类、预测、聚类、时间序列分析和其他数据分析任务。数据挖掘不限于分析数据仓库中的数据。它可以分析现存的、比数据仓库提供的汇总数据粒度更细的数据。它也可以分析事务的、文本的、空间的和多媒体数据,这些数据很难用现有的多维数据库技术建模。在这种意义下,数据挖掘涵盖的数据挖掘功能和处理的数据复杂性要比O L A P 大得多【1。2 3 2 数据挖掘的基本术语挖掘模型(M i n i n gM o d e l s):是一个特定的存储已经过算法处理实例的数据结构。数据挖掘需要一个结构体系,它应包含基础数据库中呈现的模式。该结构然后成为进行预测的基础,这种预测是在对缺值处进行“填空”的新数据基础上形成的。通过从原始数据收集信息,数据挖掘应用软件建立一个数据子集,该子集被编译用于一个数据挖掘算法。按照样本数据,该结果集就可以用来预测了。模式(P a t t e m s):模式就是指在一个数据库中出现频率足以揭示它们之间有关联的一系列事件。揭示这种关联通常也就是一个归纳推理的过程。实例(C a s e s)i 用作数据挖掘模型的每一项历史数据都是一个实例。例如,一个数据挖掘模型描述消费者在仓储商店的购买活动,那么,每一次的购买行为都是总结数据挖掘模型的经验一个特定的实例。2 3 3 数据挖掘的方法决策树:决策树是一种作为商业数据挖掘工具而广为使用的算法。该综合术语描述了一系列特殊算法,如x 平方交互检验和C 4 5,以及它们所使用的算法。这种算法使模型看起来像一棵树。决策树算法主要用于预测任务,这种算法首先需要一个分类导向的模型,这样我们可以把一个问题分成几个部分分别加以解决。这种方法有个好处是,即用规则描述节点的方式非常直观且便于操作者理解。但是对于决策树方法来说,衡量一个找到的规则意义可能是一个很麻烦的问题。问题在于随着树结构向下发展,分类树的接点上只剩下极少数的记录。决策9广东T、l k 大学工学硕十论文树把数据分叉成的集合越多,数据也就更为具体。要体验的不同实例的个数越多,各训练示例集合就越小。因为随着实体数目的减少,分类的准确性将随之提高。如果决策树的细小分支极为繁多,节点里的规则将无法处理任何统计事务,这主要是因为分支上的每个节点通常只包含了整个实例中的一小部分数据,这会导致数据过密的问题。聚类:聚类也是一种数据挖掘的方法,但是没有使用独立的变量去得到肯定的输出。也就是说,在为数据挖掘模型做准备时,你确实不知道在寻找什么,也不知道会找到什么。聚类技术的应用实际上是将所有的数据倾倒给系统并让其“魔法般地”使数据整齐的堆积。聚类的所有算法就是找到记录并将这些记录指定给它定义的群体。通常它是用来记录群体进行分类。聚类分析是对群体及其成员进行分类的递归过程。还有一些数据挖掘方法,诸如关联分析、分类、时间序列分析等,限于篇幅,此处就不一一列出了。2 4S Q LS e r v e r 分析服务器S Q LS e r v e r2 0 0 0A n a l y s i sS e r v i c e 是一个可靠的O L A P 和D M 工具,可作为O L A P 和数据挖掘的中间层服务器。它可以构造用于分析的多维数据集,同时还提供对多维数据集信息的快速客户端访问,它将数据仓库中的数据组织成包含预先计算聚合数据的多维数据集,为复杂的分析查询提供快速应答。它还具有数据挖掘功能,可以从M O L A P 和R O L A P 等数据源中创建D M 模型,具有使用简单灵活、功能完善、可伸缩性,易集成的特点。A n a l y s i sS e r v i c e 以多维数据集的形式显示事实数据表和维度表中的数据,从多维数据集中可以分析趋势和其他对于规划今后工作非常重要的信息。在A n a l y s i sS e r v i c e s 多维数据集上处理O L A P 查询比试图在O L T P 数据库中记录的详细数据上进行同样的查询要快得多 1 4-1 6 1。2 5 多维数据库语言多维表达式(M u l t i D i m e n s i o n a lE x p r e s s i o n s,M D X)是一种用来操纵S Q LS e r v e r 2 0 0 0 A n a l y s i sS e r v i c e s 多维信息的语言,是专门为检索多维数据信息而设1 0第二章理论基础计的基于S Q L 的语言。使用M D X,可从多个角度查看多维数据集、显示聚合、比较维度中的度R,n =t 算度量等等。可以在处理过程中随时改变多维数据集的结构,甚至可以将更新的数据写回到多维数据集或维度中。M D X 支持多维对象与数据的定义和操作,提供管理数据结构的数据定义语言(D D L)语法。其中有用于创建和删除多维数据集、维度、度最值以及它们的坐标对象的M D X 命令。M D X 和S Q L 在语法上非常相似,M D X 语言的核心是S E L E C T 语句。M D X 还提供了可靠的函数集,用来对所检索的数据进行操作,同时还具有用户定义函数扩展M D X 的能力。用户自定义函数可使用任何支持组件对象模型f C O M)接口的编程语言进行编写。一个M D XS E L E C T 语句允许在要查看的A n a l y s i sS e r v i c e s 多维数据集中选择任何形式的视图。可以指定维度、度量和分片数据,或是对数据源应用各种函数产生S E C L E C T 的输出”。1 剐。广东工业大学工学硕士论文第三章系统体系结构3 1 系统需求系统采用的操作系统为W i n d o w sx P,数据库系统主要采用了M i c r o s o f tS Q LS e r v e r2 0 0 0 企业版,采用S Q LS e r v e r 数据库可以处理异构数据库,而且有较强大的数据转换和分析工具。在W i n d o w s X P 上安装了所需要的S Q L S e r v e r 服务器和客户端。数据来源可以是文本格式数据文件、A c c e s s,E x c e l,F o x P r o,O r a c l e,X M L 等等。使用了O f f i c e2 0 0 0 作为客户通话信息数据分析系统数据库O L A P 数据的客户端的展现工具。采用微软的A n a l y s i sS e r v i c e,作为基于O L A P 和数据挖掘的客户通话数据分析系统数据仓库O L A P 服务器。本论文基于某通讯营运商客户通话的数据分析项目,构建了通话清单的数据仓库,客户通话分析系统,以及客户端的数据显示。系统主要数据源如下:客户通话清单表清单格式表行政区格式表呼叫类型表语音格式表短信格式表统计类型表根据现有的客户通话清单信息,利用数据仓库以及联机分析和数据挖掘技术,对通话信息进行多维数据分析和预测分析,分析重点如下:1、收益分析:主要通过不同角度对移动企业的收益情况进行分析。角度:可按客户的品牌和短信不同类型划分。2、呼叫特点分析:可按不同时间段的呼叫量进行考察可以得到在哪些时间段上(比如8-1 8:0 0)呼叫量比较大,而在哪些时间段呼叫量较小(凌晨)。通过制定不同的收费标准,对呼叫量可以起到一定的调节作用:可按本地通话、长途通话、漫游通话等不同的通话类型进行分析。3、品牌业务发展预测:神州行用户预测、动感地带用户预测,还有一些智能业务的预测,例如彩信和网站短信。通过对基于客户通话信息数据的联机分析处理、分析,为行业高层次决策人第三章系统体系结构员提供决策辅助支持。3 2 系统体系结构客户通话信息数据分析系统的O L A P 是一种多用户的三层客户服务器结构。这种结构的优点在于将应用逻辑(或业务逻辑)、G U I 及D B M S 严格区分开。复杂的应用逻辑不是分布于网络上的众多P C 机上,而是集中存放在O L A P 服务器上。由服务器提供高效的数据存取,安排后台处理以及报表预处理。如(图3 1)所示:客户通话信息数据仓库轳O L 葬A P 觥轳端A n a l 朔i 墨o,”葛e r V e f图3-l 客户通话信息数据分析系统框架图F i g u r e3-lS y s t e ma r c h i t e c t u r e基于客户通话信息数据的分析系统结构图,如(图3 2)所示,各模块的功能以及之间的关系,如(图3 3)所示:图3-2 客户通话信息数据分析系统结构图F i g u r e3-2S y s t e ms t r u c t u r eo fm o d e l(1)数据抽取与转换模块:各地方客户通话信息数据量比较大,首先抽取适当的数据,通过D T S 迸行数据转换,将数据按照统一的数据格式导入客户通话信息数据分析系统的数据仓库。各自J 系工、【p 大学工学硕士论文(2)多维数据库、O L A P 与D M 分析模块:建立客户通话信息数据分析系统O L A P 数据库,这涉及到O L A P 数据模型,本项目采用了星型模型。每个多维数据集都只是O L A P 数据库的一部分。每个多维数据集都有自己的事实表和维表。设计事实表和维表的同时也要确立维度和度量。本项目采用了关系型联机分析处理R O L A P 实现方式。(3)数据展现模块:我们所处理的多维数据集可以在分析服务器中以二维的形式展现出来,我们也可以通过O f f i c e2 0 0 0 作为客户通话信息数据分析系统数据库O L A P 数据的客户端的展现工具表现这些多维数据的结果。图3-3 客户通话信息数据分析系统模块功能图1 4第四章系统的设计与实现=:=第四章系统的设计与实现4 1 数据准备数据的准备主要有以下几个步骤:l、数据抽取2、数据导入与优化3、转化数据4 1 1 数据抽取客户的通话数据也就是呼,q t 费数据是电信公司中数据量最大的部分,考虑到分析需求为使分析结果准确,在采集数据时,采用了全省各个市的数据。另一方面我们采用双重粒度来记载数据,对于近3 4 个月的细节数据,我们保留在数据仓库中,并定期聚合成按月综合表,然后将细节数据导出至磁带设备,为新的细节数据腾出空间。另外原始数据存放于A T X 环境下,我采用下载方式将其下载到W I N D O W S 环境下,并使用合并工具将所有的数据文件合并为一个文件。4 1 2 数据导入与优化原始数据是T X T 格式文件数据,S Q LS e r v e r2 0 0 0 强化了数据的导入与导出操作,提供了D T S(D a t aT r a n s f o r m a t i o nS e r v i c e s)将原始数

    注意事项

    本文(基于OLAP和数据挖掘的客户通话数据分析.pdf)为本站会员(asd****56)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开