7(2)-数据挖掘与决策支持dor.pptx
数据挖掘与智能决策技术简介背景背景 二十世纪末以来,全球信息量以惊人的速度急剧增长据估计,每二十个月将增加一倍。许多组织机构的IT系统中都收集了大量的数据(信息)。目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。为了充分利用现有信息资源,从海量数据中找出隐藏的知识,数据挖掘技术应运而生并显示出强大的生命力。背景背景 数据挖掘是八十年代投资AI研究项目失败后,AI转入实际应用时提出的。它是一个新兴的,面向商业应用的AI研究。(AI(Artificial Intelligence,人工智能)1989年8月,在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现数据库中的知识发现(Knowledge Discovery in Database,KDD)这一术语。随后,在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。最初,数据挖掘是作为KDD中利用算法处理数据的一个步骤,其后逐渐演变成KDD的同义词。数据挖掘定义数据挖掘定义n技术角度的定义技术角度的定义 数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词包括:数据融合、数据分析和决策支持等。这一定义包括好几层含义:数据源必须是真实的、海量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。数据挖掘定义数据挖掘定义n商业角度的定义商业角度的定义 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性信息。简言之,数据挖掘其实是一类深层次的数据分析方法。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。数据仓库的定义数据仓库的定义 数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。此定义由最为权威的、被称为“数据仓库之父”的William H.Inmon 先生给出。数据内容 数据库名(数据 库内容描述)注意:信息的完整性;相关业务人员达 成共识。业务人员确定业务人员确定 I T人员确定人员确定数据结构.计算机内主题主题数据库数据库数据标准化决策支持:从数据库到数据仓库到数据集市到决策支持:从数据库到数据仓库到数据集市到数据仓库的定义数据仓库的定义 数据仓库是决策支持系统(Decision Support System,DSS,DSS)的基础。在数据仓库中只有单一集成的数据源,并且数据是可访问的。所以与传统数据库相比,在数据仓库环境中DSS分析员的工作将较为容易。数据仓库的组成数据仓库的组成n一个数据仓库的大小一般都是在100GB以上n通常,数据仓库系统应该包含下列程序:(1)抽取数据与加载数据(2)整理并转换数据(采用一种数据仓库适用的数据格式)(3)备份与备存数据(4)管理所有查询(即将查询导向适当的数据源)数据仓库的组成数据仓库的组成OLAP的定义、特点的定义、特点n60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。n1993年,E.F.Codd提出了OLAP概念,认为OLTP已不能满足终端客户对数据库查询分析的需要,SQL对大型数据库的简单查询也不能满足终端客户分析的要求。客户的决策分析需要对关系数据库进行大量计算才能获得结果,而查询的结果并不能满足决策者提出的需求。因此,E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。OLAP的定义、特点的定义、特点nOLAPOLAP(On-Line Analysis ProcessingOn-Line Analysis Processing)定义)定义 是数据仓库上的分析展示工具,它建立在数据多维视图的基础上。nOLAPOLAP的主要特点的主要特点 一是在线性(On Line),体现为对用户请求的快速响应和交互式操作;二是多维分析(Multi_Analysis),这是OLAP技术的核心所在。OLAP的定义和特点的定义和特点nOLAPOLAP与与OLTPOLTP的区别的区别(1)OLTP主要面向公司职员;OLAP则主要面向公司领导者。(2)OLTP应用主要是用来完成客户的事务处理,其数据基础是操作型数据库,如民航订票系统、银行储蓄系统等等,通常需要进行大量的更新操作,同时对响应时间要求较高;而OLAP是以数据仓库或数据多维视图为基础的数据分析处理,是针对特定问题的联机数据访问和分析,它一般不对仓库数据作修改处理,而只是查询,其应用主要是对客户当前及历史数据进行分析,辅助领导决策,其典型的应用有对银行信用卡风险的分析与预测、公司市场营销策略的制定等,主要是进行大量的查询操作,对时间的要求不太严格。多维数据多维数据Sales volume as a function of product,month,and regionProductRegionMonthDimensions:Product,Location,TimeHierarchical summarization pathsIndustry Region YearCategory Country QuarterProduct City Month Week Office Day立方体实例立方体实例Total annual salesof TV in U.S.A.DateProductCountrysumsum TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum数据立方体的浏览数据立方体的浏览VisualizationOLAP capabilitiesInteractive manipulation 客户保留客户保留客户保留客户保留 目标营销目标营销目标营销目标营销 欺诈检测欺诈检测欺诈检测欺诈检测 购物篮分析购物篮分析购物篮分析购物篮分析 客户细分客户细分客户细分客户细分 客户忠诚度客户忠诚度客户忠诚度客户忠诚度 信用打分信用打分信用打分信用打分 信用风险评估信用风险评估信用风险评估信用风险评估 营销组合管理和评估营销组合管理和评估营销组合管理和评估营销组合管理和评估 盈利能力分析盈利能力分析盈利能力分析盈利能力分析 价格优化价格优化价格优化价格优化 客户服务自动化客户服务自动化客户服务自动化客户服务自动化 销售收入和需求预测销售收入和需求预测销售收入和需求预测销售收入和需求预测 利润分析利润分析利润分析利润分析 交叉销售和增量销售交叉销售和增量销售交叉销售和增量销售交叉销售和增量销售 活动管理活动管理活动管理活动管理 客户流失分析客户流失分析客户流失分析客户流失分析 客户服务和问题解决客户服务和问题解决客户服务和问题解决客户服务和问题解决 业绩和能力管理业绩和能力管理业绩和能力管理业绩和能力管理 分销渠道业绩分析分销渠道业绩分析分销渠道业绩分析分销渠道业绩分析 营业厅和服务商业绩分析营业厅和服务商业绩分析营业厅和服务商业绩分析营业厅和服务商业绩分析 流程和质量控制流程和质量控制流程和质量控制流程和质量控制 税收监控税收监控税收监控税收监控可能受益的商业活动可能受益的商业活动数据挖掘解决方案数据挖掘解决方案历史数据历史数据历史数据历史数据预测模型预测模型预测模型预测模型新申请者新申请者新申请者新申请者信用等级评价预测模型:用过去的客户数据预测未来信用等级评价预测模型:用过去的客户数据预测未来信用等级评价预测模型:用过去的客户数据预测未来信用等级评价预测模型:用过去的客户数据预测未来理解商业问题理解商业问题 性别性别性别性别父亲的教育程度父亲的教育程度父亲的教育程度父亲的教育程度被访者教育程度被访者教育程度被访者教育程度被访者教育程度工作类型工作类型工作类型工作类型城市城市城市城市当前收入水平当前收入水平当前收入水平当前收入水平性别性别性别性别父亲的教育程度父亲的教育程度父亲的教育程度父亲的教育程度被访者教育程度被访者教育程度被访者教育程度被访者教育程度工作类型工作类型工作类型工作类型城市城市城市城市当前收入水平当前收入水平当前收入水平当前收入水平当前财政状况当前财政状况当前财政状况当前财政状况未来信用风险未来信用风险未来信用风险未来信用风险Time1Time1Time1Time1Time2Time2Time2Time2家庭收入家庭收入家庭收入家庭收入销售数量销售数量销售数量销售数量喜欢流行音乐喜欢流行音乐喜欢流行音乐喜欢流行音乐数据挖掘解决方案数据挖掘解决方案PreprocessedDataDataTranslatedDataPatterns/ModelsResults数据挖掘解决方案数据挖掘解决方案主要数据挖掘技术主要数据挖掘技术分类分类分类分类ClassificationClassification预测预测预测预测PredictionPrediction细分细分细分细分SegmentationSegmentation关联关联关联关联AssociationAssociation序列序列序列序列SequenceSequence将您的顾客和客户分类将您的顾客和客户分类将您的顾客和客户分类将您的顾客和客户分类预测未来的销量和欺诈,流失预测未来的销量和欺诈,流失预测未来的销量和欺诈,流失预测未来的销量和欺诈,流失将市场、顾客细分将市场、顾客细分将市场、顾客细分将市场、顾客细分发现那些商品会在一起销售或购买发现那些商品会在一起销售或购买发现那些商品会在一起销售或购买发现那些商品会在一起销售或购买找出时间进程中的模式或趋势找出时间进程中的模式或趋势找出时间进程中的模式或趋势找出时间进程中的模式或趋势决策树决策树决策树决策树规则侦测规则侦测规则侦测规则侦测回归分析回归分析回归分析回归分析聚类分析聚类分析聚类分析聚类分析神经网络神经网络神经网络神经网络序列模式序列模式序列模式序列模式Decision TreesNeural Networks Rule Induction Nearest Neighbor Genetic Algorithms数据挖掘主要新技术数据挖掘主要新技术决策树决策树神经网络神经网络规则侦测规则侦测序列规则序列规则基因算法基因算法 基于层次的聚类方法基于层次的聚类方法n这类方法不需要预先给定参数(聚类数),但需要终止条件。Step 0Step 1Step 2Step 3Step 4bdceaa bd ec d ea b c d eStep 4Step 3Step 2Step 1Step 0agglomerative(AGNES)divisive(DIANA)CURE算法Data Partitioning and Clusteringqs=50qp=2qs/p=25xxxyyyyxyxns/pq=5CHAMELEON算法ConstructSparse GraphPartition the GraphMerge PartitionFinal ClustersData Set客户总列表客户总列表30%VIP0-1 孩子孩子2-3 孩子孩子20%VIP4+孩子孩子$50-75k income15%VIP$75k+income70%VIP$50-75k income$20-50k income85%VIPAge:40-6080%VIPAge:20-4045%VIP分类决策树分类决策树Attributes=Outlook,Temperature,Humidity,WindOutlookHumidityWindsunnyrainovercastyesnoyeshighnormalnostrongweakyesPlayTennis=yes,no打高尔夫球的决策树实例(自顶向下)根据加薪百分比、工作时长、法定节假日、及医疗保险三个属性来判断一个企业的福利状况(good或bad)。对象对象对象对象关系关系关系关系网络网络网络网络网络分析网络分析强弱强弱强弱强弱路径路径路径路径自我自我自我自我小群体小群体小群体小群体缺失缺失缺失缺失角色角色角色角色网络分析网络分析神经网络神经网络线性回归线性回归线性回归线性回归LogisticsLogistics回归回归回归回归多层神经网络多层神经网络多层神经网络多层神经网络细胞繁殖细胞繁殖细胞繁殖细胞繁殖3.2.2.6 神经网络算法神经网络算法 人工神经网(Artificial Neural Network,ANN)是20世纪80年代后期迅速发展起来的人工智能技术,它对噪声数据具有很高的承受能力,对未经训练的数据具有分类模拟的能力,因此在网站信息、生物信息和基因以及文本的数据挖掘等领域得到了越来越广泛的应用。在多种ANN模型中,反向传播(Back Propagation,BP)网络是应用最广的一种。神经元神经元 通过非线性函数n维的输入向量 x 被映射为变量 ymk-fweighted sumInputvector xoutput yActivationfunctionweightvector ww0w1wnx0 x1xn神经网络的组成神经网络的组成输出节点输出节点输入节点输入节点隐层节点隐层节点输入矢量输入矢量输入矢量输入矢量:xiwij基本的BP网络由输入层、输出层和隐层组成。神经网络的拓扑结构神经网络的拓扑结构 神经网络训练之前,需要设计网络拓扑结构。设计网络拓扑的关键是,确定隐层的神经元个数及各神经元初始权值和阈值(偏差)。理论上讲,隐层的神经元数越多,逼近越精确。但实际上,隐层神经元数不宜过多;否则会极大加长训练时间,并造成网络容错能力下降。经训练后的神经网络若其准确性不能被接受,则必须重新进行拓扑设计或改用不同的初始权值和阈值(偏差)。神经网络的训练神经网络的训练n训练的终止条件q获得一组权重值,使得训练集中几乎所有样本都分类正确n训练步骤q利用随机值对权值进行初始化 q将训练样本逐一地输入给神经网络,进行训练q对于每个神经元n将其所有的输入值进行线性求和计算得到总的输入n利用激励函数计算其输出值n计算误差n修正网络权值和阈值(偏差)BP神经网络神经网络 BP神经网络通过迭代处理一组训练样本,将各样本的网络预测与实际已知类标号进行比较实现学习训练,反向修改网络的权值,使得网络预测与实际类之间的误差平方最小。BP神经网络按照最优训练准则反复迭代,确定并不断调整神经网络结构,通过迭代修改,当误差收敛时学习过程终止。因此,具有分类准确、收敛性好、动态性好和鲁棒性强等优点。BP神经网络存在的问题神经网络存在的问题n收敛速度问题收敛速度问题 BP分类器最大的弱点是其训练速度非常缓慢,难以收敛。尤其是当网络的训练达到一定程度后,收敛更为缓慢。局部极小点问题局部极小点问题 BP算法采用的是梯度下降法,对一个复杂的网络而言,其误差曲面是一个高维空间中的曲面,其中分布着许多局部极小点,一旦陷入了局部极小点则算法很难逃离出来。BP神经网络存在的问题神经网络存在的问题n网络瘫痪问题网络瘫痪问题 在训练过程中,权值可能变得很大,这会使神经元的网络输入变得更大,从而使得其激励函数的一阶导函数在此点上的取值很小。此时的训练步长会变得非常小,最终导致网络停止收敛,这种现象即是所谓的网络瘫痪现象。关联规则挖掘实例关联规则挖掘实例 通过发现顾客放入其购物篮中不同商品之间的联系,分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策略。例如,在同一次购物中,如果顾客购买牛奶的同时,也购买面包(和什么类型的面包)的可能性有多大?这种信息可以引导销售,可以帮助零售商有选择地经销和安排货架。例如,将牛奶和面包尽可能放近一些,可以进一步刺激一次去商店同时购买这些商品。关联规则挖掘实例关联规则挖掘实例购物篮关联分析实例图购物篮关联分析实例图3.3.1 基本概念基本概念Customerbuys diaperCustomerbuys bothCustomerbuys beer“啤酒与尿布啤酒与尿布”的关联规则的关联规则 For rule A Csupport=support(A C)=50%confidence=support(A C)/support(A)=66.6%For C A (50%,100%)The Apriori principle:Any subset of a frequent itemset must be frequentMin.support 50%Min.confidence 50%关联挖掘实例关联挖掘实例3.5 数据挖掘的可视化数据挖掘的可视化 以可视化的方式展示数据挖掘获取的相关知识。例如:散点图和盒图(obtained from descriptive data mining)决策树关联规则聚类异常点规则SAS Enterprise Miner 的散点图关联规则的可视化(MineSet 3.0)决策树的可视化(MineSet 3.0)聚类的可视化(Intelligent Miner)问题描述:如何决定超市中商品的摆放来增加销售额问题描述:如何决定超市中商品的摆放来增加销售额问题描述:如何决定超市中商品的摆放来增加销售额问题描述:如何决定超市中商品的摆放来增加销售额 结果描述结果描述结果描述结果描述:(Web:(Web图)图)图)图)数据挖掘的典型结果数据挖掘的典型结果交叉销售交叉销售数据挖掘不能作的事情数据挖掘不能作的事情 如何定义要数据挖掘的商业问题如何定义要数据挖掘的商业问题如何定义要数据挖掘的商业问题如何定义要数据挖掘的商业问题 隐含解决企业问题的有用数据隐含解决企业问题的有用数据隐含解决企业问题的有用数据隐含解决企业问题的有用数据 识别数据质量,搜集初始数据识别数据质量,搜集初始数据识别数据质量,搜集初始数据识别数据质量,搜集初始数据 精加工并整合数据,使其满足挖掘建模要求精加工并整合数据,使其满足挖掘建模要求精加工并整合数据,使其满足挖掘建模要求精加工并整合数据,使其满足挖掘建模要求 数据变换,使得数据库仅包含建模输入变量数据变换,使得数据库仅包含建模输入变量数据变换,使得数据库仅包含建模输入变量数据变换,使得数据库仅包含建模输入变量 根据模型制订行动计划,并付诸实施根据模型制订行动计划,并付诸实施根据模型制订行动计划,并付诸实施根据模型制订行动计划,并付诸实施 评价行动结构,反馈信息输入数据库,进一步挖掘评价行动结构,反馈信息输入数据库,进一步挖掘评价行动结构,反馈信息输入数据库,进一步挖掘评价行动结构,反馈信息输入数据库,进一步挖掘计算机及数据处理软件、统计软件的发展计算机及数据处理软件、统计软件的发展 使得我们做数据挖掘和统计分析成为简单而可能的事情。使得我们做数据挖掘和统计分析成为简单而可能的事情。分析工具和软件分析工具和软件WORDEXECLPowerPointAccessMicrosoft VisioSmartDrawPCEDITEpiDataSPSS Enter Station&Builder SPSS for Windows 8.0-11.5AnswerTree 3.0Decision Time and What IfClementine 7.0-7.2SAS 6.12-8.2Lisrel 8.53/Amos4.0-5.0Network Analysis学科领域学科领域 行业知识行业知识 计算机计算机 数据库数据库 统计学统计学 市场营销市场营销 市场研究市场研究 社会学社会学 心理学心理学 广告学广告学 消费者行为学消费者行为学演讲完毕,谢谢观看!