数据仓库和数据挖掘技术ppt课件.ppt
《数据仓库和数据挖掘技术ppt课件.ppt》由会员分享,可在线阅读,更多相关《数据仓库和数据挖掘技术ppt课件.ppt(89页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值数据仓库和数据挖掘技术n什么是数据挖掘?n几种主要数据挖掘模型和算法n复杂类型数据的挖掘2023/1/141数据仓库与数据挖掘技术资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值数据挖掘都干了些什么?n英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品n通过数据挖掘的方法使直邮的回应率提高了100nGUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本n通过数据挖掘的方法
2、使库存成本比原来减少了3.8%2023/1/142数据仓库与数据挖掘技术资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象发现可能存在欺诈的交易,进行深入调查,节约了大量的调查成本汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。营销费用减少了30数据挖掘都干了些什么?2023/1/143数据仓库与数据挖掘技术资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值什么
3、是数据挖掘?通过采用自动或半自动的手段,在海量数据中发现有意义的行为和规则的探测和分析活动。数据挖掘能够帮助你选择正确,瞄准潜在目标,向现有的客户提供额外的产品,识别那些准备离开的好客户。数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构 数据挖掘大部分的价值在于利用数据挖掘技术改善预言模型 2023/1/144数据仓库与数据挖掘技术资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值数据挖掘应用领域电信:流失银行:聚类(细分),交叉销售百货公司/超市:购物篮分析(关联规则)保险:细分,交叉销售,流失(原因分
4、析)信用卡:欺诈探测,细分电子商务:网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行为分析医学:医疗保健2023/1/145数据仓库与数据挖掘技术资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值(Big Bank&Credit Card Company)目的:发现新客户数据挖掘以前数据挖掘以后差别发信的数量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,0009,000(1,000)每个响应的毛利$125$125$0总毛利$1,250,0
5、00$1,125,000($125,000)净利润$250,000$375,000$125,000建模的费用040,000$40,000最终的利润$250,000$335,000$85,000数据挖掘效益分析(直邮)2023/1/146数据仓库与数据挖掘技术资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值Data Mining:A KDD ProcessnData mining:the core of knowledge discovery process.Data CleaningData IntegrationDa
6、tabasesData WarehouseTask-relevant DataSelectionData MiningPattern Evaluation2023/1/147数据仓库与数据挖掘技术资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值Data Mining:Confluence of Multiple DisciplinesData MiningDatabase TechnologyStatisticsOtherDisciplinesInformationScienceMachineLearning(AI)V
7、isualization2023/1/148数据仓库与数据挖掘技术资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值数据仓库和数据挖掘技术n什么是数据仓库(What is a data warehouse)?n多维数据模型(A multi-dimensional data model)n数据仓库体系结构(Data warehouse architecture)n什么是数据挖掘(What is a Data Mining)?n几种主要数据挖掘模型和算法n复杂类型数据的挖掘2023/1/149数据仓库与数据挖掘技术资金是运动
8、的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值Data Mining Functionalities(1)nConcept description:Characterization and discriminationnGeneralize,summarize,and contrast data characteristics,e.g.,dry vs.wet regionsnAssociation(correlation and causality)nMulti-dimensional vs.single-dimensiona
9、l association nage(X,“20.29”)income(X,“20.29K”)buys(X,“PC”)support=2%,confidence=60%ncontains(T,“computer”)contains(x,“software”)1%,75%2023/1/1410数据仓库与数据挖掘技术资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值Data Mining Functionalities(2)nClassification and Prediction nFinding models(func
10、tions)that describe and distinguish classes or concepts for future predictionnPresentation:decision-tree,classification rule,neural networknPrediction:Predict some unknown or missing numerical values nCluster analysisnClass label is unknown:Group data to form new classes,e.g.,cluster houses to find
11、distribution patternsnClustering based on the principle:maximizing the intra-class similarity and minimizing the interclass similarity2023/1/1411数据仓库与数据挖掘技术资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值Data Mining Functionalities(3)nOutlier analysisnOutlier:a data object that does no
12、t comply with the general behavior of the datanIt can be considered as noise or exception but is quite useful in fraud detection,rare events analysisnTrend and evolution analysisnTrend and deviation:regression analysisnSequential pattern mining,periodicity analysisnSimilarity-based analysisnOther pa
13、ttern-directed or statistical analyses2023/1/1412数据仓库与数据挖掘技术资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值概念描述(Concept Description)n产生数据的特征化和比较描述n特征化:提供给定数据汇集的简介汇总n比较(也称区分):提供两个或多个数据汇集的比较描述2023/1/1413数据仓库与数据挖掘技术资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值数据概化和基于汇总的特
14、征化n数据概化n是一个过程,它将大的任务相关的数据集从较低的概念层抽象到较高的概念层.n概化方法n数据立方体(OLAP approach)n面向属性的归纳方法12345Conceptuallevels2023/1/1414数据仓库与数据挖掘技术资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值面向属性的归纳nKDD Workshop(89)中提出n方法介绍:n使用SQL收集相关数据n通过数据移除和数据概化来实现概化n聚集通过合并相等的广义元组,并累计他们对应的计数值进行n和使用者之间交互式的呈现方式.2023/1/141
15、5数据仓库与数据挖掘技术资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值基本方法n数据聚焦:选择和当前分析相关的数据,包括维。n属性移除:如果某个属性包含大量不同值,但是1)在该属性上没有概化操作,或者2)它的较高层概念用其它属性表示。n属性概化:如果某个属性包含大量不同值,同时在该属性上有概化操作符,则运用该操作符进行概化。n属性阈值控制:typical 2-8,specified/default.n概化关系阈值控制:控制最终关系的大小资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值
16、,其增值的这部分资金就是原有资金的时间价值特征化的一个例子Prime Generalized RelationInitial Relation资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值挖掘类比较n比较:比较两个或者更多类.n方法:n将相关的数据分成目标类和比较类。n将两个类别的数据概化到相同的层次。n用相同层次的描述对元组进行比较。n对于每个元组展现其描述和两个衡量标准n将差异很大的元组特别显示出来n相关性分析:n发现最能体现类别之间差异的属性.资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时
17、间的推移而增值,其增值的这部分资金就是原有资金的时间价值例子:分析性比较Prime generalized relation for the target class:Graduate studentsPrime generalized relation for the contrasting class:Undergraduate students2023/1/1419数据仓库与数据挖掘技术资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值从大型数据库中挖掘关联规则n关联规则挖掘:n在交易数据、关系数据或其他信息载体中
18、,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。n举例:n规则形式:“Body Head support,confidence”.nbuys(x,“diapers”)buys(x,“beers”)0.5%,60%nmajor(x,“CS”)takes(x,“DB”)grade(x,“A”)1%,75%2023/1/1420数据仓库与数据挖掘技术资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值关联规则:基本概念n给定:(1)交易数据库(2)每笔交易是:一个项目列表(消费者一次购买活动中购买的商品)
19、n查找:所有描述一个项目集合与其他项目集合相关性的规则n应用n*护理用品(商店应该怎样提高护理用品的销售?)n家用电器 *(其他商品的库存有什么影响?)n在产品直销中使用附加邮寄2023/1/1421数据仓库与数据挖掘技术资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值Transactions ExampleITEMS:A=milkB=breadC=cerealD=sugarE=eggsInstances=Transactions2023/1/1422数据仓库与数据挖掘技术资金是运动的价值,资金的价值是随时间变化而变化
20、的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值DefinitionsnItem:attribute=value pair or simply valuenusually attributes are converted to binary flags for each value,e.g.product=“A”is written as“A”nItemset I:a subset of possible itemsnExample:I=A,B,E (order unimportant)nTransaction:(TID,itemset)nTID is trans
21、action ID2023/1/1423数据仓库与数据挖掘技术资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值Support and Frequent ItemsetsnSupport of an itemset nsup(I)=no.of transactions t that support(i.e.contain)InIn example database:nsup(A,B,E)=2,sup(B,C)=4 nFrequent itemset I is one with at least the minimum s
22、upport count nsup(I)=minsup2023/1/1424数据仓库与数据挖掘技术资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值Association RulesnAssociation rule R:Itemset1=Itemset2nItemset1,2 are disjoint and Itemset2 is non-emptynmeaning:if transaction includes Itemset1 then it also has Itemset2nExamplesnA,B=E,Cn
23、A=B,C 2023/1/1425数据仓库与数据挖掘技术资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值From Frequent Itemsets to Association Rules nQ:Given frequent set A,B,E,what are possible association rules?nA=B,EnA,B=EnA,E=BnB=A,EnB,E=AnE=A,B n_=A,B,E(empty rule),or true=A,B,E2023/1/1426数据仓库与数据挖掘技术资金是运动的价值,
24、资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值规则度量:支持度与可信度n查找所有的规则 X&Y Z 具有最小支持度和可信度n支持度,s,一次交易中包含X、Y、Z的可能性n可信度,c,包含X、Y的交易中也包含Z的条件概率设最小支持度为50%,最小可信度为 50%,则可得到nA C (50%,66.6%)nC A (50%,100%)买尿布的客买尿布的客户户二者都买二者都买的客户的客户买啤酒的客户买啤酒的客户2023/1/1427数据仓库与数据挖掘技术资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增
25、值的这部分资金就是原有资金的时间价值Association Rules Example:nQ:Given frequent set A,B,E,what association rules have minsup=2 and minconf=50%?A,B=E :conf=2/4=50%A,E=B :conf=2/2=100%B,E=A :conf=2/2=100%E=A,B :conf=2/2=100%Dont qualify A=B,E:conf=2/6=33%A,E:conf=2/7=28%A,B,E:conf:2/9=22%=minsup and conf(R)=minconfnPro
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 技术 ppt 课件
限制150内