数据挖掘概念与技术第一章.ppt
数据挖掘概念与技术第一章数据挖掘概念与技术第一章现在学习的是第1页,共35页现在学习的是第2页,共35页现在学习的是第3页,共35页第第1章章 引言引言英文幻灯片制作:英文幻灯片制作:Jiawei Han中文幻灯片编译:范明中文幻灯片编译:范明现在学习的是第4页,共35页第一章第一章 引论引论n动机:为什么要数据挖掘动机:为什么要数据挖掘?n什么是数据挖掘什么是数据挖掘?n数据挖掘:在什么数据上进行数据挖掘:在什么数据上进行?n数据挖掘功能数据挖掘功能n所有的模式都是有趣的吗所有的模式都是有趣的吗?n数据挖掘系统分类数据挖掘系统分类 n数据挖掘的主要问题数据挖掘的主要问题现在学习的是第5页,共35页动机动机:需要是发明之母需要是发明之母n数据爆炸问题数据爆炸问题n自动的数据收集工具和成熟的数据库技术导致大量数据存放自动的数据收集工具和成熟的数据库技术导致大量数据存放在数据库在数据库,数据仓库数据仓库,和其它信息存储中和其它信息存储中n我们正被数据淹没我们正被数据淹没,但却缺乏知识但却缺乏知识n解决办法解决办法:数据仓库与数据挖掘数据仓库与数据挖掘n数据仓库与联机分析处理数据仓库与联机分析处理(OLAP)n从大型数据库的数据中提取有趣的知识从大型数据库的数据中提取有趣的知识(规则规则,规律性规律性,模式模式,限限制等制等)现在学习的是第6页,共35页数据处理技术的演进数据处理技术的演进n1960s:n数据收集数据收集,数据库创建数据库创建,IMS 和网状和网状 DBMSn1970s:n关系数据库模型关系数据库模型,关系关系 DBMS 实现实现n1980s:nRDBMS,先进的数据模型先进的数据模型(扩充关系的扩充关系的,OO,演绎的演绎的,等等.)和面向应用和面向应用 的的 DBMS(空间的空间的,科学的科学的,工程的工程的,等等.)n1990s2000s:n数据挖掘和数据仓库数据挖掘和数据仓库,多媒体数据库多媒体数据库,和和 Web 数据库数据库现在学习的是第7页,共35页什么是数据挖掘什么是数据挖掘?n数据挖掘数据挖掘(数据库中知识发现数据库中知识发现):n从从大型数据库大型数据库中提取有趣的中提取有趣的(非平凡的非平凡的,蕴涵的蕴涵的,先前未知的先前未知的 并且是并且是潜在有用的潜在有用的)信息或模式信息或模式n其它叫法和其它叫法和“inside stories”:n数据挖掘数据挖掘:用词不当用词不当?n数据库中知识发现数据库中知识发现(挖掘挖掘)(Knowledge discovery in databases,KDD),知识提取知识提取(knowledge extraction),数据数据/模式分析模式分析(data/pattern analysis),数据考古数据考古(data archeology),数据捕捞数据捕捞(data dredging),信息收获信息收获(information harvesting),商务智能商务智能(business intelligence),等等.n什么不是数据挖掘什么不是数据挖掘?n(演绎演绎)查询处理查询处理.n 专家系统专家系统 或小型或小型 机器学习机器学习(ML)/统计程序统计程序现在学习的是第8页,共35页为什么要数据挖掘为什么要数据挖掘?可能的应用可能的应用n数据库分析和决策支持数据库分析和决策支持n市场分析和管理市场分析和管理n针对销售针对销售(target marketing),顾客关系管理顾客关系管理,购物篮分析购物篮分析,交叉销售交叉销售(cross selling),市场市场分割分割(market segmentation)n风险分析与管理风险分析与管理n预测预测,顾客关系顾客关系,改进保险改进保险,质量控制质量控制,竞争能力分析竞争能力分析n欺骗检测与管理欺骗检测与管理n其它应用其它应用n文本挖掘文本挖掘(新闻组新闻组,email,文档资料文档资料)n流数据挖掘流数据挖掘(Stream data mining)nWeb挖掘挖掘.nDNA 数据分析数据分析现在学习的是第9页,共35页市场分析与管理市场分析与管理(1)n用于分析的数据源在哪用于分析的数据源在哪?n信用卡交易信用卡交易,会员卡会员卡,打折优惠卷打折优惠卷,顾客投诉电话顾客投诉电话,(公共公共)生活时尚研究生活时尚研究n针对销售针对销售(Target marketing)n找出顾客群找出顾客群,他们具有相同特征他们具有相同特征:兴趣兴趣,收入水平收入水平,消费习惯消费习惯,等等.n确定顾客随时间变化的购买模式确定顾客随时间变化的购买模式n个人帐号到联合帐号的转变个人帐号到联合帐号的转变:结婚结婚,等等.n交叉销售分析交叉销售分析(Cross-market analysis)n产品销售之间的关联产品销售之间的关联/相关相关 n基于关联信息的预测基于关联信息的预测现在学习的是第10页,共35页市场分析与管理市场分析与管理(2)n顾客分类顾客分类(Customer profiling)n数据挖掘能够告诉我们什么样的顾客买什么产品数据挖掘能够告诉我们什么样的顾客买什么产品(聚类或分类聚类或分类)n识别顾客需求识别顾客需求n对不同的顾客识别最好的产品对不同的顾客识别最好的产品n使用预测发现什么因素影响新顾客使用预测发现什么因素影响新顾客n提供汇总信息提供汇总信息n各种多维汇总报告各种多维汇总报告n统计的汇总信息统计的汇总信息(数据的中心趋势和方差数据的中心趋势和方差)现在学习的是第11页,共35页法人分析和风险管理法人分析和风险管理n财经规划和资产评估财经规划和资产评估n现金流分析和预测现金流分析和预测n临时提出的资产评估临时提出的资产评估n交叉组合交叉组合(cross-sectional)和时间序列分析和时间序列分析(金融比率金融比率(financial-ratio),趋势分析趋势分析,等等.)n资源规划资源规划:n资源与开销的汇总与比较资源与开销的汇总与比较n竞争竞争:n管理竞争者和市场指导管理竞争者和市场指导n对顾客分类和基于类的定价对顾客分类和基于类的定价n在高度竞争的市场调整价格策略在高度竞争的市场调整价格策略现在学习的是第12页,共35页欺骗检测和管理欺骗检测和管理(1)n应用应用n广泛用于健康照料广泛用于健康照料,零售零售,信用卡服务信用卡服务,电讯电讯(电话卡欺骗电话卡欺骗),等等.n方法方法n使用历史数据建立欺骗行为模型使用历史数据建立欺骗行为模型,使用数据挖掘帮助识别类似的实例使用数据挖掘帮助识别类似的实例n例例n汽车保险汽车保险:检测这样的人检测这样的人,他他/她假造事故骗取保险赔偿她假造事故骗取保险赔偿n洗钱洗钱:检测可疑的金钱交易检测可疑的金钱交易(US Treasurys Financial Crimes Enforcement Network)n医疗保险医疗保险:检测职业病患者检测职业病患者,医生和介绍人圈医生和介绍人圈现在学习的是第13页,共35页欺骗检测和管理欺骗检测和管理(2)n检测不适当的医疗处置检测不适当的医疗处置n澳大利亚健康保险会澳大利亚健康保险会(Australian Health Insurance Commission)发现发现许多全面的检查是请求做的许多全面的检查是请求做的,而不是实际需要的而不是实际需要的(每年节省每年节省100万澳万澳元元).n检测电话欺骗检测电话欺骗n电话呼叫模式电话呼叫模式:通话距离通话距离,通话时间通话时间,每天或每周通话次数每天或每周通话次数.分析偏离分析偏离期望的模式期望的模式.n英国电讯英国电讯(British Telecom)识别频繁内部通话的呼叫者的离散群识别频繁内部通话的呼叫者的离散群,特特别是移动电话别是移动电话,超过数百万美元的欺骗超过数百万美元的欺骗.n零售零售n分析家估计分析家估计,38%的零售业萎缩是由于不忠诚的雇员造成的的零售业萎缩是由于不忠诚的雇员造成的.现在学习的是第14页,共35页其它应用其它应用n运动运动nIBM Advanced Scout分析分析NBA的统计数据的统计数据(阻挡投篮阻挡投篮,助攻助攻,和犯规和犯规)获得了对纽约小牛队获得了对纽约小牛队(New York Knicks)和迈艾米热队和迈艾米热队(Miami Heat)的竞争优势的竞争优势n天文天文n借助于数据挖掘的帮助借助于数据挖掘的帮助,JPL 和和 Palomar Observatory 发现了发现了22 颗类颗类星体星体(quasars)nInternet Web Surf-AidnIBM Surf-Aid 将数据挖掘算法用于有关交易的页面的将数据挖掘算法用于有关交易的页面的Web访问日志访问日志,以发现顾客喜爱的页面以发现顾客喜爱的页面,分析分析Web 销售的效果销售的效果,改进改进Web 站点的组站点的组织织,等等.现在学习的是第15页,共35页数据挖掘过程数据挖掘过程n数据挖掘:数据挖掘:KDD的核心的核心.数据清理数据清理数据集成数据集成数据库数据库数据仓库数据仓库任务相关数据任务相关数据选择选择数据挖掘数据挖掘模式评估模式评估现在学习的是第16页,共35页KDD过程的步骤过程的步骤n学习应用领域学习应用领域:n相关的先验知识和应用的目标相关的先验知识和应用的目标n创建目标数据集创建目标数据集:数据选择数据选择n数据清理和预处理数据清理和预处理:(可能占全部工作的可能占全部工作的 60%!)n数据归约与变换数据归约与变换:n发现有用的特征发现有用的特征,维维/变量归约变量归约,不变量的表示不变量的表示.n选择数据挖掘函数选择数据挖掘函数 n 汇总汇总,分类分类,回归回归,关联关联,聚类聚类.现在学习的是第17页,共35页KDD过程的步骤过程的步骤(续续)n选择挖掘算法选择挖掘算法n数据挖掘数据挖掘:搜索有趣的模式搜索有趣的模式n模式评估和知识表示模式评估和知识表示n可视化可视化,变换变换,删除冗余模式删除冗余模式,等等.n发现知识的使用发现知识的使用现在学习的是第18页,共35页数据挖掘和商务智能数据挖掘和商务智能 提高支持商务决策的潜能提高支持商务决策的潜能最终用户最终用户商务分析人员商务分析人员 数据分析人员数据分析人员DBA 制定决策制定决策数据表示数据表示可视化技术可视化技术数据挖掘数据挖掘信息发现信息发现数据探查数据探查OLAP,MDA统计分析统计分析,查询和报告查询和报告数据仓库数据仓库/数据集市数据集市数据源数据源文字记录文字记录,文件文件,信息提供者信息提供者,数据库系统数据库系统,OLTP系统系统现在学习的是第19页,共35页典型的数据挖掘系统结构典型的数据挖掘系统结构数据仓库数据仓库数据清理数据清理 数据集成数据集成过滤过滤数据库数据库数据库或数据仓库数据库或数据仓库数据挖掘引擎数据挖掘引擎模式评估模式评估图形用户界面图形用户界面知识库知识库现在学习的是第20页,共35页数据挖掘数据挖掘:在什么数据上进行在什么数据上进行?n关系数据库关系数据库n数据仓库数据仓库n事务事务(交易交易)数据库数据库n先进的数据库和信息存储先进的数据库和信息存储n面向对象和对象面向对象和对象-关系数据库关系数据库n空间和时间数据空间和时间数据n时间序列数据和流数据时间序列数据和流数据n文本数据库和多媒体数据库文本数据库和多媒体数据库n异种数据库和遗产数据库异种数据库和遗产数据库 nWWW现在学习的是第21页,共35页数据挖掘功能数据挖掘功能(1)n概念描述概念描述:特征和区分特征和区分n概化概化,汇总汇总,和比较数据特征和比较数据特征,例如例如,干燥和潮湿的地区干燥和潮湿的地区n关联关联(相关和因果关系相关和因果关系)n多维和单维关联多维和单维关联 nage(X,“20.29”)income(X,“20.29K”)buys(X,“PC”)support=2%,confidence=60%ncontains(T,“computer”)contains(T,“software”)support=1%,confidence=75%现在学习的是第22页,共35页数据挖掘功能数据挖掘功能(2)n分类和预测分类和预测n找出描述和识别类或概念的模型找出描述和识别类或概念的模型(函数函数),用于将来的预测用于将来的预测n例如根据气候对国家分类例如根据气候对国家分类,或根据单位里程的耗油量对汽车分类或根据单位里程的耗油量对汽车分类n表示表示:判定树判定树(decision-tree),分类规则分类规则,神经网络神经网络n预测预测:预测某些未知或遗漏的数值值预测某些未知或遗漏的数值值n聚类分析聚类分析n类标号类标号(Class label)未知未知:对数据分组对数据分组,形成新的类形成新的类.例如例如,对房屋分类对房屋分类,找出分布模式找出分布模式n聚类原则聚类原则:最大化类内的相似性最大化类内的相似性,最小化类间的相似性最小化类间的相似性现在学习的是第23页,共35页数据挖掘功能数据挖掘功能(3)n孤立点孤立点(Outlier)分析分析n孤立点孤立点:一个数据对象一个数据对象,它它 与数据的一般行为不一致与数据的一般行为不一致n孤立点可以被视为例外孤立点可以被视为例外,但对于欺骗检测和罕见事件分析但对于欺骗检测和罕见事件分析,它是相当有用的它是相当有用的n趋势和演变分析趋势和演变分析n趋势和偏离趋势和偏离:回归分析回归分析n序列模式挖掘序列模式挖掘,周期性分析周期性分析n基于相似的分析基于相似的分析n其它基于模式或统计的分析其它基于模式或统计的分析现在学习的是第24页,共35页挖掘出的所有模式都是有趣的吗挖掘出的所有模式都是有趣的吗?n一个数据挖掘系统一个数据挖掘系统/查询可以挖掘出数以千计的模式查询可以挖掘出数以千计的模式,并非所有的模式都是有趣的并非所有的模式都是有趣的n建议的方法建议的方法:以人为中心以人为中心,基于查询的基于查询的,聚焦的挖掘聚焦的挖掘n兴趣度度量兴趣度度量:一个模式是一个模式是 有趣的有趣的 如果它是如果它是 易于被人理解的易于被人理解的,在某种程度上在某种程度上在新的或测在新的或测试数据上是有效的试数据上是有效的,潜在有用的潜在有用的,新颖的新颖的,或或验证了用户希望证实的某种假设验证了用户希望证实的某种假设n客观与主观的兴趣度度量客观与主观的兴趣度度量:n客观客观:基于模式的统计和结构基于模式的统计和结构,例如例如,支持度支持度,置信度置信度,等等.n主观主观:基于用户对数据的确信基于用户对数据的确信,例如例如,出乎意料出乎意料,新颖性新颖性,可行动性可行动性(actionability),等等.现在学习的是第25页,共35页能够只发现有趣的模式吗能够只发现有趣的模式吗?n发现所有有趣的模式发现所有有趣的模式:完全性完全性n数据挖掘系统能够发现数据挖掘系统能够发现所有所有有趣的模式吗有趣的模式吗?n关联关联 vs.分类分类 vs.聚类聚类n仅搜索有趣的模式仅搜索有趣的模式:优化优化n数据挖掘系统能够数据挖掘系统能够仅仅发现有趣的模式吗发现有趣的模式吗?n方法方法n首先找出所有模式首先找出所有模式,然后过滤掉不是有趣的那些然后过滤掉不是有趣的那些.n仅产生有趣的模式仅产生有趣的模式 挖掘查询优化挖掘查询优化现在学习的是第26页,共35页数据挖掘数据挖掘:多学科交叉多学科交叉 数据挖掘数据挖掘数据库技术数据库技术统计学统计学其它学科其它学科信息科学信息科学机器学习机器学习可视化可视化现在学习的是第27页,共35页数据挖掘分类数据挖掘分类n一般功能一般功能n描述式数据挖掘描述式数据挖掘n预测式数据挖掘预测式数据挖掘n不同的角度不同的角度,不同的分类不同的分类n待挖掘的数据库类型待挖掘的数据库类型 n待发现的知识类型待发现的知识类型n所用的技术类型所用的技术类型n所适合的应用类型所适合的应用类型现在学习的是第28页,共35页数据挖掘分类的多维视图数据挖掘分类的多维视图n待挖掘的数据库待挖掘的数据库n关系的关系的,事务的事务的,面向对象的面向对象的,对象对象-关系的关系的,主动的主动的,空间的空间的,时间序列的时间序列的,文本的文本的,多媒体的多媒体的,异异种的种的,遗产的遗产的,WWW,等等.n所挖掘的知识所挖掘的知识n特征特征,区分区分,关联关联,分类分类,聚类聚类,趋势趋势,偏离和孤立点分析偏离和孤立点分析,等等.n多多/集成的功能集成的功能,和多层次上的挖掘和多层次上的挖掘n所用技术所用技术n面向数据库的面向数据库的,数据仓库数据仓库(OLAP),机器学习机器学习,统计学统计学,可视化可视化,神经网络神经网络,等等.n适合的应用适合的应用n零售零售,电讯电讯,银行银行,欺骗分析欺骗分析,DNA 挖掘挖掘,股票市场分析股票市场分析,Web 挖掘挖掘,Web日志分析日志分析,等等现在学习的是第29页,共35页OLAP挖掘挖掘:数据挖掘与数据仓库的集成数据挖掘与数据仓库的集成n数据挖掘系统数据挖掘系统,DBMS,数据仓库系统的耦合数据仓库系统的耦合 n不耦合不耦合,松耦合松耦合,半紧密耦合半紧密耦合,紧密耦合紧密耦合n联机分析挖掘联机分析挖掘n挖掘与挖掘与 OLAP 技术的集成技术的集成n交互挖掘多层知识交互挖掘多层知识n通过下钻通过下钻,上卷上卷,转轴转轴,切片切片,切块等操作切块等操作,在不同的抽象层挖掘知识和模式的必要性在不同的抽象层挖掘知识和模式的必要性.n多种挖掘功能的集成多种挖掘功能的集成n 特征分类特征分类,先聚类在关联先聚类在关联现在学习的是第30页,共35页OLAM 的结构的结构数据仓库数据仓库元数据元数据MDDBOLAM引擎引擎OLAP引擎引擎用户用户 GUI API数据立方体数据立方体 API数据库数据库 API数据清理数据清理数据集成数据集成第第3层层OLAP/OLAM第第2层层MDDB第第1层层数据存储数据存储第第4层层用户界面用户界面过滤和集成过滤和集成过滤过滤Databases挖掘查询挖掘查询挖掘结果挖掘结果现在学习的是第31页,共35页数据挖掘的主要问题数据挖掘的主要问题(1)n挖掘方法和用户交互挖掘方法和用户交互n在数据库中挖掘不同类型的知识在数据库中挖掘不同类型的知识n在多个抽象层的交互式知识挖掘在多个抽象层的交互式知识挖掘n结合背景知识结合背景知识n数据挖掘语言和启发式数据挖掘数据挖掘语言和启发式数据挖掘 n数据挖掘结果的表示和可视化数据挖掘结果的表示和可视化n处理噪音和不完全数据处理噪音和不完全数据n模式评估模式评估:兴趣度问题兴趣度问题n性能和可伸缩性性能和可伸缩性(scalability)n数据挖掘算法的性能和可伸缩性数据挖掘算法的性能和可伸缩性n并行并行,分布和增量的挖掘方法分布和增量的挖掘方法现在学习的是第32页,共35页数据挖掘的主要问题数据挖掘的主要问题(2)n数据类型的多样性问题数据类型的多样性问题n处理关系的和复杂类型的数据处理关系的和复杂类型的数据n从异种数据库和全球信息系统从异种数据库和全球信息系统(WWW)挖掘信息挖掘信息n应用和社会效果问题应用和社会效果问题n发现知识的应用发现知识的应用n特定领域的数据挖掘工具特定领域的数据挖掘工具n智能查询回答智能查询回答n过程控制和决策制定过程控制和决策制定n发现知识与已有知识的集成发现知识与已有知识的集成:知识融合问题知识融合问题n数据安全数据安全,完整和私有的保护完整和私有的保护现在学习的是第33页,共35页小结小结n数据挖掘数据挖掘:从大量数据中发现有趣的模式从大量数据中发现有趣的模式n数据库技术的自然进化数据库技术的自然进化,具有巨大需求和广泛应用具有巨大需求和广泛应用nKDD 过程包括数据清理过程包括数据清理,数据集成数据集成,数据选择数据选择,变换变换,数据挖掘数据挖掘,模式评估模式评估,和知识表和知识表示示n挖掘可以在各种数据存储上进行挖掘可以在各种数据存储上进行n数据挖掘功能数据挖掘功能:特征特征,区分区分,关联关联,分类分类,聚类聚类,孤立点孤立点 和趋势分析和趋势分析,等等.n数据挖掘系统的分类数据挖掘系统的分类n数据挖掘的主要问题数据挖掘的主要问题现在学习的是第34页,共35页数据挖掘界简史数据挖掘界简史n1989 IJCAI Workshop on Knowledge Discovery in Databases(Piatetsky-Shapiro)nKnowledge Discovery in Databases(G.Piatetsky-Shapiro and W.Frawley,1991)n1991-1994 Workshops on Knowledge Discovery in DatabasesnAdvances in Knowledge Discovery and Data Mining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,and R.Uthurusamy,1996)n1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining(KDD95-98)nJournal of Data Mining and Knowledge Discovery(1997)n1998 ACM SIGKDD,SIGKDD1999-2001 conferences,and SIGKDD ExplorationsnMore conferences on data miningnPAKDD,PKDD,SIAM-Data Mining,(IEEE)ICDM,etc.现在学习的是第35页,共35页