数据挖掘概念与技术ppt课件.ppt
《数据挖掘概念与技术ppt课件.ppt》由会员分享,可在线阅读,更多相关《数据挖掘概念与技术ppt课件.ppt(38页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘:概念与技术数据挖掘:概念与技术Jiawei Han and Micheline Kamber著著Monrgan Kaufmann Publishers Inc.范明范明 孟小峰等译孟小峰等译机械工业出版社机械工业出版社12/30/20221数据挖掘:概念与技术为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益12/30/20222数据挖掘:概念与技术为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益12/30/20223数据挖掘:概念与技术第第1章章 引
2、言引言英文幻灯片制作:英文幻灯片制作:Jiawei Han中文幻灯片编译:范明中文幻灯片编译:范明12/30/20224数据挖掘:概念与技术为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益第一章第一章 引论引论n动机:为什么要数据挖掘动机:为什么要数据挖掘?n什么是数据挖掘什么是数据挖掘?n数据挖掘:在什么数据上进行数据挖掘:在什么数据上进行?n数据挖掘功能数据挖掘功能n所有的模式都是有趣的吗所有的模式都是有趣的吗?n数据挖掘系统分类数据挖掘系统分类 n数据挖掘的主要问题数据挖掘的主要问题12/30/20225数据挖掘:概念与
3、技术为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益动机动机:需要是发明之母需要是发明之母n数据爆炸问题数据爆炸问题n自动的数据收集工具和成熟的数据库技术导致大量数据自动的数据收集工具和成熟的数据库技术导致大量数据存放在数据库存放在数据库,数据仓库数据仓库,和其它信息存储中和其它信息存储中n我们正被数据淹没我们正被数据淹没,但却缺乏知识但却缺乏知识n解决办法解决办法:数据仓库与数据挖掘数据仓库与数据挖掘n数据仓库与联机分析处理数据仓库与联机分析处理(OLAP)n从大型数据库的数据中提取有趣的知识从大型数据库的数据中提取有趣的知
4、识(规则规则,规律性规律性,模式模式,限制等限制等)12/30/20226数据挖掘:概念与技术为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益数据处理技术的演进数据处理技术的演进n1960s:n数据收集数据收集,数据库创建数据库创建,IMS 和网状和网状 DBMSn1970s:n关系数据库模型关系数据库模型,关系关系 DBMS 实现实现n1980s:nRDBMS,先进的数据模型先进的数据模型(扩充关系的扩充关系的,OO,演绎的演绎的,等等.)和面向应和面向应用用 的的 DBMS(空间的空间的,科学的科学的,工程的工程的,等等.
5、)n1990s2000s:n数据挖掘和数据仓库数据挖掘和数据仓库,多媒体数据库多媒体数据库,和和 Web 数据库数据库12/30/20227数据挖掘:概念与技术为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益什么是数据挖掘什么是数据挖掘?n数据挖掘数据挖掘(数据库中知识发现数据库中知识发现):n从从大型数据库大型数据库中提取有趣的中提取有趣的(非平凡的非平凡的,蕴涵的蕴涵的,先前未知的先前未知的 并且是并且是潜在有用的潜在有用的)信息或模式信息或模式n其它叫法和其它叫法和“inside stories”:n数据挖掘数据挖掘:用
6、词不当用词不当?n数据库中知识发现数据库中知识发现(挖掘挖掘)(Knowledge discovery in databases,KDD),知识提取知识提取(knowledge extraction),数据数据/模式分析模式分析(data/pattern analysis),数据考古数据考古(data archeology),数据捕捞数据捕捞(data dredging),信信息收获息收获(information harvesting),商务智能商务智能(business intelligence),等等.n什么不是数据挖掘什么不是数据挖掘?n(演绎演绎)查询处理查询处理.n 专家系统专家系统
7、 或小型或小型 机器学习机器学习(ML)/统计程序统计程序12/30/20228数据挖掘:概念与技术为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益为什么要数据挖掘为什么要数据挖掘?可能的应用可能的应用n数据库分析和决策支持数据库分析和决策支持n市场分析和管理市场分析和管理n针对销售针对销售(target marketing),顾客关系管理顾客关系管理,购物篮分析购物篮分析,交叉销售交叉销售(cross selling),市场分割市场分割(market segmentation)n风险分析与管理风险分析与管理n预测预测,顾客关
8、系顾客关系,改进保险改进保险,质量控制质量控制,竞争能力分析竞争能力分析n欺骗检测与管理欺骗检测与管理n其它应用其它应用n文本挖掘文本挖掘(新闻组新闻组,email,文档资料文档资料)n流数据挖掘流数据挖掘(Stream data mining)nWeb挖掘挖掘.nDNA 数据分析数据分析12/30/20229数据挖掘:概念与技术为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益市场分析与管理市场分析与管理(1)n用于分析的数据源在哪用于分析的数据源在哪?n信用卡交易信用卡交易,会员卡会员卡,打折优惠卷打折优惠卷,顾客投诉电话顾
9、客投诉电话,(公共公共)生活时尚研究生活时尚研究n针对销售针对销售(Target marketing)n找出顾客群找出顾客群,他们具有相同特征他们具有相同特征:兴趣兴趣,收入水平收入水平,消费习惯消费习惯,等等.n确定顾客随时间变化的购买模式确定顾客随时间变化的购买模式n个人帐号到联合帐号的转变个人帐号到联合帐号的转变:结婚结婚,等等.n交叉销售分析交叉销售分析(Cross-market analysis)n产品销售之间的关联产品销售之间的关联/相关相关 n基于关联信息的预测基于关联信息的预测12/30/202210数据挖掘:概念与技术为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体
10、制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益市场分析与管理市场分析与管理(2)n顾客分类顾客分类(Customer profiling)n数据挖掘能够告诉我们什么样的顾客买什么产品数据挖掘能够告诉我们什么样的顾客买什么产品(聚类或分类聚类或分类)n识别顾客需求识别顾客需求n对不同的顾客识别最好的产品对不同的顾客识别最好的产品n使用预测发现什么因素影响新顾客使用预测发现什么因素影响新顾客n提供汇总信息提供汇总信息n各种多维汇总报告各种多维汇总报告n统计的汇总信息统计的汇总信息(数据的中心趋势和方差数据的中心趋势和方差)12/30/202211数据挖掘:概念与技术为了规范事业单位聘用
11、关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益法人分析和风险管理法人分析和风险管理n财经规划和资产评估财经规划和资产评估n现金流分析和预测现金流分析和预测n临时提出的资产评估临时提出的资产评估n交叉组合交叉组合(cross-sectional)和时间序列分析和时间序列分析(金融比率金融比率(financial-ratio),趋势分析趋势分析,等等.)n资源规划资源规划:n资源与开销的汇总与比较资源与开销的汇总与比较n竞争竞争:n管理竞争者和市场指导管理竞争者和市场指导n对顾客分类和基于类的定价对顾客分类和基于类的定价n在高度竞争的市场调整价格策
12、略在高度竞争的市场调整价格策略12/30/202212数据挖掘:概念与技术为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益欺骗检测和管理欺骗检测和管理(1)n应用应用n广泛用于健康照料广泛用于健康照料,零售零售,信用卡服务信用卡服务,电讯电讯(电话卡欺骗电话卡欺骗),等等.n方法方法n使用历史数据建立欺骗行为模型使用历史数据建立欺骗行为模型,使用数据挖掘帮助识别类似的实例使用数据挖掘帮助识别类似的实例n例例n汽车保险汽车保险:检测这样的人检测这样的人,他他/她假造事故骗取保险赔偿她假造事故骗取保险赔偿n洗钱洗钱:检测可疑的金钱
13、交易检测可疑的金钱交易(US Treasurys Financial Crimes Enforcement Network)n医疗保险医疗保险:检测职业病患者检测职业病患者,医生和介绍人圈医生和介绍人圈12/30/202213数据挖掘:概念与技术为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益欺骗检测和管理欺骗检测和管理(2)n检测不适当的医疗处置检测不适当的医疗处置n澳大利亚健康保险会澳大利亚健康保险会(Australian Health Insurance Commission)发发现许多全面的检查是请求做的现许多全面的检
14、查是请求做的,而不是实际需要的而不是实际需要的(每年节省每年节省100万万澳元澳元).n检测电话欺骗检测电话欺骗n电话呼叫模式电话呼叫模式:通话距离通话距离,通话时间通话时间,每天或每周通话次数每天或每周通话次数.分析偏分析偏离期望的模式离期望的模式.n英国电讯英国电讯(British Telecom)识别频繁内部通话的呼叫者的离散群识别频繁内部通话的呼叫者的离散群,特别是移动电话特别是移动电话,超过数百万美元的欺骗超过数百万美元的欺骗.n零售零售n分析家估计分析家估计,38%的零售业萎缩是由于不忠诚的雇员造成的的零售业萎缩是由于不忠诚的雇员造成的.12/30/202214数据挖掘:概念与技术
15、为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益其它应用其它应用n运动运动nIBM Advanced Scout分析分析NBA的统计数据的统计数据(阻挡投篮阻挡投篮,助攻助攻,和犯和犯规规)获得了对纽约小牛队获得了对纽约小牛队(New York Knicks)和迈艾米热队和迈艾米热队(Miami Heat)的竞争优势的竞争优势n天文天文n借助于数据挖掘的帮助借助于数据挖掘的帮助,JPL 和和 Palomar Observatory 发现了发现了22 颗类颗类星体星体(quasars)nInternet Web Surf-Aid
16、nIBM Surf-Aid 将数据挖掘算法用于有关交易的页面的将数据挖掘算法用于有关交易的页面的Web访问日志访问日志,以发现顾客喜爱的页面以发现顾客喜爱的页面,分析分析Web 销售的效果销售的效果,改进改进Web 站点的组站点的组织织,等等.12/30/202215数据挖掘:概念与技术为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益数据挖掘过程数据挖掘过程n数据挖掘:数据挖掘:KDD的核心的核心.数据清理数据清理数据集成数据集成数据库数据库数据仓库数据仓库任务相关数据任务相关数据选择选择数据挖掘数据挖掘模式评估模式评估12/
17、30/202216数据挖掘:概念与技术为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益KDD过程的步骤过程的步骤n学习应用领域学习应用领域:n相关的先验知识和应用的目标相关的先验知识和应用的目标n创建目标数据集创建目标数据集:数据选择数据选择n数据清理和预处理数据清理和预处理:(可能占全部工作的可能占全部工作的 60%!)n数据归约与变换数据归约与变换:n发现有用的特征发现有用的特征,维维/变量归约变量归约,不变量的表示不变量的表示.n选择数据挖掘函数选择数据挖掘函数 n 汇总汇总,分类分类,回归回归,关联关联,聚类聚类.12
18、/30/202217数据挖掘:概念与技术为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益KDD过程的步骤过程的步骤(续续)n选择挖掘算法选择挖掘算法n数据挖掘数据挖掘:搜索有趣的模式搜索有趣的模式n模式评估和知识表示模式评估和知识表示n可视化可视化,变换变换,删除冗余模式删除冗余模式,等等.n发现知识的使用发现知识的使用12/30/202218数据挖掘:概念与技术为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益数据挖掘和商务智能数据挖掘和商务智能 提高支持商务
19、决策的潜能提高支持商务决策的潜能最终用户最终用户商务分析人员商务分析人员 数据分析人员数据分析人员DBA 制定决策制定决策数据表示数据表示可视化技术可视化技术数据挖掘数据挖掘信息发现信息发现数据探查数据探查OLAP,MDA统计分析统计分析,查询和报告查询和报告数据仓库数据仓库/数据集市数据集市数据源数据源文字记录文字记录,文件文件,信息提供者信息提供者,数据库系统数据库系统,OLTP系系统统12/30/202219数据挖掘:概念与技术为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益典型的数据挖掘系统结构典型的数据挖掘系统结构数
20、据仓库数据仓库数据清理数据清理 数据集成数据集成过滤过滤数据库数据库数据库或数据仓库数据库或数据仓库数据挖掘引擎数据挖掘引擎模式评估模式评估图形用户界面图形用户界面知识库知识库12/30/202220数据挖掘:概念与技术为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益数据挖掘数据挖掘:在什么数据上进行在什么数据上进行?n关系数据库关系数据库n数据仓库数据仓库n事务事务(交易交易)数据库数据库n先进的数据库和信息存储先进的数据库和信息存储n面向对象和对象面向对象和对象-关系数据库关系数据库n空间和时间数据空间和时间数据n时间序列
21、数据和流数据时间序列数据和流数据n文本数据库和多媒体数据库文本数据库和多媒体数据库n异种数据库和遗产数据库异种数据库和遗产数据库 nWWW12/30/202221数据挖掘:概念与技术为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益数据挖掘功能数据挖掘功能(1)n概念描述概念描述:特征和区分特征和区分n概化概化,汇总汇总,和比较数据特征和比较数据特征,例如例如,干燥和潮湿的地区干燥和潮湿的地区n关联关联(相关和因果关系相关和因果关系)n多维和单维关联多维和单维关联 nage(X,“20.29”)income(X,“20.29K”
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 概念 技术 ppt 课件
限制150内