51CTO编辑-数据挖掘概念与技术.ppt
《51CTO编辑-数据挖掘概念与技术.ppt》由会员分享,可在线阅读,更多相关《51CTO编辑-数据挖掘概念与技术.ppt(38页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘:概念与技术,Jiawei Han and Micheline Kamber著 Monrgan Kaufmann Publishers Inc. 范明 孟小峰等译 机械工业出版社,2020年10月15日星期四,数据挖掘:概念与技术,2,2020年10月15日星期四,数据挖掘:概念与技术,3,第1章 引言,英文幻灯片制作:Jiawei Han 中文幻灯片编译:范明,2020年10月15日星期四,数据挖掘:概念与技术,5,第一章 引论,动机:为什么要数据挖掘? 什么是数据挖掘? 数据挖掘:在什么数据上进行? 数据挖掘功能 所有的模式都是有趣的吗? 数据挖掘系统分类 数据挖掘的主要问题,20
2、20年10月15日星期四,数据挖掘:概念与技术,6,动机: 需要是发明之母,数据爆炸问题 自动的数据收集工具和成熟的数据库技术导致大量数据存放在数据库, 数据仓库, 和其它信息存储中 我们正被数据淹没,但却缺乏知识 解决办法: 数据仓库与数据挖掘 数据仓库与联机分析处理(OLAP) 从大型数据库的数据中提取有趣的知识(规则, 规律性, 模式, 限制等),2020年10月15日星期四,数据挖掘:概念与技术,7,数据处理技术的演进,1960s: 数据收集, 数据库创建, IMS 和网状 DBMS 1970s: 关系数据库模型, 关系 DBMS 实现 1980s: RDBMS, 先进的数据模型 (扩
3、充关系的, OO, 演绎的, 等.) 和面向应用 的 DBMS (空间的, 科学的, 工程的, 等.) 1990s2000s: 数据挖掘和数据仓库, 多媒体数据库, 和 Web 数据库,2020年10月15日星期四,数据挖掘:概念与技术,8,什么是数据挖掘?,数据挖掘 (数据库中知识发现): 从大型数据库中提取有趣的 (非平凡的, 蕴涵的, 先前未知的 并且是潜在有用的) 信息或模式 其它叫法和“inside stories”: 数据挖掘: 用词不当? 数据库中知识发现(挖掘) (Knowledge discovery in databases, KDD), 知识提取(knowledge ex
4、traction), 数据/模式分析(data/pattern analysis), 数据考古(data archeology), 数据捕捞(data dredging), 信息收获(information harvesting), 商务智能(business intelligence), 等. 什么不是数据挖掘? (演绎) 查询处理. 专家系统 或小型 机器学习(ML)/统计程序,2020年10月15日星期四,数据挖掘:概念与技术,9,为什么要数据挖掘?可能的应用,数据库分析和决策支持 市场分析和管理 针对销售(target marketing), 顾客关系管理, 购物篮分析, 交叉销售(c
5、ross selling), 市场分割(market segmentation) 风险分析与管理 预测, 顾客关系, 改进保险, 质量控制, 竞争能力分析 欺骗检测与管理 其它应用 文本挖掘 (新闻组, email, 文档资料) 流数据挖掘(Stream data mining) Web挖掘. DNA 数据分析,2020年10月15日星期四,数据挖掘:概念与技术,10,市场分析与管理(1),用于分析的数据源在哪? 信用卡交易, 会员卡, 打折优惠卷, 顾客投诉电话, (公共) 生活时尚研究 针对销售(Target marketing) 找出顾客群, 他们具有相同特征 : 兴趣, 收入水平, 消
6、费习惯, 等. 确定顾客随时间变化的购买模式 个人帐号到联合帐号的转变: 结婚, 等. 交叉销售分析(Cross-market analysis) 产品销售之间的关联/相关 基于关联信息的预测,2020年10月15日星期四,数据挖掘:概念与技术,11,市场分析与管理(2),顾客分类(Customer profiling) 数据挖掘能够告诉我们什么样的顾客买什么产品(聚类或分类) 识别顾客需求 对不同的顾客识别最好的产品 使用预测发现什么因素影响新顾客 提供汇总信息 各种多维汇总报告 统计的汇总信息 (数据的中心趋势和方差),2020年10月15日星期四,数据挖掘:概念与技术,12,法人分析和风
7、险管理,财经规划和资产评估 现金流分析和预测 临时提出的资产评估 交叉组合(cross-sectional) 和时间序列分析 (金融比率(financial-ratio), 趋势分析, 等.) 资源规划 : 资源与开销的汇总与比较 竞争: 管理竞争者和市场指导 对顾客分类和基于类的定价 在高度竞争的市场调整价格策略,2020年10月15日星期四,数据挖掘:概念与技术,13,欺骗检测和管理(1),应用 广泛用于健康照料, 零售, 信用卡服务, 电讯 (电话卡欺骗), 等. 方法 使用历史数据建立欺骗行为模型, 使用数据挖掘帮助识别类似的实例 例 汽车保险: 检测这样的人, 他/她假造事故骗取保险
8、赔偿 洗钱: 检测可疑的金钱交易 (US Treasurys Financial Crimes Enforcement Network) 医疗保险 : 检测职业病患者, 医生和介绍人圈,2020年10月15日星期四,数据挖掘:概念与技术,14,欺骗检测和管理(2),检测不适当的医疗处置 澳大利亚健康保险会(Australian Health Insurance Commission) 发现许多全面的检查是请求做的, 而不是实际需要的 (每年节省100万澳元). 检测电话欺骗 电话呼叫模式: 通话距离, 通话时间, 每天或每周通话次数. 分析偏离期望的模式. 英国电讯(British Telec
9、om)识别频繁内部通话的呼叫者的离散群, 特别是移动电话, 超过数百万美元的欺骗. 零售 分析家估计, 38%的零售业萎缩是由于不忠诚的雇员造成的.,2020年10月15日星期四,数据挖掘:概念与技术,15,其它应用,运动 IBM Advanced Scout分析NBA的统计数据 ( 阻挡投篮, 助攻, 和犯规 ) 获得了对纽约小牛队(New York Knicks)和迈艾米热队( Miami Heat )的竞争优势 天文 借助于数据挖掘的帮助,JPL 和 Palomar Observatory 发现了22 颗类星体(quasars) Internet Web Surf-Aid IBM Sur
10、f-Aid 将数据挖掘算法用于有关交易的页面的Web访问日志, 以发现顾客喜爱的页面, 分析Web 销售的效果, 改进Web 站点的组织, 等.,2020年10月15日星期四,数据挖掘:概念与技术,16,数据挖掘过程,数据挖掘:KDD的核心.,数据清理,数据集成,数据库,数据仓库,知识,任务相关数据,选择,数据挖掘,模式评估,2020年10月15日星期四,数据挖掘:概念与技术,17,KDD过程的步骤,学习应用领域: 相关的先验知识和应用的目标 创建目标数据集: 数据选择 数据清理和预处理: (可能占全部工作的 60%!) 数据归约与变换: 发现有用的特征, 维/变量归约, 不变量的表示. 选择
11、数据挖掘函数 汇总, 分类, 回归, 关联, 聚类.,2020年10月15日星期四,数据挖掘:概念与技术,18,KDD过程的步骤(续),选择挖掘算法 数据挖掘: 搜索有趣的模式 模式评估和知识表示 可视化, 变换, 删除冗余模式, 等. 发现知识的使用,2020年10月15日星期四,数据挖掘:概念与技术,19,数据挖掘和商务智能,提高支持商务决策的潜能,最终用户,商务分析人员,数据分析人员,DBA,制定决策,数据表示,可视化技术,数据挖掘,信息发现,数据探查,OLAP, MDA,统计分析, 查询和报告,数据仓库 / 数据集市,数据源,文字记录, 文件, 信息提供者, 数据库系统, OLTP系统
12、,2020年10月15日星期四,数据挖掘:概念与技术,20,典型的数据挖掘系统结构,数据仓库,数据清理 数据集成,过滤,数据库,数据库或数据仓库,数据挖掘引擎,模式评估,图形用户界面,知识库,2020年10月15日星期四,数据挖掘:概念与技术,21,数据挖掘:在什么数据上进行?,关系数据库 数据仓库 事务(交易)数据库 先进的数据库和信息存储 面向对象和对象-关系数据库 空间和时间数据 时间序列数据和流数据 文本数据库和多媒体数据库 异种数据库和遗产数据库 WWW,2020年10月15日星期四,数据挖掘:概念与技术,22,数据挖掘功能(1),概念描述: 特征和区分 概化, 汇总, 和比较数据特
13、征, 例如, 干燥和潮湿的地区 关联 (相关和因果关系) 多维和单维关联 age(X, “20.29”) income(X, “20.29K”) buys(X, “PC”) support = 2%, confidence = 60% contains(T, “computer”) contains(T, “software”) support = 1%, confidence = 75%,2020年10月15日星期四,数据挖掘:概念与技术,23,数据挖掘功能(2),分类和预测 找出描述和识别类或概念的模型( 函数), 用于将来的预测 例如根据气候对国家分类, 或根据单位里程的耗油量对汽车分类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 51 cto 编辑 编纂 数据 挖掘 发掘 概念 技术
限制150内