数据挖掘概念与技术第一章.pptx
数据数据挖掘概念与技术挖掘概念与技术第一章 引论 第一章第一章 引论引论1.1 为什么进行数据挖掘1.2 什么是数据挖掘1.3 可以挖掘什么类型的数据1.4 可以挖掘什么类型的模式1.5 使用什么技术1.6 面向什么类型的应用1.7 数据挖掘的主要问题1.8 小结1.1 1.1 为什么进行数据挖掘为什么进行数据挖掘数据爆炸 海量数据,爆炸式增长 来源:网络,电子商务,个人 类型:图像,文本数据利用 数据淹没,但却缺乏知识信息技术的进化 数据挖掘的自动化分析的海量数据集 文件处理-数据库管理系统-高级数据库:系统高级数据分析定义:从大量的数据中提取有趣的(非平凡的,隐 含的,以前未知的和潜在有用的)模式或知识。“数据中发现知识”(KDD)1.2 1.2 什么是数据挖掘什么是数据挖掘清理和集成清理和集成数据仓库数据仓库选择和变换选择和变换数据挖掘数据挖掘模式模式数据库数据库评估和表示评估和表示数据库数据 数据库管理系统(DBMS):数据+软件 关系数据库:表组成 1.3 1.3 可以挖掘什么类型的数据可以挖掘什么类型的数据cust_IDcust_IDnamenameageagegendergenderincomeincome001Tom2514500元组属性关键字customer表数据仓库 从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。1.3 1.3 可以挖掘什么类型的数据可以挖掘什么类型的数据数据仓库数据源1数据源2数据源3数据源4数据立方体联机分析处理OLAP(On-Line Analytical Processing)事物数据数据库事务(Database Transaction),是指作为单个逻辑工作单元执行的一系列操作,要么完全地执行,要么完全地不执行。设想网上购物的一次交易,其付款过程至少包括以下几步数据库操作:一、更新客户所购商品的库存信息二、保存客户付款信息-可能包括与银行系统的交互三、生成订单并且保存到数据库中四、更新用户相关信息,例如购物数量等等1.3 1.3 可以挖掘什么类型的数据可以挖掘什么类型的数据其他类型的数据 股票交易数据 文本 图像 音频视频 未知的1.3 1.3 可以挖掘什么类型的数据可以挖掘什么类型的数据1.4.1 类/概念描述:特征化与区分 数据特征化 目标数据的一般特性或特征汇总 类/概念 数据区分 将目标类数据对象的一般性与一个或多个 对比类对象的一般特性进行比较 特征化和区分1.4 1.4 可以挖掘什么类型的模式可以挖掘什么类型的模式 1.4.2 挖掘频繁模式、关联和相关性 频繁模式是在数据中频繁出现的模式 1.频繁项集、频繁子序列、频繁子结构 2.挖掘频繁模式可以发现数据中的关联和相关性 例如:单维与多维关联1.4 1.4 可以挖掘什么类型的模式可以挖掘什么类型的模式支持度置信度1.4.3 用于预测分析的分类与回归 分类和预测 找出描述和识别类或概念的模型(函数),用于将来的预测 例如根据气候对国家分类,或根据单位里程的耗油量对汽车分类 表示:决策树(decision-tree),分类规则,神经网络 回归l 建立连续值函数模型 一般线性回归,logistic回归1.4 1.4 可以挖掘什么类型的模式可以挖掘什么类型的模式1.4.4 聚类分析 分析数据对象,不考虑类标号 聚类原则:最大化类内的相似性,最小化类间的相似性 1.4 1.4 可以挖掘什么类型的模式可以挖掘什么类型的模式1.4.5 离群点分析 离群点离群点:与数据的的一般行为或模型不一致 孤立点可以被视为例外,但对于欺骗检测和罕见事件分析,它是相当有用的1.4 1.4 可以挖掘什么类型的模式可以挖掘什么类型的模式1.4.6 所有模式都是有趣的吗一个数据挖掘系统/查询可以挖掘出数以千计的模式,并非所有的模式都是有趣的建议的方法:以人为中心,基于查询的,聚焦的挖掘兴趣度度量:一个模式是 有趣的 如果它是 易于被人理解的,在某种程度上在新的或测试数据上是有效的,潜在有用的,新颖的,或验证了用户希望证实的某种假设客观与主观的兴趣度度量:客观:基于模式的统计和结构,例如,支持度,置信度,等.主观:基于用户对数据的确信,例如,出乎意料,新颖性,可行动性(actionability),等.1.4 1.4 可以挖掘什么类型的模式可以挖掘什么类型的模式1.4.6 所有模式都是有趣的吗发现所有有趣的模式:完全性数据挖掘系统能够发现所有有趣的模式吗?关联 vs.分类 vs.聚类仅搜索有趣的模式:优化数据挖掘系统能够仅发现有趣的模式吗?方法首先找出所有模式,然后过滤掉不是有趣的那些.仅产生有趣的模式 挖掘查询优化1.4 1.4 可以挖掘什么类型的模式可以挖掘什么类型的模式1.5 1.5 使用什么技术使用什么技术1.6.1 商务智能 例如:挖掘潜在客户 商务决策1.6.2 Web搜索引擎 Google 的流感趋势1.6 1.6 面向什么类型的应用面向什么类型的应用挖掘方法 挖掘各种新的知识类型 挖掘多维空间中的知识 数据挖掘跨学科的努力 提升网络环境下的发现能力 处理不确定性、噪声或不完全数据 模式评估和模式或约束指导的挖掘用户界面 交互挖掘 结合背景知识 特定的数据挖掘和数据挖掘查询语言 数据挖掘结果的表示和可视化 1.7 1.7 数据挖掘的主要问题数据挖掘的主要问题有效性和可伸缩性数据挖掘算法的有效性和可伸缩性并行、分布式和增量挖掘算法 数据库类型的多样性处理复杂的数据类型挖掘动态的、网络的、全球的数据库数据挖掘与社会数据挖掘的社会影响保护隐私的数据挖掘无形的数据挖掘1.7 1.7 数据挖掘的主要问题数据挖掘的主要问题数据挖掘:从大量数据中发现有趣的模式数据库技术的自然进化,具有巨大需求和广泛应用KDD 过程包括数据清理,数据集成,数据选择,变换,数据挖掘,模式评估,和知识表示挖掘可以在各种数据存储上进行数据挖掘功能:特征,区分,关联,分类,聚类,孤立点 和趋势分析,等.数据挖掘系统的分类数据挖掘的主要问题1.8 1.8 小结小结U.M.Fayyad,G.Piatetsky-Shapiro,P.Smyth,and R.Uthurusamy.Advances in Knowledge Discovery and Data Mining.AAAI/MIT Press,1996.J.Han and M.Kamber.Data Mining:Concepts and Techniques.Morgan Kaufmann,2000.T.Imielinski and H.Mannila.A database perspective on knowledge discovery.Communications of ACM,39:58-64,1996.G.Piatetsky-Shapiro,U.Fayyad,and P.Smith.From data mining to knowledge discovery:An overview.In U.M.Fayyad,et al.(eds.),Advances in Knowledge Discovery and Data Mining,1-35.AAAI/MIT Press,1996.G.Piatetsky-Shapiro and W.J.Frawley.Knowledge Discovery in Databases.AAAI/MIT Press,1991.参考文献参考文献谢谢!谢谢!