数据挖掘概念与技术第一章.pptx
《数据挖掘概念与技术第一章.pptx》由会员分享,可在线阅读,更多相关《数据挖掘概念与技术第一章.pptx(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据数据挖掘概念与技术挖掘概念与技术第一章 引论 第一章第一章 引论引论1.1 为什么进行数据挖掘1.2 什么是数据挖掘1.3 可以挖掘什么类型的数据1.4 可以挖掘什么类型的模式1.5 使用什么技术1.6 面向什么类型的应用1.7 数据挖掘的主要问题1.8 小结1.1 1.1 为什么进行数据挖掘为什么进行数据挖掘数据爆炸 海量数据,爆炸式增长 来源:网络,电子商务,个人 类型:图像,文本数据利用 数据淹没,但却缺乏知识信息技术的进化 数据挖掘的自动化分析的海量数据集 文件处理-数据库管理系统-高级数据库:系统高级数据分析定义:从大量的数据中提取有趣的(非平凡的,隐 含的,以前未知的和潜在有用
2、的)模式或知识。“数据中发现知识”(KDD)1.2 1.2 什么是数据挖掘什么是数据挖掘清理和集成清理和集成数据仓库数据仓库选择和变换选择和变换数据挖掘数据挖掘模式模式数据库数据库评估和表示评估和表示数据库数据 数据库管理系统(DBMS):数据+软件 关系数据库:表组成 1.3 1.3 可以挖掘什么类型的数据可以挖掘什么类型的数据cust_IDcust_IDnamenameageagegendergenderincomeincome001Tom2514500元组属性关键字customer表数据仓库 从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。1.3 1.3 可以
3、挖掘什么类型的数据可以挖掘什么类型的数据数据仓库数据源1数据源2数据源3数据源4数据立方体联机分析处理OLAP(On-Line Analytical Processing)事物数据数据库事务(Database Transaction),是指作为单个逻辑工作单元执行的一系列操作,要么完全地执行,要么完全地不执行。设想网上购物的一次交易,其付款过程至少包括以下几步数据库操作:一、更新客户所购商品的库存信息二、保存客户付款信息-可能包括与银行系统的交互三、生成订单并且保存到数据库中四、更新用户相关信息,例如购物数量等等1.3 1.3 可以挖掘什么类型的数据可以挖掘什么类型的数据其他类型的数据 股票交
4、易数据 文本 图像 音频视频 未知的1.3 1.3 可以挖掘什么类型的数据可以挖掘什么类型的数据1.4.1 类/概念描述:特征化与区分 数据特征化 目标数据的一般特性或特征汇总 类/概念 数据区分 将目标类数据对象的一般性与一个或多个 对比类对象的一般特性进行比较 特征化和区分1.4 1.4 可以挖掘什么类型的模式可以挖掘什么类型的模式 1.4.2 挖掘频繁模式、关联和相关性 频繁模式是在数据中频繁出现的模式 1.频繁项集、频繁子序列、频繁子结构 2.挖掘频繁模式可以发现数据中的关联和相关性 例如:单维与多维关联1.4 1.4 可以挖掘什么类型的模式可以挖掘什么类型的模式支持度置信度1.4.3
5、 用于预测分析的分类与回归 分类和预测 找出描述和识别类或概念的模型(函数),用于将来的预测 例如根据气候对国家分类,或根据单位里程的耗油量对汽车分类 表示:决策树(decision-tree),分类规则,神经网络 回归l 建立连续值函数模型 一般线性回归,logistic回归1.4 1.4 可以挖掘什么类型的模式可以挖掘什么类型的模式1.4.4 聚类分析 分析数据对象,不考虑类标号 聚类原则:最大化类内的相似性,最小化类间的相似性 1.4 1.4 可以挖掘什么类型的模式可以挖掘什么类型的模式1.4.5 离群点分析 离群点离群点:与数据的的一般行为或模型不一致 孤立点可以被视为例外,但对于欺骗
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 概念 技术 第一章
限制150内