数据挖掘概念与技术读书笔记(共8页).docx
《数据挖掘概念与技术读书笔记(共8页).docx》由会员分享,可在线阅读,更多相关《数据挖掘概念与技术读书笔记(共8页).docx(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上第一章1、 可以挖掘的数据类型:数据库数据,数据仓库(是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上,通常数据仓库用称作数据立方体的多维数据结构建模,数据立方体有下钻(往下细分)和上卷(继续记性总和归纳)操作),事务数据,时间先关或序列数据(如历史记录,股票交易数据等),数据流、空间数据、工程设计数据,超文本和多媒体数据 2、 可以挖掘什么类型的模型数据挖掘功能包括特征化与区分、频繁模式、关联和相关性挖掘分类与回归、聚类分析、离群点分析。数据挖掘功能用于指定数据挖掘任务发现的模式。一般而言,这些任务可以分为两类:描述性和预测性。描述性
2、挖掘任务刻画目标数据中数据的一般性质。预测性挖掘任务在当前数据上进行归纳,以便做出预测。特征化与区分:数据特征化(如查询某类产品的特征)、数据区分(将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较,如把具有不同特性的产品进行对比区分)。挖掘频繁模式、关联和相关性:频繁模式是在数据中频繁出现的模式(频繁项集、频繁子序列和频繁子结构)用于预测分析的分类与回归:分类是找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象的类标号。到处模型是基于对训练数据集的分析。该模型用来预测类标号未知的对象类标号。表现形式有:分类规则(IF-THEN)、决策树、数学公式和神经网络
3、。分类预测类别标号,而回归简历连续值函数模型,而不是离散的类标号。相关分析可能需要在分类和回归之前进行,他试图识别与分类和回归过程显著相关的属性。聚类分析:聚类分析数据对象,而不考虑类标号。离群分析:数据集中可能包含一些数据对象,他么对数据的一般行为或模型不一致。这些数据时利群点。3、 使用什么技术:统计学中的统计模型机器学习:监督学习(分类的同义词学习中监督来自训练数据集中标记的实例)无监督学习:本质上是聚类的同义词。学习过程是无监督的,因为输入实例没有类标记。由于训练无边际,所以学习到的模型并不能告诉我们所发现的簇的语意。半监督学习:在学习模型时,它使用标记的和未标记的实例。标记的实例用来
4、学习类模型,而未标记的实例用来进一步改进类边界。 主动学习:是一种机器学习方法,它让用户在学习过程中扮演主动角色数据库系统和数据仓库4、 面向什么类型的应用哪里有数据,哪里就用数据挖掘应用。商务智能:进行有效的市场分析,比较类似产品的顾客反馈,发现其竞争对手的优势和缺点,留住具有高价值的顾客,做出聪明的商务决策。Web搜索引擎:需要数以上千或上万计的计算机云协同挖掘海量数据,把数据挖掘方法升级到计算机计算机云和大型分布数据集上。 5、 数据挖掘的主要问题:挖掘方法:挖掘各种新的知识类型、挖掘多维空间中的知识、数据挖掘跨学科的努力、提升网络环境下的发现能力、处理不确定性,噪声或不完全数据、模式评
5、估和模式或约束指导的挖掘。用户界面:交互挖掘:数据挖掘过程应该是高度交互的结合背景知识。特定的数据挖掘和数据挖掘查询语言。数据挖掘结果的表示和可视化。有效性和可伸缩性:数据挖掘算法的有效性和可伸缩性,为了有效地从多个数据库或动态数据流的海量数据提取信息,数据挖掘算法必须是有效的和可伸缩的并行、分布式和增量挖掘算法,大量数据和数据挖掘算法的计算复杂性是促使开发并行和分布式数据密集型挖掘算法的因素。第二章 认识数据1、 主要学习了解属性的不同类型,以及描述属性数据的中心趋势和散步的统计度量。还有熟悉对属性值分布可视化的技术,以及如何计算对象之间的相似性或相异性2、 数据对象与属性类型:标称属性:是
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 概念 技术 读书笔记
限制150内