数据挖掘概念与技术读书笔记(共8页).docx
精选优质文档-倾情为你奉上第一章1、 可以挖掘的数据类型:数据库数据,数据仓库(是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上,通常数据仓库用称作数据立方体的多维数据结构建模,数据立方体有下钻(往下细分)和上卷(继续记性总和归纳)操作),事务数据,时间先关或序列数据(如历史记录,股票交易数据等),数据流、空间数据、工程设计数据,超文本和多媒体数据 2、 可以挖掘什么类型的模型数据挖掘功能包括特征化与区分、频繁模式、关联和相关性挖掘分类与回归、聚类分析、离群点分析。数据挖掘功能用于指定数据挖掘任务发现的模式。一般而言,这些任务可以分为两类:描述性和预测性。描述性挖掘任务刻画目标数据中数据的一般性质。预测性挖掘任务在当前数据上进行归纳,以便做出预测。特征化与区分:数据特征化(如查询某类产品的特征)、数据区分(将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较,如把具有不同特性的产品进行对比区分)。挖掘频繁模式、关联和相关性:频繁模式是在数据中频繁出现的模式(频繁项集、频繁子序列和频繁子结构)用于预测分析的分类与回归:分类是找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象的类标号。到处模型是基于对训练数据集的分析。该模型用来预测类标号未知的对象类标号。表现形式有:分类规则(IF-THEN)、决策树、数学公式和神经网络。分类预测类别标号,而回归简历连续值函数模型,而不是离散的类标号。相关分析可能需要在分类和回归之前进行,他试图识别与分类和回归过程显著相关的属性。聚类分析:聚类分析数据对象,而不考虑类标号。离群分析:数据集中可能包含一些数据对象,他么对数据的一般行为或模型不一致。这些数据时利群点。3、 使用什么技术:统计学中的统计模型机器学习:监督学习(分类的同义词学习中监督来自训练数据集中标记的实例)无监督学习:本质上是聚类的同义词。学习过程是无监督的,因为输入实例没有类标记。由于训练无边际,所以学习到的模型并不能告诉我们所发现的簇的语意。半监督学习:在学习模型时,它使用标记的和未标记的实例。标记的实例用来学习类模型,而未标记的实例用来进一步改进类边界。 主动学习:是一种机器学习方法,它让用户在学习过程中扮演主动角色数据库系统和数据仓库4、 面向什么类型的应用哪里有数据,哪里就用数据挖掘应用。商务智能:进行有效的市场分析,比较类似产品的顾客反馈,发现其竞争对手的优势和缺点,留住具有高价值的顾客,做出聪明的商务决策。Web搜索引擎:需要数以上千或上万计的计算机云协同挖掘海量数据,把数据挖掘方法升级到计算机计算机云和大型分布数据集上。 5、 数据挖掘的主要问题:挖掘方法:挖掘各种新的知识类型、挖掘多维空间中的知识、数据挖掘跨学科的努力、提升网络环境下的发现能力、处理不确定性,噪声或不完全数据、模式评估和模式或约束指导的挖掘。用户界面:交互挖掘:数据挖掘过程应该是高度交互的结合背景知识。特定的数据挖掘和数据挖掘查询语言。数据挖掘结果的表示和可视化。有效性和可伸缩性:数据挖掘算法的有效性和可伸缩性,为了有效地从多个数据库或动态数据流的海量数据提取信息,数据挖掘算法必须是有效的和可伸缩的并行、分布式和增量挖掘算法,大量数据和数据挖掘算法的计算复杂性是促使开发并行和分布式数据密集型挖掘算法的因素。第二章 认识数据1、 主要学习了解属性的不同类型,以及描述属性数据的中心趋势和散步的统计度量。还有熟悉对属性值分布可视化的技术,以及如何计算对象之间的相似性或相异性2、 数据对象与属性类型:标称属性:是一些符号或事物的名称,有些使用数字表示,但这些数字不具有数值属性。二元属性:0,1(是否不是)序数属性(ranking)数值属性是定量的,即它是可度量的量,用整数或实数值表示。区间标度属性:用相等的单位尺度度量,如温度。比例标度属性:是具有固有零点的数值属性。如不同币种间的汇率离散属性与连续属性:离散属性具有有限或无线可数个数,可以用或不用整数表示。如果不是离散的就是连续的。术语“数值属性”和“连续属性”通常可以互换地使用。3、 数据的基本统计描述:中心趋势度量:均值,中位数,众数,中列数。数据的散布:极差,四分位数,方差,标注差和四分位数极差。可视化的审视数据2= 1Ni=1N(xi - x)2=(1Ni = 1nxi2)2- x2上式表示的是方差,其中x是观测的均值,观测值的标准差是方差2的平方根。 数据段基本统计描述的图形显示:分位数图,分位数-分位数图,直方图,散点图与数据相关。4、 数据可视化:从存放在诸如关系数据库中的多维数据开始,讨论一些表示方法,包括基于像素的技术,几何投影技术,基于图符的技术,以及层次的和基于图形的技术。以及复杂数据对象和关系的可视化。:基于像素的可视化技术:在屏幕上创建m个窗口,每维一个,记录的m个维值映射到这些窗口中对应位置上的m个像素,像素的颜色反应对应的值。集合投影可视化技术几何投影首要挑战是设法解决如何在二维显示上可视化高维空间;散点图:使用笛卡尔坐标显示二维数据点。5、 度量数据的相似性和向异性:1:数据矩阵与向异性矩阵:相似性等于1减去向异性.2:标称属性的邻近性度量:d(i,j) = (p-m)/pm是匹配的数目,p 表示所有属性的个数。二元属性的邻近性度量:对于非对称性的二元属性,计算向异性时,分母的取值可以定义存在取值为1的属性个数。数值属性的向异性:闵可夫斯基距离:一般而言,用较小的单位表示一个属性将导致该属性具有较大的值域,因而趋向于给种属性更大的影响或“权重” 叙述属性的邻近性度量:第i个对象的f值为Xif,属性f有Mf个有序的状态,表嫂排位1,Mf。用对应的排位Rifb.每个对象映射到0.0,1.0上,以便每个属性都有相同的权重。实现格式化如下图:P49混合类型属性的向异性:第三章 数据预处理1、数据预处理概述:数据质量:为什么要对数据预处理数据质量:准确性,完整性,一致性,时效性,可信性和可解释性。数据预处理的主要任务:数据清理:填写缺失值,光滑噪声数据,识别或删除离群点。并解决不一致性来“清理”数据。数据集成:在分析中使用来自过个数据源的数据。这涉及集成多个数据库,数据立方体或文件。数据归约得到数据集的简化表示,他小得多,但能够产生同样的(或几乎同样的)分析结果。数据归约策略包括维归约(使用数据编码方案,以便得到原始数据的简化或“压缩”表示)和数值归约(使用参数模型,如直方图,聚类,抽样或数据聚集,用较小的表示取代数据。)。 2、数据清理:缺失值:人工填写缺失值;使用一个全局常量填充缺失值;使用属性的中心独恋填充缺失值。使用与给定元组属同一类的所有样本的属性均值或中位数;使用最可能的值填充缺失值。噪声数据:分箱(可以用箱均值,中位数,和箱边界光滑);回归(也可以用一个函数拟合数据来光滑数据。);离群点分析(可以通过如聚类来检测离群点。)数据清理作为一个过程:数据由于各种各样的原因(如记录标准不同,记录目的不同,数据失效了等)产生偏差。如何进行偏差检测:字段过载,唯一性规则,连续性规则,空值规则.3、数据集成实体识别问题:冗余和相关分析:标称数据的卡方相关检验。数值数据的协方差:元组重复:4、数据归约:可以用来得到数据集的归约表示,他小得多。但仍接近于保持原始数据的完整性。数据归约策略:维归约:减少所考虑的随机变量或属性的个数:数量归约:用替代的,较小的数据表示形式替换原数据。数据压缩:使用变量变换,以便得到原数据的归约或“压缩”表示。如果原数据能够从压缩后的数据重构,而不损失信息,则该数据归约称为无损的。小波变换:离散小波变换是一种线性的信处理技术。用于数据向量X时。将它变换撤回国内不同的数值小波系数向量X撇。属性子集选择:通过删除不相关或冗余的属性,减少数据量。逐步向前选择,逐步向后选择,逐步向前选择和逐步向后删除的组合,决策树归纳。回归和对数线性模型:参数化数据归于:线性回归;对数线性模型聚类:抽样专心-专注-专业