2022年分类算法综述 .pdf
《2022年分类算法综述 .pdf》由会员分享,可在线阅读,更多相关《2022年分类算法综述 .pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘数据挖掘分类算法综述专业:计算机科学与技术专业学号:S20100451 姓名:张靖指导教师:陈俊杰时间:2011年 08 月 21 日名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 7 页 -数据挖掘分类算法综述数据挖掘出现于 20 世纪 80 年代后期,是数据库研究中最有应用价值的新领域之一。它最早是以从数据中发现知识(KDD,Knowledge Discovery in Database)研究起步,所谓的数据挖掘(Data Mining,简称为 DM),就从大量的、不完全的、有噪声的、模糊的、随机的、实际应用的数据中提取隐含在其中的、人们不知道的但又有用的信息和知识的
2、过程。分类是一种重要的数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器)。该模型能把未知类别的样本映射到给定类别中的一种技术。1.分类的基本步骤数据分类过程主要包含两个步骤:第一步,建立一个描述已知数据集类别或概念的模型。如图 1 所示,该模型是通过对数据库中各数据行内容的分析而获得的。每一数据行都可认为是属于一个确定的数据类别,其类别值是由一个属性描述(被称为类别属性)。分类学习方法所使用的数据集称为训练样本集合,因此分类学习又可以称为有指导学习(learning by example)。它是在已知训练样本类别情况下,通过学习建立相应模型,而无指导学习则
3、是在训练样本的类别与类别个数均未知的情况下进行的。通常分类学习所获得的模型可以表示为分类规则形式、决策树形式或数学公式形式。例如,给定一个顾客信用信息数据库,通过学习所获得的分类规则可用于识别顾客是否是具有良好的信用等级或一般的信用等级。分类规则也可用于对今后未知所属类别的数据进行识别判断,同时也可以帮助用户更好的了解数据库中的内容。训练数据分类算法分类规则namefairexcellentexcellentfairfairexcellentlowlowhighmedmedhigh3030314040 403140Sandy JonesBill leeCourtney foxSusan lak
4、eClaire phipsAndre beauCredit_ratingincomeageIf age=“31-40”and income=high Then credit_rating=excellent图1 数据分类过程中的学习建模第二步,利用所获得的模型进行分类操作。首先对模型分类准确率进行估计,例如使用保持(holdout)方法。如果一个学习所获模型的准确率经测试被认为是可以接受的,那么就可以使用这一模型对未来数据行或对象(其类别未知)进行分类。例如,在图 2中利用学习获得的分类规则(模型)。对已知测试数据进行模型名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 7 页 -
5、准确率的评估,以及对未知类别的新数据进行分类预测。测试数据分类算法新数据namefairexcellentexcellentfairfairexcellentlowlowhighmedmedhigh3030314040 403140Sandy JonesBill leeCourtney foxSusan lakeClaire phipsAndre beauCredit_ratingincomeage分类规则high3041John Henri图2 数据分类过程中的分类测试分类的具体规则可描述如下:给定一组训练数据的集合 T(Training set),由一条条的数据库记录(Record)组成的
6、,T的每一条记录包含若干条属性(Attribute)组成一个特征向量,用矢量),.,(21nxxxX表示,其中)1(nixi对应各非类别属性,可以有不同的值域,当一属性的值域为连续域时,该属性为连续属性(Numerical Attribute),否则为离散属性(Discrete Attribute),用 c表示类别属性),.,(21kcccc,即数据集有 k个不同的类别,那么,T就隐含了一个从矢量 X到类别属性的映射函数cXfH)(:。分类的目的就是分析输入数据,通过在训练集中的数据表现出来的特性,为每一个类找到一种准确的描述或者模型,采用该种方法(模型)将隐含函数表示出来。构造分类模型的过程
7、一般分为训练和测试两个阶段,在构造模型之前,要求将数据集随机地分为训练数据集和测试数据集。在训练阶段,使用训练数据集通过分析有属性描述的数据库元组来构造模型。在测试阶段,使用测试数据集,来评估模型的分类准确率,如果认为模型的准确率可以接受,就可以用该模型对其它数据元组进分类,一般来说,测试阶段的代价远远低于训练阶段。2.分类数据的预处理为了提高分类的准确性、有效性和可伸缩性,在进行分类之前通常要对数据进行预处理,包括以下几方面:(1)数据清理大多数数据预处理是数据清理的一种形式,其目的是消除或减少数据噪声和处理缺失数据的信息。噪声代表属性值中的随机错误。在所有大的数据集中噪声以各种形式和排列方
8、式出现,对噪声数据通常关心的问题如下:发现重复记录。查找错误的属性值。在分类数据中寻找错误是大型数据集所面临的一个问题。一些数据挖掘工具提供了频率值或分类属性的预测能力值的汇名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 7 页 -总,可以认为预测能力值接近于0的属性值可能是错误的。数据平滑。数据平滑是一个数据清理和数据转换的过程。一些数据平滑技术努力减少数值属性值的维数。一些分类器,如神经网络,有在分类过程中用函数完成数据平滑的功能。当数据平滑在分类过程中完成时,则称为是内部数据平滑。外部数据平滑是在分类以前进行的,舍入和计算平均值是两种简单的外部数据平滑技术。当我们想使用不支
9、持数值数据的分类器,并想保留数值属性值的原始信息时,用平均值平滑就很合适。在这种情况下,所有的数值属性值被相应的中值所替代。在处理缺失数据时,因为在训练阶段和分类过程本身,缺失数据值会导致一些问题,训练数据中的缺失值会产生不准确的结果,所以必须进行处理。分类方法必须能够处理一个要被分类的元组中的缺失数据,有许多种处理缺失数据的方法。忽略缺失数据。一些数据挖掘算法,包括神经网络和贝叶斯分类器采用了这种方法。丢弃含有缺失值的记录。当记录只有一小部分缺失数据并且我们可以确定缺失值表示信息丢失时,应用这种方法非常合适。对于实值数据,用中值代替缺失值。在大多数情况下这是处理数值属性的一种理想的方法。对缺
10、失数据给定一个假设的值,这可能需要使用某种方法预测这个值是什么。用其它相似样本中的属性值代替某个样本缺失的属性值。(2)相关性分析由于数据集中的许多属性可能与分类任务不相关,若包含这些属性将减慢和可能误导学习过程。相关性分析的目的就是删除这些不相关或冗余的属性。(3)数据变换数据可以概化到较高层概念。比如,连续值属性“收入”的数值可以概化为离散值:低、中、高。此外数据也可以规范化,规范化将给定属性的值按比例缩放落入较小的区间,比如0,1等。3.分类算法数据挖掘有多种经典分类算法,这些算法基于不同的分类思想,例如基于距离的KNN 算法、基于归纳的决策树算法、基于统计的贝叶斯算法等等,本文主要介绍
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年分类算法综述 2022 年分 算法 综述
限制150内