数据挖掘噪声数据处理综述(共9页).doc

上传人：飞****2

文档编号：15107807

上传时间：2022-05-11

格式：DOC

页数：9

大小：87KB

( 4.5 )

《数据挖掘噪声数据处理综述(共9页).doc》由会员分享，可在线阅读，更多相关《数据挖掘噪声数据处理综述(共9页).doc（9页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、精选优质文档-倾情为你奉上噪声数据处理综述摘要：噪声数据是指数据中存在着错误或异常(偏离期望值)的数据,不完整数据是指感兴趣的属性没有值.不一致数据则是数据内涵出现不一致的情况。为了更好的论述什么是噪声数据处理，给出了两种噪声数据处理的算法：在属性级别上处理噪声数据的数据清洗算法和一种改进的应用于噪声数据中的KNN算法。关键词：噪声数据噪声数据处理数据清洗 KNN算法1. 概述噪声数据（noisy data）就是无意义的数据（meaningless data）。这个词通常作为损坏数据（corrupt data）的同义词使用。但是，现在它的意义已经扩展到包含所有难以被机器正确理解和翻译的数

2、据，如非结构化文本。任何不可被创造它的源程序读取和运用的数据，不管是已经接收的、存储的还是改变的，都被称为噪声。噪声数据未必增加了需要的存储空间容量，相反地，它可能会影响所有数据挖掘（）分析的结果。统计分析可以运用历史数据中收集的信息来清除噪声数据从而促进数据挖掘。引起噪声数据（noisy data）的原因可能是硬件故障、编程错误或者语音或光学字符识别程序（）中的乱码。拼写错误、行业简称和俚语也会阻碍机器读取。噪声数据处理是数据处理的一个重要环节，在对含有噪声数据进行处理的过程中，现有的方法通常是找到这些孤立于其他数据的记录并删除掉，其缺点是事实上通常只有一个属性上的数据需要删除或修正，将整条

3、记录删除将丢失大量有用的、干净的信息。在数据仓库技术中，通常数据处理过程应用在数据仓库之前，其目的是提高数据的质量，使后继的联机处理分析(OLAP)和数据挖掘应用得到尽可能正确的结果。然而，这个过程也可以反过来，即利用数据挖掘的一些技术来进行数据处理，提高数据质量。 2.噪声数据处理2.1在属性级别上噪声数据处理的数据清洗算法2.1.1 数据清洗和聚类分析介绍数据清洗包括许多的内容，文献【l】给出了详尽的介绍，其中噪声数据(包含错误或存在偏离期望的孤立点值)的处理是其中重要的一部分。数据含噪声(包含错误或存在偏离期望的孤立点值)可能有多种原因：收集数据本身难以得到精确的数据，收集数据的设备可能

4、出现故障，数据输入时可能出现错误，数据传输过程中可能出现错误，存储介质有可能出现损坏等。根据决策系统中“garbage in，garbage out“(如果输入的分析数据是垃圾，那么输入的分析结果也将是垃圾)这条原理，必须处理这些噪声数据。去掉噪声、平滑数据的技术主要有：分箱(binning)，聚类(clustering)，同归(regression)等。聚类(clustering)就是将数据对象分组成为多个类或簇(cluster)，在同一个簇中的对象之间具有较高的相似度，而不同的簇间的对象差别较大。聚类分析可以用来进行孤立点挖掘。孤立点挖掘可以发现噪声数据，因为噪声本身就是孤立点、聚类

5、分析发现孤立点的方法有：基于统计的孤立点检测，基于距离的孤立点检测和基于偏离的孤立点检测。2.1.2算法介绍下面是一个利用聚类算法来发现关系数据库中孤立点数据的例子：输入：数据集S，包括N条记录，属性集D：年龄、收入；本文称一条记录为一个数据点(Data Point)，一条记录上的每个属性上的值为一个数据单元格(Data Cel1)。S有ND个数据单元格，其中某些数据单元格是噪声数据。输出：孤立数据点如图1所示。图1通过聚类发现噪声数据的例子孤立点A是一个孤立点数据，我们认为它是噪声数据，很明显它的噪声属性足收入，剩下的干净信息即年龄属性上的数据仍然可以用于预测或其他应用，同时可以利用年龄属性

6、上的干净数据来矫正A在收入上的值。进一步，数据点B也是一个噪声数据，但是很难判定它在哪个属性上的数据出现错误。本方法试图确定噪声点B的噪声属性(即产生噪声的具体属性)，并对其进行矫正。算法思想：首先通过聚类识别噪声数据，并考察它们在各个属性上的值与其期望之间的距离以判定引起噪声的属性；然后，对于能够判定噪声属性的记录，寻找它所属的分类，并利用它所属分类中噪声属性上的值进行矫正；对于不能判定噪声属性的记录，因为噪声记录去除非噪声属性后的仍然是噪声记录，同样可以通过聚类判定其噪声属性并进行矫正；整个过程记录噪声记录在属性上的分布情况。几个定义如下：噪声数据矩阵(Noise Matrix，NM)：通

7、过聚类算法得到的孤立数据点集合矩阵，NM(i,j)的值对应孤立点集合P中第i条记录在属性j上的值，即NM(i,j)=P污染矩阵(Corruption Matrix，CM)：NM 对应的一个01布尔矩阵，NM(i,j)为噪声=CM（ij)=1；否则，CM(i,j)=0。基本算法描述：输入：含噪声数据的数据集S，S有N个数据对象，S的属性集合D=D1，D2，，Dk 。输出：噪声数据矫正后的数据集合S，污染矩阵CM方法：(1)P=GetNo1seByClustering(S、D);/* 属性集合D上对S进行聚类，得到孤立点数据集台P*/(2)If (P!=Nul1)ThenFor i=O to l

8、ength(P)For j=0 to kNM(i，j)=P(i，j);/* NM(i ,j)为P中第i条，记录在属性D1上的值 */If(Distance(NM(i,j)、E(S,D1) 阈值A) ThenCM(i，j)=1：/* 替NM(i，j)与S中D1上的期望之间的距离大于某个阈值，则判定D1上产生了噪声*/Else CM(i，j)=0 (3)For EachD1 (1=i=k)P=GetNoiseByClustering(SD-D );/*在 DDD上对S聚类；*/For m=1 to length(P)if(CM (m ，i)=1)ThenNM(m，i)用行m所对应的记录rm所在的聚

9、集D1上的(平均)值替换；/*对于能够划定噪声属性的记录，用干净数据中D1上的(期望)值矫正*/Else 1f(CM(m，j)=0)(1=j=k)ThenIf行m所对应的记录rm 所在新的聚类P中不是孤立点 then NM(m，i)用行m所对应的纪录rm 所在的聚集中D1上的(期望)值替换；/*对于不能判定噪声属性,并矫正*/ CM(m, i)=l： (4)For m=1 to length(P)/*矫正原始数据 S;*/Forj=0 to kIf(CM=1)Then用NM(m，j)替换S中对应的记录属性D1上的值 (5)返回S和NM：其中，过程GetNoiseByCIustering(S,D

10、)是对数据求S在属性集D上进行聚类返回的噪声数据集合。它可以通过聚类算法如k-means(k-平均值)，k-medoids(k-中心点)实现，这里不作具体介绍。这个算法在判定噪声属性的时候采用与其期望值进行比较的方法。这个算法能在属性的级别上发现噪声数据，并且根据剩余的干净数据来矫正噪声而无需事先了解数据的结构。它还能为噪声的产生过程建模，即得到了噪声在属性上的分布规律统计。它的时间复杂度为O(kf)，其中k为数据集合的属性数，f所选的聚类算法的时间复杂度.2.2改进的用于噪声数据中的KNN算法2.2.1 相关知识1. 相关处理方法K近邻算法是一种非常简单直观且有效的分类方法，广泛应用于模式识

11、别的各个领域。顾名思义，该方法就是找出未知样本x的k个近邻，根据k个近邻中多数实例所属类别，把x归为该类。具体地说，假设有L个类c1，c2，cL，第i 个类的训练样本集L为wi，整个训练样本集为U ，样本总数，yi(i=1,2,)表示第i个训练样本。给定未知样本x和距离测试，首先从Q个训练样本中找出X的k个近邻，ki(1=i=L)表示这k个近邻中属于第i类的样本数，那么把X归为类cL，其中I=argmaxk ，这就是所谓的K近邻规则(分类方法)。我们用向量表示样本或者样本的特征向量，分类中采用Euclidean距离。2KNN算法中的噪声处理。噪声数据是永远存在于机器学习领域的研究之中。现在很多

12、工作成果是关于如何处理噪声数据以及噪声数据对分类学习算法的影响。在前人的工作中，大多没有使用噪声数据模型来有效地增强学习算法的分类效果。然而很少有工作研究如何充分利用噪声模型来建立更优的分类算法。K近邻算法是基于距离的局部最优的算法。不可否认的是，当数据中存在噪声时，局部最优的基于距离的算法会受到明显的影响。虽然合适的参数k能够减弱突发性的噪声数据对分类效果的影响。但当数据服从稳定的噪声模型时，其很难能够从实质上解决此问题。在前人的工作中，一种普遍被接受的观点是，如果训练数据集与测试数据集中存在相同的噪声模型，则噪声数据将会在训练数据和测试数据中起到相同的作用，因而可以忽略输入数据中的不确定性

13、。然而，文献明确指出考虑输入数据的不确定性，可以提高分类器的预测准确性。如果对于类标签来说，所有条件属性是同等重要的，那么将条件属性值规范化于0，1区间后，欧基里德距离在计算对象之间的距离时是相当成功的。然而这种假设也不尽然，数据集中的条件属性与类标签之问不一定都是相关，且即使是与类标签之问是相关的，相关程度也不尽相同。朴素的K近邻算法中，每一个数据所起到的作用是等价的明显存在漏洞。因而很多专家提出了用权重的方法来强调相关性强的属性或减弱不相关的属性在计算距离时的作用。权重的获得有很多种方法，如信息熵、互信息或各属性在相同类标签或不同类标签的实例之间所起的作用来决定等等。2.2.2 改进算法1

14、K近邻算法。尽管有很多种计算实例之间距离的方法，但大多算法仍旧使用欧基里德距离引。一个实例(a1 (1)，a2(1)，，ak (1)和另一个实例(a1 (2)，a2(2)，，ak (2)之间距离为： (1)其中，k为条件属性个数。2噪声模型。真实数据中的噪声数据永远都是存在的。但噪声数据产生的原因有很多种，如手工的误操作、机器本身存在的误差、传输过程中发生的错误等等。(1)系统误差。实验系统的组成包括：实验仪器、环境、实验的理论和方法以及实验人员。由这四种组成所引起的有规律的误差称之为系统误差。仪器误差：又以其本身的固有缺陷、较正不完善或使用不当引起的。环境误差：仪器所处的外界环境如：

15、温度、湿度、电磁场等环境的变化引发的误差。方法误差：由于计算公式的近似，没有完全满足理论公式所给定的条件。例如，单摆测重力加速度的实验中，采用了sin00的近似条。人员误差：由测量者的个人因素造成的误差。例如：按秒表时总是超前或滞后，读数时头总是向一边偏等。(2)随机误差。由某些偶然的、不确定的因素所造成的误差称之为随机误差。若从一次测量来看，随机误差是随机的，没有确定的规律，也不能预测。但当测量次数足够多时，随机误差遵从一定的统计分布。因此，增加测量的次数，可以明显地减少随机误差。其中一部分误差是随机的，没有规律可循，如手工误操作、传输错误等；而另外一类，是有一定规律可循的，也就是说这类噪声

16、往往有一点的范围，服从一定的分布，如机器本身存在的误差，一般在出厂时都有一定的说明，明确指出其精确度。这些有效信息对数据本身的可靠性是最有力的证明。正态分布在概率论与数理统计的理论研究和实际应用中都占有十分重要的地位。在自然界和社会现象中，大量的随机变量都服从或近似地服从正态分布。诸如各种测量误差、计算误差、产品的各类质量指标等。因此，对于连续属性值，本文讨论假设误差服从正态分布情况下的处理方法。对于属性集中的某一个属性a1 ，假设其噪声服从N(，2 )，为噪声的均值，为噪声的方差，即表示噪声的分散程度。为了计算两个实例之间的距离，必需先计算公式(1)中各属性之间的距离。以第一个属性为例，讨论

17、正态分布中的两个参数和对计算距离的影响。现计算实例e1 和e2 的属性a1 之间的距离。定理l对于某一属性，其误差服从正态分布，则其误差均值不会对两个实例的该属性之间的距离产生影响，此距离只受方差的影响。但在数据集中，由于不同的属性的度量单位不同，不同属性的取值范围也就不同。如对于属性a1，的取值va2 范围为10，80，其方差为3；而属性a2 的取值va2 范围为1，8，其方差也为3，很明显同样的方差3所反映出的数据中所含噪声程度差别很大。为了避免这种情况对权值产生的不均衡的影响，令属性的权重： (2)从(2)式中可以看出，方差越大，权重越小，分母中方差加1，是为了防止当数据完全精确，

18、方差为0时公式(2)无意义的情况。分子中取的是属性值区间长度，区间长度与方差的比值，可以消除由不同的属性值范围所带来的影响。以前面所说为例，属性a1的权重应为：(80lO)/(3+1)=17.5；而属性a2的权重为：(8-1)/(3+1)=1.75。从实际应用角度看，这是合理的。两个实例之间的距离由公式(1)转化为如下距离公式： (3)从上式可以明确地看出，在计算实例之间距离时，属性值误差的方差起到了应有的作用，若某个属性的误码差方差较大，则其权重则较小，从而在计算距离时所起到的作用就较小，减弱了误差在K 近算法中的影响。3. 实验在实验中，为了反映本文改进算法的效果，分别使用了人工数据和真实

19、数据集。在人工数据集中，采用的是三维空间坐标作为条件属性，目标函数是一空间立体区域，若在这个区域中，则目标函数值(类标签)为1，否则为0。为了进一步了解，若数据集中存在不相关或相关性很小的数据时，改进算法的分类效率，在人工数据集中，加入了一个不相关属性。在人工数据集和真实数据集中，都按照一定的正态分布参数，随机地加入了噪声数据。表1 人工数据集实验结果DataSet1DataSet1DataSet1DataSet1NONONONO0,0,0,398.390.898.191.499.890.299.989.61,1,1,38885.389.584.486.881.990.389.12,2,2,3

20、90.386.785.384.989.688.986.285.11,1,1,185.685.684.684.488.688.58282表2 真实数据集实验结果DataSet1DataSet1DataSet1DataSet1NONONONO0,0,0,385.6799387.298.69084.581.81,1,1,384.377.88582.190.48779.174.52,2,2,37575.682.380.885.185.875.172.31,1,1,16866.580.778.185.5857373.1在以上实验结果表中，第一列中四个数字分别代表人工数据集中的属性噪声值的方差，前三个是与目标函数相关属性噪声值的方差，最后一个是不相关属性方差。N和O分别代表本文中提出的改进K近邻算法和原先的K一近邻算法。其中，表1为人工数据；表2为真实数据集。从实验结果可以看出当相关属性的噪声方差较小时，新算法能有效地提高分类准确率。而当所有属性的噪声方差相同时，新算法就能很好的提高效率。其原因也是可想而知的，当所有的属性噪声相近时，所加上的权重当然也就相近，因此总的来说不会对距离产生有效的影响。但总体来说，其效果还是明显的。专心-专注-专业

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据挖掘噪声数据处理综述

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：数据挖掘噪声数据处理综述(共9页).doc
链接地址：https://www.taowenge.com/p-15107807.html