2022年传感器异常数据处理 .pdf
《2022年传感器异常数据处理 .pdf》由会员分享,可在线阅读,更多相关《2022年传感器异常数据处理 .pdf(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 异常数据处理方法研究1 异常数据处理概述1.1 研究背景近年来,随着海上风力发电技术的日益成熟和陆上风电可开发资源的不断减少, 海上风电尤其是近海风电的开发开始加速。风机是海上风电开发的主要形式,而风机基础结构承担着抵抗海上风机结构的竖向、水平荷载和倾覆力矩的作用,其质量关系到海上风机结构的运行安全。作为隐蔽工程, 其健康状况受到了社会各界的高度重视,如何对风机基础特别是MW 级风机基础的安全运行状况监测成为研究领域的热点。 现有的监测技术需要通过设置在风机基础中的数据采集系统自动获取基础的各状态的大量参数,如应力、应变、振动、变形等,采集到的海量原始数据通过通信网络传输到监控中心,经过数
2、据存储, 分析处理得到基础的安全运行状况和维修决策等结论。风机基础监测系统是集结构监测、 系统识别及结构评估于一体的综合监测系统,其内容包括几何变形监测、结构响应(应力、应变及振动)监测等。监测系统的质量主要取决于三方面因素: (1)传感器的灵敏性和精度以及数据传输和采集设备的性能; (2)测点的空间分布,即传感器的最优布置问题;(3)异常数据的分析处理。从目前电子技术的发展来看, 成熟、稳定、高性能的传感器已经被应用与监测系统中, 而且合理安排传感器位置, 以达到信息采集的最优化, 也已经有很多研究成果。但由于监测信息格式复杂、信息量大,每天数据量甚至能达到十几GB,如果不能有效地对这些数据
3、进行处理,很多异常数据将不能有效辨识,缺失信息将不能有效弥补, 而且监测数据的分析必须建立在准确有效的监测数据之上,低精度和异常的监测数据常常影响数值分析的结果,会影响到系统的功能与特性分析, 给后续数据处理带来很大的误差,正常信息不能得到有效利用,故有必要对原始采集数据进行处理。 因此监测异常数据处理是三方面中至关重要的一点。监测系统异常数据处理包含两个方面的内容:(1)异常数据检测,即找出异常信息并确定异常信息所在位置, 根据需要将异常数据保存入专门数据库中或直接进行剔除; (2)异常数据修正,即通过插值等方法,参考数据异常点前后的数据,完成该异常数据点的修正, 确保采集信息不缺失, 保持
4、原始采集数据的连续性。异常是一个复杂的概念,迄今为止还没有一个统一定义。Hawkins 提出的异常定义被大多数人所接受, 其定义为: 异常是在数据集中与众不同的数据,使人们怀疑这些数据并非随机产生的,而是产生于完全不同的机制。 异常数据往往代名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 15 页 - - - - - - - - - 2 表一种偏差或者新模式的开始, 因此对异常数据的识别有时会比正常数据更有价值。 传感器异常数据是指在数据集中与大部分数据不一致或者偏离正常
5、行为模式的数据。异常数据的产生主要是因为以下几种情况而发生的:(1)数据来源中的异常,这类异常中可能隐藏着重要的知识或规律。对这类异常分析可以获取常规数据不能得到的新的信息,如基础结构损坏等;(2)数据固有变化异常,这类异常通常是自然发生的,如风速的变化、波浪波动等;(3)数据测量误差,这类异常的产生往往是因为测量仪器故障或者网络传输错误,以及噪音的存在引起的,这类异常通常作为噪声而被删除。与其他工程相比, 风机基础安全状况监测发展较为滞后,尚未发现关于风机基础监测数据处理的相关研究成果,其监测异常数据的处理缺乏相应的经验。可以借鉴类似工程监测数据处理的方法进行研究。而针对监测数据的种类多、
6、数据海量、频幅分布广等特点, 国内学者已经研究了很多处理办法。其中研究较多的如小波分析、数据挖掘、数据流理论等。然而,目前的类似工程监测数据处理的方法主要是在离线数据的基础上,在实时监控上还缺乏相应的准确率和智能化。结合风机基础特点, 寻找一种有效的适用于风机基础监测实时数据处理的方法具有十分重要的研究意义和实用价值。1.2 国内外研究现状综述在国外,研究人员通过对异常挖掘的深入研究,根据对异常存在形式的不同假设,提出了许多异常数据检测算法。 早期的异常数据检测方法是基于统计的方法,这种方法依赖于数据集服从某种标准分布,所以异常数据是基于概率分布来定义的,如 Yamanishi等人将正常行为用
7、一个高斯混合模型来进行描述,通过计算数据对象与这个模型的偏离程度来发现异常。虽然这种基于标准分布的模型,能识别异常现象, 但此类方法有很大的局限性, 因为往往无法预知数据集是服从哪类标准分布。为了克服这种缺陷,James P.R 、Daniel B.等在概率论 H 假设检验方法的理论基础上, 提出了一种基于某置信度区间标准的异常检测方法,达到这个标准的则为正常数据,反之则为异常。Knorr 等人于 1998 年提出了基于距离的异常数据检测算法,他们认为数据是高维空间中的点, 异常数据被定义为数据集中与大多数点之间的距离大于某个事先设定的阈值的数据。F.Abgiulli 和 C.Pizzuti
8、等学者针对基于距离的异常数据挖掘算法在高维数据中计算时间较长的缺点,将图论中的连通性原理引入到数据之间距离的计算上,极大地降低了计算时间复杂度。Arning 等人提出了基于偏离的方法, 这种方法认为: 某个数据对象在数据集中的特征明显“偏离”数据集中的其它数据时,这样的数据被认为是异常数据。Birant D 等提出了一种任意形状的聚类算法并将其应用于异常挖掘中,该算法可以依据数据的非空间属性、空间属性和时态属性来发现聚类簇和异常数据对象。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第
9、 2 页,共 15 页 - - - - - - - - - 3 Breuning 等学者定义了局部异常因子的概念,提出了一种基于密度的局部异常点挖掘算法,它是用局部异常因子LOF(Local Outlier Factor)表征数据对象与它的邻居对象的偏离程度,LOF 越大则认为该点是异常数据的可能性越大。ToWel等人在分析神经网络的基础上, 根据神经网络的理论提出了基于神经网络的异常数据挖掘算法。最近提出的比较流行的异常数据挖掘算法是基于核的分类方法,主要思想是将输入的数据通过关系函数映射到一个高维特征空间,通过高维空间的分类超平面,就可以建立一个简单的分类模型,从而区分正常或异常数据。国内
10、对异常数据挖掘的研究起步较晚,但是近年来在理论研究方面已经取得了许多研究成果。 林士敏对基于距离的异常数据挖掘算法作了改进,提出了基于抽样的近似检测算法;金义富等在Knorr 观点的基础上,提出了一种异常约简算法 ORDA,该算法以粗糙集理论的属性约简技术为基础,提出了异常数据划分和异常约简思想, 以及异常数据关键属性域子空间的分析方法,这种方法可以对挖掘出的异常数据进行有效的分析和解释;重庆大学的邓玉洁, 朱庆生提出了基于聚类的异常数据挖掘方法, 该方法将离群数据在分类讨论的基础上,定义了平凡离群数据、 非平凡离群数据以及噪声数据, 然后引入离群属性和离群聚类簇的概念,在此基础上, 以现有的
11、异常数据挖掘技术为基础,实现了离群数据的发现。田江在一类支持向量机的基础上,设计了一种“孤立点类支持向量机”算法,该算法是一种无监督的异常数据检测算法,通过设定不同的权值, 将基于超平面距离定义的异常数据的异常程度和基于概率大小定义的异常程度相结合,通过在特征空间划分距离可疑异常数据的最大间隔超平面来发现异常。综上所述, 国内外针对异常数据产生的原因以及应用领域的不同提出了许多异常数据检测算法。 大量研究发现, 基于密度的局部异常数据挖掘算法能够发现其它的异常数据挖掘算法不能发现的异常,即 “局部”异常,它更加符合 Hawkins对异常数据的定义。 Breunig 等人提出了局部异常因子(Lo
12、cal Outlier Factor, LOF)的概念,通过它来表征一个数据对象的局部异常程度,LOF 算法出现后,出现了很多局部异常程度的度量算法。这些算法适用于静态环境下的数据库,但在工程应用领域, 大部分数据库中的数据是随时间动态增加的,新增加的数据可能会影响某些对象的局部异常程度, 因此在二次挖掘时, 需重新计算所有数据对象的局部异常因子, 计算时间复杂度较高, 所以这些算法在动态环境中不易实现。因此, 如何在动态环境中提高基于密度的异常数据挖掘算法的时间效率避免大量的重复计算显得尤为重要。1.3 研究目的和意义本项研究的目的在于结合风机基础特点,在传统异常数据处理方法基础上,研究一种
13、有效的适用于风机基础监测实时数据处理的方法,该方法能够在线辨识名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 15 页 - - - - - - - - - 4 异常监测数据并保存,且能够自动修复原数据集,保持器连续性。本研究的意义在于:(1) 实现异常数据在线检测与修正。目前的监测数据处理方法主要是在离线数据的基础上, 在实时监控上还缺乏相应的准确率和智能化。本研究实现了异常数据在线检测与修正, 与传统的异常数据识别方法相比,具有更快的计算时间和更高的还原精度,能够满足数
14、据的在线异常检测与修正要求(2)实时发现异常状况并采取必要处理措施。对于实时检测出的异常数据进行分析,寻找异常事件原因, 并根据产生原因采取应有的处理方式。对于传感器故障或执行错误导致数据异常情况,应进行剔除处理; 有些异常数据是数据变异产生的结果, 如对于基础结构监测, 发生异常工况或结构损坏在一段时间往往会出现前兆,导致数据异常,如果能够及时捕捉到异常状况的发生并采取相应措施,则能防患于未然,保证结构安全。(3)提高和完善监测结果准确性,为后续研究奠定基础。监测结果的准确性建立在高质量的监测数据之上, 如果不能有效地辨识与处理异常数据,低精度和异常的监测数据混入正常数据集中, 会对监测系统
15、的功能与特性分析产生重大影响,给后续数据处理带来很大的误差,正常数据信息不能有效用于后续的相关研究,利用数据研究得到的结论与实际可能存在较大误差。1.4 主要研究内容本研究主要包括以下3 部分内容:(1) 对常用异常数据检测与修正方法简要介绍,介绍了常用的数据预处理技术及异常数据检测问题的重要特征,对常用异常数据检测及修正算法进行了描述和讨论,分析了各种算法的优缺点和适用场景。(2) 几种典型改进算法及其工程应用实例进行分析,。(3) 风机基础监测异常数据的检测和修正。2 异常数据检测与修正方法异常数据检测问题通常包括四个过程:第一是数据的预处理, 即通过数字滤波方法去除一些干扰; 第二是异常
16、数据的定义, 即在数据集中表现出怎样的行为或者模式的数据称为异常数据;第三是选择合适的能够有效发现异常数据的算法,异常数据表现行为不同, 异常数据挖掘算法结果也会有所差异;第四是异常数据的修正, 即通过异常挖掘将异常数据挖掘出来后,对这部分数据按照原有模式规则进行修正, 确保采集信息不缺失, 保持采集数据时间序列上的连续性。本章介绍了常用的数据预处理技术及异常数据检测问题的重要特征,对常用异常数据检测及修正算法进行了描述和讨论,分析了各种算法的优缺点和适用场景。2.1 数据预处理技术数据是通过各种类型的监测传感器获取的,数据是一种通过间接方法取得事名师资料总结 - - -精品资料欢迎下载 -
17、- - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 15 页 - - - - - - - - - 5 物状态的技术, 如将结构相应等参数通过一定的转换技术转变为电信号,然后再将电信号转换为数字化的数据。 由于传感器安装环境的不稳定和数据转换过程掺杂少量的噪声数据等各方面因素的影响,得到的数据会受到一定干扰, 影响了最终数据的准确性。 为了减小噪声对数据结果的影响,除了采用更加科学的采样技术外,还需要采用一些必要的技术手段对原始数据进行整理、统计,数字滤波技术是最基本的处理方法,它可以消弱数据中的噪声,提高数据的代表性。均
18、值滤波是最常用的数字滤波方法,是对采样序列中的数据求和后, 再取其平均值作为结果。 虽然这种方法可以达到滤波的目的,但是如果采样数据中的噪声数据过大或过小, 都会对处理结果产生影响。 中值滤波是对采样序列按大小排序形成有序列,取有序列的中间值作为结果。排序算法一般采用“冒泡排序法”或“快速排序法”等。众数是数理统计中常用的一种数据处理办法,它要求对大量的数据进行处理,众数滤波的原理是在采样序列中找出最大值Tmax和最小值Tmin,再在区间上平均分为m 组(5-10 组) ,确定完分组后,对序列统计各组区间内数据的个数,形成统计序列,查找其最大的值即众数组序号k ,根据相应公式计算众数的近似值。
19、 以前由于计算机的采样速度和计算机速度较慢,处理周期较长, 所以一直没有采用,随着计算机运算速度的提高及高速采集模块的采用,现在处理周期已缩短到1 秒以内,由于众数滤波的数据代表性较其它处理方法更强,所以逐步被采用。为了提高滤波的效果, 尽量减少噪声数据对结果的影响,可将两种或两种以上的滤波算法结合在一起使用。 如对于采集的数据量比较大的环境参数,为了达到更好的滤波效果,可以选用众数滤波和均值滤波结合的复合滤波方法。2.2 异常数据问题的重要特征异常数据问题的重要特征可以概括为四个方面,即数据特性、 异常类型、 数据标签和输出类型。(l)数据特性异常检测算法的输入一般是数据实例的集合。每个数据
20、实例用一个或若干个属性及其取值来描述,每个属性的取值可能为二进制、分类或连续变量的形式。属性的表示方式不同, 适用的异常检测算法也不同。例如,如果使用统计学的技术检测异常, 分类和连续取值的数据需要使用不同的统计模型。按数据实例之间的关系,数据可以分为顺序数据和空间数据。顺序数据的数据实例之间有一定的先后次序, 其典型实例包括时间序列数据、基因组序列和蛋白质序列等。空间数据的各个数据实例之间有一定的相对位置关系。数据实例之间的关系对异常检测算法的设计有重要影响。(2)异常类型数据异常可以分为三类:点异常、上下文异常和集合异常。如果某个单个的名师资料总结 - - -精品资料欢迎下载 - - -
21、- - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 15 页 - - - - - - - - - 6 数据实例被认为是异常值, 则该数据实例就被标记为点异常。点异常是最简单的一类异常,也是与异常检测相关的文献中讨论最多的一类异常。如果某个数据实例只在特定的场合或环境下被认为是异常值,则该数据实例就被标记为上下文异常。一个典型的例子就是野外环境的温度监控,温度报警阂值的设定要根据当前季节的大气温度变化范围和一天中的时间确定。集合异常是包含多个相关的数据实例的异常, 是多个数据实例的集合。 集合中单一数据实例不被认为是异常,但这些数
22、据实例同时出现就构成了集合异常。(3)数据标记对于点异常检测,每个数据实例都可以有一个分类标记,用来标记该数据实例是否正常或异常。 给数据实例做标记的工作一般由领域专家来完成,被标记的数据实例的集合称为训练数据集(trainingdataset)。根据数据实例被标记的情况,异 常数据 检 测技 术可分 为以下 三 类 :有监督 (supervised)异常 检测 ,半监 督(semisupervised) 异常检测和无监督 (unsupervised) 异常检测。对于有监督异常检测,训练数据集存在,且其中既包括标记为正常的数据实例,也包括标记为异常的数据实例。利用训练数据集构造一个分类预测模型
23、,把标记未知的数据实例输入该模型,根据模型输出判断该数据实例是否异常。对于半监督异常检测, 训练数据集存在, 且其中只包括标记为正常的数据实例。利用训练数据集构造一个预测模型, 把标记未知的数据实例输入该模型,根据模型输出判断该数据实例是否能属于正常分类,不属于任何正常分类的数据实例一律标记为异常。 对于无监督异常检测, 不需要训练数据集, 但需要假设正常的数据实例在数量上要远远多于异常数据实例。(4)输出类型异常检测算法有两类典型的输出: 分值(score)和标记 (label)。 前一类算法依据一定的标准,给训练数据集中的每个数据对象(即数据实例或构成集合异常的数据实例的集合 )标记一个分
24、值,并且输出一个按分值排序的可能的异常数据对象列表。领域专家可以在此基础上最终确定异常数据对象。后一类算法直接把每一个数据对象标记为正常或异常,不需要领域专家的直接参与。2.3 异常数据检测方法随着对异常挖掘研究的深入, 对应于不同的应用领域出现了许多异常数检测方法,参考大量研究成果, 本节简要介绍了常用的八种异常检测算法的基本技术思路及部分方法的优缺点。 前面七类主要是针对点异常检测做的归纳,但这些检测算法也经常适用于集合异常的检测,最后一类是讨论上下文异常的检测。(l)基于分类的异常检测基于分类的异常检测基本都是分为两个阶段,即训练阶段和检测阶段。在训练阶段,算法利用训练数据集中的数据对象
25、,构造分类器模型。在检测阶段,测名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 15 页 - - - - - - - - - 7 试数据集中的数据对象被输入分类器,根据分类的结果判断是否是异常数据。分类器可以基于规则、神经网络、贝叶斯网络和支持向量机等技术来实现。按照训练样本有标记种类个数的不同,基于分类的方法分为有监督的方法和半监督的方法。基于监督学习的分类方法最常用的方法是基于支持向量机的方法,基于支持向量机的方法不需要事先对数据作任何假设,也不需要任何的预设参数,但
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年传感器异常数据处理 2022 传感器 异常 数据处理
限制150内