机器学习在管道完整性管理中的应用综述.docx
《机器学习在管道完整性管理中的应用综述.docx》由会员分享,可在线阅读,更多相关《机器学习在管道完整性管理中的应用综述.docx(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、机器学习在管道完整性管理中的应用综述本文对机器学习(Machine Learning, ML)在管道完整性管理(Pipeline Integrity Management, PIM)中的应用进行全面的文献综述。综述了机器学习在 管理和处理PIM活动产生的数据方面的应用。调查了在PIM过程要素(例如检 测、监控和维护)中的ML应用。研究了应用于PIM每个环节的ML技术(即 输入类型、预处理、学习算法、输出和评估度量)的各个方面。还讨论了 ML在 PIM中应用的当前研究挑战和未来研究机遇。本文的研究文献来源有期刊和会议,关于ML在PIM中的应用的研究分散 在26种期刊和8个会议上,涉及多个领域,包
2、括过程平安、NDT、仪器和测量、 腐蚀工程、建筑、智能系统等。研究所涵盖的广泛领域证明了该学科的多学科性 质。1理论背景管道完整性管理(PIM)的实施旨在降低因退化导致的故障风险,并维持管 道的功能性和平安性。PIM包括一组用于评估管道运行条件的活动。由于管道的 长度以及用于评估管道状况的传感器和工具的数量,这些活动产生的数据量大、 速度快、种类多。这些挑战使得手动和常规数据分析变得复杂、容易出错且耗时。 此外,从数据中发现有意义的模式和见解变得非常具有挑战性。ML已成为消化 海量数据集以提取信息和知识的关键方法。ML有潜力通过提高生产力、提供自 主信息处理、减少对手动和常规数据分析的依赖、协
3、助管理和评估高容量、高多 样性和高速数据来创立精益的PIM流程。尽管ML在PIM中的应用吸引了从业 者和研究人员的大量关注,但信息仍然处于孤立状态。目前还没有任何文献能够 全面概述在PIM中应用ML的情况。2管道完整性管理流程管道完整性可以定义为管道在不损害环境、人员和企业本身的情况下运输 石油产品的能力。因此,PIM可以被描述为一系列过程/活动,这些过程/活动旨 在维持管道在整个生命周期内的完整性,并确保其运行符合适用的行业规范和 法规。通过控制相关损坏机制,正确实施PIM有望降低管道故障风险。PIM流程通常包括四个主要环节:(1)检查、监控和测试,(2)完整性评估, (3)缓解、干预和修复
4、,以及(4)风险评估和完整性管理(IM)规划。这些环 节形成一个闭环。ML是一项科学研究,它使计算机能够模仿人类的智能来发现知识,并通过充领域知识,可以使用El Abbasy等人和El Abbasy等人所述的过滤器类型的特 征选择。El Abbasy等人使用NN的权重向量,而El Abbasy等人使用描述LNR 模型的度量。3.3.3 PIM中使用的学习算法类型下面简要介绍三种最常用的技术:神经网络(NN)是一种ML算法,最初是通过使用一组简单的相互连接的 神经元或节点来模拟人脑的神经系统。NN模型能够解决复杂的回归和分类问题, 因为它们能够发现输入和输出之间的非线性关系。文献中使用了五种类型
5、的神 经网络:MLPNN RBFNN WBFNN、PNN 和 GLMNN0 MLPNN 是最流行和 通用的神经网络体系结构,已应用于许多学科,包括医疗、金融、工程和营销。 类似地,MLPNN是PIM领域中最常用的NN体系结构,并且已经在PIM中的 每一类ML应用程序中实现。RBFNN与MLPNN的不同之处在于其激活函数。 在PIM中,RBFNN已用于缺陷尺寸确定、泄漏检测和腐蚀速率预测任务。 WBFNN的使用仅限于模型输入由MFL传感器信号组成的情况。WBFNN结合 了传统的神经网络和小波分析,这已被证明对分析时间序列数据和执行信号处 理有价值。PNN已用于构建泄漏检测系统。PNN不仅能够就是
6、否存在泄漏作出 决定,还能够评估所作决定的不确定性。GLMNN使用传统的线性回归模型,也 用于开发泄漏检测系统。支持向量机(SVM)的基本原理是,通过应用核心技术,用最优超平面(即 类间隔最大的子空间)别离一组给定的标记实例,这些实例表示为特征空间中的 点。在管道完整性管理主题中,SVM已用于四种分类任务:基于ECT信号的缺 陷分类,基于压力和流量数据的检测的泄漏分类,基于振动信号的泄漏预警系统 开发,以及基于超声波信号的缺陷严重性检测和评估。除了普通的支持向量机外, 研究还采用了四种不同的支持向量机算法:PSO-SVM、AI-SVM、Euclidean-SVM 和 Fuzzy-SVM。PSO
7、-SVM、AI-SVM 和 Euclidean-SVM 被认为适合用于在线应 用和管道的连续监测,因为它们能够高效地训练模型(即更少的训练时间、内存 和计算能力),而不会牺牲模型的预测性能。PSO-SVM使用PSO算法来提高选 择核函数和相关参数的效率和有效性。Euclidean-SVM的设计减少了对核心函数 和参数选择的依赖,从而减少了参数优化阶段的复杂计算。AI-SVM仅使用新获 取的数据来训练模型,而不会牺牲大局部分类性能,从而减少了计算本钱高昂的 批量数据处理。Fuzzy-SVM使用模糊核函数,提高了模型的训练时间和分类精 度。表2每个PIM任务类别中使用的预处理类型特征提取信号去噪特
8、征选择特征 变换数据 融合检 测MFL时域、FT、WT中值滤波器,LMS自 适应滤波器,小波变 换,移动平均滤波器, Savitzky-Golay 滤波器PCA,支持向量机 的权向量特征融合UTWT、GT、FT、CTWT遗传算法,主成分 分析,显著性检验缺陷 异常 检测ECT高斯一牛顿算 法,列文伯格- 马夸特算法, 小波变换WT泄漏检 测系统时域、WT粗糙集标准化决策 融合监 测缺陷检 测系统小波变换,傅 立叶变换,希 尔伯特变换主成分分析管道监测系统STFT标准化瀚性评(古、 风险评估和 imMiJ腐蚀速率 预测GRA、领域知识标准化风险评估 和IM规划状态与失效 预测领域知识,基于LNR
9、 的变量排序,神经网 络的权重向量规范化线性回归(LNR)是一种线性方法,用于寻找一个或多个自变量与因变量之 间的关系。LNR旨在找到一组描述最正确拟合直线的参数,该直线基于观测的因 变量和自变量数据集将总误差降至最低。LNR只能用于回归任务。用于分类任 务的回归模型为LR。在管道完整性管理中,LNR已在基于MFL信号、故障类 型预测和条件预测的缺陷检测和尺寸确定中实现。3.3.4 PIM中使用的评估指标类型分类精度(accuracy)是分类任务中最常用的评估指标。分类精度评分的计 算方法是将正确预测数除以预测总数,适用于描述ML模型的总体性能,但对于 不平衡的类别分布和不同的误分类本钱而言,
10、它有严重的局限性。因此,应结合 其他指标,以弥补其缺乏。然而,大多数研究仅依靠分类精度评分来评估ML模 型在分类任务中的性能。混淆矩阵通常用于通过将模型做出的决策分为四类来 补充准确度得分:真阳性、假阴性、假阳性和真阴性。与分类精度评分不同,混 淆矩阵对类别分布和误分类本钱不敏感。但是,不适合使用混淆矩阵在不同模型 之间进行性能比拟,因为它不是由单个标量值表示的。Cruz等人使用接受者操作特性曲线(ROC)和效率产品(EP)作为评估指标。ROC曲线通过绘制模型 在不同决策阈值下的真阳性率和假阳性率来可视化和评估模型的性能。ROC曲 线下的面积越大,模型的性能越好。与混淆矩阵类似,ROC曲线对类
11、别分布和 误分类本钱不敏感。同时,EP用于评估ML模型将实例分类为不同类的能力。 EP用于多类分类设置。在强化学习中,维修本钱、故障本钱和寿命延长被用作 主要回报函数。通过文献分析,回归任务中的评估指标分布比分类任务中的更分散。MAE、 RMSE和R2是回归任务中最常用的指标,主要用于故障类型和条件预测任务。 3.3.5 PIM中使用的输出类型研究中使用的输出类型可以根据研究中使用的ML任务类型进行分类,即 二元分类、多元分类和回归。讨论检测系统开发(例如缺陷检测和泄漏检测)的研究通常是二元分类任务, 旨在将实例分类为两个输出类。对于建立缺陷检测系统的研究,输出通常为“缺 陷”或“非缺陷”,对
12、于建立泄漏检测系统的研究,输出通常为“泄漏”或“无 泄漏”。对于讨论分类系统开展的研究(例如缺陷分类、严重性分类、管道完整 性威胁分类和故障类型预测),该研究通常侧重于多元分类任务,旨在将实例分 类为三个或更多输出类之一。这些研究中的输出类型检测系统更为多样。例如, Simone等人和Cruz等人开发了一种基于UT技术的钢焊接接头缺陷检测系统。 虽然这些研究有相同的目标,但他们选择的输出类是不同的。Simone等人使用 “裂纹”、“沉头孔”和“根焊”作为输出类别,而Cruz等人选择“未焊透”、 “夹渣”和“气孔”作为输出类别。回归任务的研究(例如缺陷大小和腐蚀速率预测)的输出是连续值。例如,
13、在讨论腐蚀速率预测的研究中,模型的输出是估计的腐蚀速率。在关于利用强化学习优化维修计划的研究中,输出是应执行的维修行动,以 实现预期可靠性,同时最小化维修本钱。4当前研究挑战和未来研究机遇在PIM中应用ML的研究挑战之一是难以从管道中获取实际运行数据。大 多数研究使用模拟数据作为ML模型的输入。实际数据优先于模拟数据,因为模 拟数据可能无法代表实际管道运行。然而,实际数据可能不可用或被认为不可行 (例如,由于其机密性和敏感性)。因此,确保数据生成模拟尽可能接近实际情 况至关重要。模拟数据的利用产生了另一个挑战,涉及到所开发的ML模型对实际管道运行的适用性。如前一段所述,存在模拟无法反响实际管道
14、运行状况的风险。因 此,根据该模拟数据开发的ML模型可能不适用于实际管道运行。因此,重要的 是进行验证测试,以确保开发的ML模型适用于实际管道操作。目前大多数研究使用NN、LNR和/或SVM作为学习算法。未来的研究应通 过包括集成技术(即利用多种学习算法开发ML模型)来扩展学习算法的选择。 集成技术的一些例子有AdaBoost梯度提升决策树算法(Gradient Boosting Decision Tree, GBDT)和随机森林。在所有已确定的研究中,只有两项使用集 成技术。据报道,集成技术比单独学习算法产生更好的预测性能。大多数研究将分类精度作为分类任务的主要评估指标。分类精度提供了有 关
15、ML模型总体性能的信息,但当涉及到不平衡的类别分布和不同的误分类成 本时,分类精度具有严重的局限性。在分类任务类别中确定的所有研究中,只有 四项研究使用其他指标(即混淆矩阵、ROC和EP)来弥补准确度指标的固有缺 陷。在未来的研究中,分类精度指标的使用应该与能够弥补其弱点的其他指标相 补充,特别是当原始数据具有不平衡的类别分布和比照错误分类本钱时。可用于 补充准确性的一些评估指标是精确度、recall、ROC和EP。目前已确定的研究侧重于PIM过程的三个要素(即缺陷/异常检测、完整性 评估、风险评估和IM规划)。没有研究讨论ML在风险降低措施类别中的应用。 未来的研究应包括在缓解、干预和修复管
16、道中使用MLo未来的研究还应调查如 何在PIM活动中进一步实施强化学习。5结论PIM包括一组用于评估管道运行条件的活动。ML在PIM中的应用正引起 人们的广泛关注,因为ML能够消化海量数据集并从原始数据中提取信息和知 识。ML已在三类PIM任务中实施:缺陷/异常检测、完整性评估、风险评估和 IM规划。在缺陷/异常检测类别中,ML已用于检测和监控任务。在检测任务类 别中,ML用于处理从检测工具(即MFL、UT和ECT)获取的信号,以执行诸 如缺陷检测、缺陷分类和缺陷尺寸确定等任务;在监控任务类别中,ML已用于 开发泄漏检测系统、缺陷检测系统和管道监控系统;在完整性评估中,ML用于 预测腐蚀速率和
17、腐蚀缺陷深度;在风险评估和IM规划类别中,ML已用于腐蚀 速率预测、故障预测、状态预测、维修计划优化。两类数据(基于其来源)被用作研究的输入:模拟数据和实际/历史数据。模 拟数据明显比实际/历史数据突出。研究中使用了五种类型的预处理:特征提取、 信号去噪、特征选择、特征转换和数据融合。NN、SVM和LNR是研究中使用的最主要的学习算法。研究中使用的输出可以根据研究中使用的ML任务类型进 行分类,即二元分类、多元分类和回归。分类精度是分类任务中最常用的评估指 标。同时,回归任务中不存在单独的评估指标。在强化学习中,维修本钱、故障 本钱和寿命延长奖励被用作主要回报函数。ML的主要作用是自动分析检测
18、和监测数据,减少人工管道状态评估固有的 主观性。ML有助于用机器代替人力,以执行需要高水平资质和认知技能的高度 复杂的任务。ML通过提供自主的数据和信息处理,减少人工评估固有的主观性, 减少评估者与评估者之间的输出变化,协助管理和评估大量高速数据,从而创立 精益PIM流程,以及确定影响管道完整性的因素之间的复杂非线性关系。在未来,进一步的研究工作将致力于开发ML模型,使用集成技术,研究强 化学习在PIM活动中的进一步应用,并探索更好地评估ML模型性能的不同指 标。经验和周围环境的自动学习来促进基于数据的决策。ML使用数据驱动的方法, 旨在基于特定数据集构建因变量和自变量之间的计算关系。ML依靠
19、高效的学习 算法、大型数据集和大量的计算性能,从原始数据中发现信息和知识。由于ML 能够从海量数据集中做出预测并揭示隐藏的信息,因此它是大数据分析的关键 要素之一,被认为是大数据时代的主力军。ML已被用于各种数据密集型学科(如 金融、生物信息学、电子商务、工程、健康和医学等),用于许多应用,如数据 挖掘、推荐系统、信息检索、自主控制系统和自然语言处理。图1显示了典型的ML模型开发过程。ML通常包括两个主要阶段:学习和 预测。在学习阶段,模型学习根据给定的输入或数据集进行推理。学习阶段是模 型逐渐获得其预测能力的阶段。学习阶段包括三个主要步骤:预处理、学习和评 估。ML模型的输入通常是不完整、不
20、一致、非结构化且包含噪声的原始数据。 预处理步骤通过使用数据清理、集成、缩减、转换、提取和融合,将原始数据转图1改编自Zhou等人的ML模型的开发过程图1改编自Zhou等人的ML模型的开发过程换为机器可读格式, 从而确保原始数据 准备好用于培训步 骤。训练步骤包括选 择模型的学习算法、 优化模型的超参数 以及使用预处理的 数据集训练模型。然 后在评估阶段通过性能指标(如准确性、精确度和回报率)检查模型的性能。在 预测阶段,将部署性能最正确的模型,以基于新数据集进行预测。基于学习系统可用反响的性质,ML领域可分为三个子领域:(1)监督学习, (2)无监督学习,(3)强化学习。图2给出了 ML技术
21、的分类。每个ML子域 的简要描述如下:监督学习:监督学习通过将自变量与因变量映射,推断一组自变量与因 变量之间的关系。神经网络、支持向量机、决策树和k-近邻是监督学习中常用的 算法。监督学习可以分为两类:分类和回归。当因变量是一组有限的离散值时, 问题被归类为分类问题。在PIM中,分类通常用于泄漏检测、缺陷类型识别和 风险水平预测。当因变量为连续值时,问题被归类为回归。在PIM中,回归用 于估计缺陷尺寸和预测退化率。非监督学习:无监督学习的目标是从包含未知输出变量的输入变量集合2/41图2基于学习反响性质的ML技术分类的数据集中发现模式 或隐藏结构。聚类是 一项无监督学习任 务,旨在将对象划分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 管道 完整性 管理 中的 应用 综述
限制150内