美林数据技术专家团队 | 工业大数据分析PHM实战—设备异常监测方法
Q:什么是设备异常监测?
A:设备异常监测,是对关键设备运行进行实时/准实时观测,输出被观测设备与预期模式不匹配的信息。
Q:为什么要关心设备异常监测方法?
A:出于以下三个原因,我们必须对设备异常监测方法给予重点关注:
01 设备异常监测是重要的工业业务需求
关键设备是工业生产运行的核心构成,其运行出现异常会在多方面造成重大影响。因此对关键设备建立运维机制以保障其平稳可靠运行是关键设备利益相关方的必然举措。然而当前的设备运维方法存在以下一些问题:
▶ 基于人的检验难以保证可靠性
这既包括人在观测中可能产生主观偏差,也包括设备中存在大量核心组件无法直接被人观测到的情形。
▶ 基于机理的监测难以扩展
使用科学方法,可以建立对轴承、齿轮等关键零组件的监测能力,准确识别这些零组件的早期性能衰退问题。但科学方法复杂度高,目前常用于若干类特定研究对象,难以泛化到系统级异常监测。
▶ 既有的设备异常监测方法难以应对关键设备的复杂化、智能化
传统设备异常监测通常是基于设备机理特性与运维经验所构建的专家系统,结合维保人员的定期检验。其中专家系统通常由大量阈值检验,条件规则及逻辑判断组成。当设备运行状态复杂度提升时,专家系统的复杂度急剧上升,使得系统开发困难,且容易造成错漏。而人员定期检验既造成冗余重复工作,也容易产生误差。
基于上述原因,寻找合理的异常识别手段,构建满足当前关键设备运维需求的设备异常监测能力是工业从业者的迫切需求。
02 设备异常监测技术在数据驱动的PHM系统中起到重要作用
设备异常监测是PHM(故障预测与健康管理)系统的重要构成之一,除了其自身作为监测设备运行是否存在异常这一业务功能外,其对PHM中其它算法构建与业务设计也起到辅助作用:
▶ 对突变故障与缓变故障的区分
设备故障可以按照发生前有无预兆区分为突变故障与缓变故障。简单的说,缓变故障可以经由感知设备运行的数据进行分析识别,而突变故障在发生前并没有可被感知到的信息因而无从预知。突变故障的产生有机理的原因,比如脆性材料的疲劳断裂确实难以预知,也有数据感知不全的原因,如设备存在难以接触到的位置无法监测其状态。
无论如何,突变故障都是难以监测和预防的严重问题,必须采取特别的应对措施。好的设备故障监测算法可用于分析设备运行历史数据中,发生某种故障之前的数据与正常数据之间的差异。如果这一差异微小到不足以被识别,那这种故障可以被认为属于突变故障。再根据该故障的影响规划相应的应对方案。
▶ 辅助故障分类模型训练数据标注
在PHM系统中,除需要识别出系统运行的异常外,通常还要求根据异常数据识别系统可能会发生什么样的故障,以形成应对措施。在数据驱动的实践中,基于运行数据判别设备的故障类型通常使用人工智能分类方法。
这类方法以历史数据中相似故障发生前的设备运行数据做为数据集,训练出最小泛化误差的神经网络或支持向量机等分类模型,并在后续设备运行中基于其实时数据判别设备出现了哪类故障。在运维记录中,一般只能得到设备故障的发生时间点与排除报告提交的时间点,如下图所示,这两个时间点相关设备故障完全显现的时刻与运维人员提交报告的时刻。
如果我们以这个时间段的设备运行数据作为训练集,则其既包含了不相容的多种数据类别,又不适用于故障未显现前的趋势判别。而后者是PHM系统重点关注的系统功能。为避免这种不相容数据集,就需要使用设备异常监测算法对设备历史运维数据进行分析,准确地获取最合理的分类用历史数据截取时间点。
03 设备异常监测算法目前仍属于技术研究前沿
从技术的角度看设备异常监测方法,可以将其分为基于机理的方法与数据驱动的方法两类。其中基于机理的方法如前所述,存在复杂度高与难以泛化的问题。而数据驱动的设备异常监测方法收益于近来快速发展的物联网和人工智能技术,对处理问题提供了新的思路。
并且,数据驱动的方法在智能制造领域表现优异,已经取得了许多成就。同时,数据驱动方法目前还处于研究、发展阶段,其在工业领域的应用还有待进一步检验。总的来说,我们认为以下工业领域特点对设备异常监测方法构建产生影响:
▶工业设备监测数据有其特殊性
具体而言:数据结构上包括高维度、多模态、时序性强、采样率不一致等特点;数据统计特性上包括信噪比低、数据分布单一、内禀低维流形嵌入、缺少标签与特性描述等特点。
这些特性都影响到设备异常监测方法设计,一般而言,这些特性通常会降低异常监测算法准确识别问题的能力。此外,工业数据的获取与存储等特性也会影响到设备异常监测方法乃至其所在的整个PHM软件架构设计,这方面本文暂不讨论。
▶ 设备异常监测方法关键共性技术
如上所述,设备异常监测工作有其特殊的数据特征、业务需求以及重要性,因此无法直接使用常见的数据分析算法与策略,需要进行针对性规划。我们认为性能良好满足运维要求的设备异常监测方法的构建涉及下述若干关键共性技术。
1. 数据处理技术
▶ 合理的数据选择
从运行中的设备中可以感知到海量的数据,这些数据有代表某种物理特性的数值数据,表示状态的状态数据以及图像、指令等等。这就是数据的多模态特征。在构建设备异常监测方法时需要引入数据融合方法,将多模态数据转化为便于数据分析,同时能充分表达设备运行状况的标准化数据。在数据选择方面,东京大学的矢入健久教授给出四种应从分析数据中去除的数据:
⇒具有极低采样率的数据。
⇒基本保持常量,方差极小的数据。
⇒仅在特定时间窗口期才能获取的数据(不能提供实时帮助)。
⇒与设备健康无关的数据。
▶ 特征数据构建
对设备进行感知所获取的数据中存在大量表示物理特性的数据,这些数据往往需要进行数据变换,转化为容易识别的特征表达。例如对轴承振动的感知数据应计算抽取其峭度因子,对高采样缓变数据应进行包络解调处理等等。
完成了数据选择后,通常还需要进行数据的预处理,以提升数据质量。这部分工作与数据的信噪比、业务要求有关,暂不讨论。
2. 算法设计考量
除数据处理技术外,在算法设计方面还有以下两方面工作需要加以考量。
▶ 数据降维与聚类处理
通常到这一阶段,数据的维度仍然较高。高维度数据会造成模型收敛速度慢且难以泛化,样本数据量要求高等问题。因此需要对高维度数据进行降维处理。此外,如果设备运行不是总处于一种恒定状态,就应当对设备运行数据进行聚类处理。
这是因为不同运行状态的设备其数据通常会在高维空间中形成不同的集簇,这些集簇表征了设备在每种运行状态下其数据的分布规律。如果不进行聚类分析,则其后建模过程会将其视为一个集簇进行处理,在这种情况下异常往往不容易被发现。
下图是辅助理解这一问题的一个示例。图中左侧数据被划分为两个聚类,右侧数据被划分为一个聚类。两种划分方法会使得算法识别图左中黄色标识的异常数据存在性能差异。
△数据聚类条件下数据取值阈值相对精确,利于发现异常信息
▶算法选择:动态阈值与概率模型
由于工业实际中缺少数据标签,因此设备异常监测算法通常需要使用无监督学习方法。其中传统上一般会选择部分关键变量,使用动态阈值方法去评估设备运行是否正常。这种方法成熟且适用于很多场景,但难以应对具有高度相关性的变量组。
使用主成分分析对数据进行降维后,数据各维度的相关性会显著减少,从而使变换后数据使用动态阈值较为可行,但这仍无法应对前述多种运行模式的设备数据。
为此,可以选择无监督智能化算法构建异常识别模型。为量化表达出数据的异常程度,我们应当避免使用判别式智能模型,而应选择生成式模型,即概率模型去刻画设备运行数据。其中高斯混合模型、基于核方法的非参数概率模型等均是设备运行状态的良好数值描述方法。
3. 必须考虑数值方法与业务机理的结合
由于设备异常监测方法应用于工业实际,因此一定不能单纯的从数学方法或数据分析方法角度考虑工作开展,而必须结合业务实际。这表现在很多方面,前述对算法精确度与召回率的平衡即为一例,针对特定业务对象设计相应的数据特征抽取策略也是如此。
此外再举一例:在数据的聚类时需要考虑设备运行状态与聚类结果之间的相符性。如下图所示,图左与图右是对图中数据两种不同的聚类策略。
其中图左使用了类似kmeans的基于数值间欧式距离的聚类策略,图右的聚类则考虑了数据本身的分布特征,将具有相似分布特征的数据聚为一类。针对设备异常监测需求,这种聚类策略具有显著的优势。
总结
本文从技术角度出发,讨论了作为PHM核心功能之一的设备异常监测方法。说明了这一方法在多个层面上的重要性,并探讨了构建设备异常监测功能所需的关键共性技术。美林数据深耕行业应用,在PHM及相关工业数据分析领域具有丰富经验,愿与各界同仁共同致力于行业发展。