物理信息深度学习：一种有潜力的系统可靠性评估技术

如何在深度学习与系统可靠性评估间建立联系？本次分享的文章中作者提出了一种新颖的基于深度学习的系统可靠性评估框架，并构建了促进不确定性量化和传播、同时能够将测量数据融合纳入到可靠性评估中的物理信息生成对抗网络。实验结果表明，该方法在处理确定性场景时，与广泛使用的Runge-Kutta方法和蒙特卡洛模拟具有相当的性能；在处理概率场景时，在不确定性量化方面的计算效率是蒙特卡罗模拟的16.5倍，并且能够有效融合测量数据。

论文标题：Physics-informed deepl learning: A promising technique for system reliability assessment

作者信息：周涛涛，Enrique Lopez Droguett，Ali Mosleh

发表期刊：Applied Soft Computing（中科院分区计算机科学二区，Top期刊，IF=8.263）

论文链接：

https://www.sciencedirect.com/science/article/abs/pii/S156849462200446X?via%3Dihub

背景

1.1物理信息生成对抗网络（PIGAN）

物理信息神经网络（PINN）原理及更多内容可参考公众号往期推文《物理信息神经网络(PINN): 解决涉及非线性偏微分方程正逆问题的深度学习框架》，现处于发展的早期阶段，其基本思想是使用神经网络作为所需解决方案的通用逼近器，根据特定领域的知识（如偏微分方程描述的物理模型）设计损失函数来约束训练过程；基于物理信息的生成对抗网络（PIGAN）使用类似框架，通过概率的利用观察结果和基础物理模型来解决正向和逆向问题，在改进不确定性量化来实现稳健可靠的预测方面具有一定优势。PIGAN的选择将根据具体问题的规模和可用的计算资源而有所不同，主要研究包括：（1）如何将领域知识嵌入到生成器或判别器中；（2）采用不同类型的GAN来提高训练稳定性。

1.2系统可靠性评估

系统可靠性评估的目标是对具有多个组件的系统的可靠性进行建模，常见策略为首先分析组件的可靠性，然后根据适用的系统结构聚合各个组件的可靠性来量化系统可靠性。传统方法包括使用如应力强度模型的物理方法或威布尔分析的精算方法。显然这两种基于组件和系统状态是完全失败和完全运行的二进制表征方式存在缺陷，为了更真实的了解系统可靠性，通常（1）将系统状态视为连续变量，使用连续随机过程对其演化进行建模；（2）将系统状态视为离散变量，使用离散随机过程对其演化进行建模，也称为多状态模型；（3）将系统状态视为具有连续和离散特征组合的变量。

其中，多状态模型可以根据工程系统的功能模式、故障模式或性能下降，通过一系列离散级别来自然地表示工程系统的状态。例如，水泵的状态可以根据其故障模式来定义：启动失败、运行失败、停止失败和外部泄漏；根据不同的发电容量水平定义发电单元的状态；根据服役期内的腐蚀程度确定输电管道的状态等。在可靠性应用中，多状态模型在数学上通常由马尔可夫或半马尔可夫过程表示，系统状态是有限数量的离散级别，系统可靠性演化基于在每个状态上花费的时间和状态之间的转换。目前的方法主要存在以下两个问题：

（1）系统可靠性演化的数学模型表示，如：用于描述潜在故障机制的偏微分方程，以及使用一组常微分方程表征状态转换的马尔可夫过程通常难以解析求解，尤其是当关键应用需要不确定性分析时，使用微分方程求解器和蒙特卡洛模拟等数值方法计算成本很高；

（2）无法整合通过检查和维护活动收集的测量数据。

在本次分享的文章中，作者通过在可靠性评估领域引入物理信息神经网络，建立了新颖的系统可靠性评估深度学习框架，为测量数据与基础物理模型的结合提供了新的视角，并减轻了不确定性量化中的计算挑战。

方法介绍

假设系统状态是连续观察的，并且状态转换可以随时发生，系统状态转换率仅取决于系统因性能下降和/或维护干预而运行的时间量，系统性能由有限数量的状态表征 $S=\left\{0,1,...,j,...,M\right\}$ ，参数 $\lambda_{i,j}(t)$ 动态反映在 t 时刻从状态 i 转换为状态 j 的转换率。表示时刻 t 对应的状态转换率矩阵Q(t)如公式（1）所示：

$Q(t)=\left[\begin{array}{cccccc}-\lambda_0(t) & \lambda_{0,1}(t) & \ldots & \lambda_{0, j}(t) & \ldots & \lambda_{0, \mathrm{M}}(t) \\\lambda_{1,0}(t) & -\lambda_1(t) & \ldots & \lambda_{1, j}(t) & \ldots & \lambda_{1, \mathrm{M}}(t) \\\ldots & \ldots & \ldots & \ldots & \ldots & \ldots \\\lambda_{j, 0}(t) & \lambda_{j, 1}(t) & \ldots & -\lambda_j(t) & \ldots & \lambda_{j, \mathrm{M}}(t) \\\ldots & \ldots & \ldots & \ldots & \ldots & \ldots \\\lambda_{M, 0}(t) & \lambda_{M, 1}(t) & \ldots & \lambda_{M, j}(t) & \ldots & -\lambda_M(t)\end{array}\right]\tag{1}$ 其中， $\lambda_i(t)=\sum_{j \in S,j \neq i}\lambda_{i,t}(t)$ 。每个时刻 t 的系统状态由概率向量表示，即 $p(t)=\left\{p_0(t),p_1(t),...,p_j(t),...,p_M(t)\right\}$ ，其中 $p_j(t)$ 表示系统在时刻t处于状态j的概率，因此 $\sum_{j=1}^{M}p_j(t)=1$ 。系统的状态概率根据由一组微分方程组成的前向Kolmogorov方程导出，其中参数由公式（2）中的转换率矩阵和状态概率向量决定，通过汇总认为系统是正常运行的状态概率来确定系统的可靠性。

$p$ $p(t=0)=s_0\tag{3}$ 其中，p'(t)是p(t)关于系统运行时间t的导数；p(t=0)为初始条件 $s_0$ ，表示零时刻的系统状态。

2.1 系统可靠性评估的深度学习框架

如下图所示，将系统属性编码到神经网络的配置和训练中：

通过学习一个连续的潜函数作为考虑可能的系统转换和初始条件的系统可靠性的解决方案，使得人们能够在任务时间之前的任何时刻评估系统可靠性。

如图所示有两个共享参数的神经网络，参数近似于系统状态概率并获得其关于系统运行时间的导数，神经网络具体设计如下：

使用神经网络 $N_\theta(t)$ 作为系统可靠性估计p(t)的近似，其中 $N_\theta(t)$ 表示由 $\theta$ 参数化的神经网络，全局时间t作为神经网络输入，输出层中的神经元数量与系统状态数量相等，并且在输出层使用SoftMax激活函数提供关于每个系统状态的概率，这隐含满足了系统所有状态概率和为1的约束；
建立诱导神经网络 $N_{\theta}$ 获得系统状态概率p'(t)的导数，其中 $N_{\theta}$ 是一个采用自动微分法的基于 $N_\theta(t)$ 的诱导神经网络。

约束神经网络训练过程以满足公式（2,3）所示的系统初始条件和系统状态转换模型，因此结合两个残差项构造复合损失函数：

$\begin{aligned} L(\theta)=&(N_{\theta}(t=0)-s_0)^2+\& \lambda[\frac{1}{N_r}\sum_{i=1}^{Nr}(N_{\theta}(t_i)\cdot Q(t_i)-\frac{dN_{\theta}(t_i)}{dt_i})^2] \end{aligned}$ 其中，第一项强制神经网络与公式所给的初始条件相同，第二项通过惩罚配置点 $N_r$ 强制执行与系统状态转换一致的训练过程， $\lambda$ 是平衡损失项的权重因子，将此表述为最小化问题并通过基于梯度的优化训练算法训练神经网络：

$\mathop{\min}\limits_{\theta}L(\theta)\tag{5}$ 学习最佳的参数以便对系统可靠性评估的解决方案进行参数化。利用公式（6）评估任何时刻的系统状态概率，其中 $p_j(t)$ 表示时刻t的第j个状态概率。如公式（7）所示，通过聚合一组系统可靠工作的系统状态集合U中的概率得到系统可靠性R(t)：

2.2 系统可靠性评估物理信息生成对抗网络

如下图所示，将系统属性和数据约束编码到网络配置和训练中，在生成器和判别器之间形成对抗性博弈。

通过制定概率设置来学习系统可靠性的概率分布，进而形成一个生成模型产生与数据约束和描述系统可靠性演化的基础数学模型相一致的合成数据。数据约束由在系统生命周期内观察到的测量数据和系统的初始条件施加。

生成器 $N_{\theta_{G}}(t,Z)$ 设计为在给定的随机噪声向量Z和时刻t的情况下产生假数据集，其中Z是具有多变量高斯分布的随机潜变量的集合，用来构建系统状态概率的概率表示，假数据近似满足由公式（2）描述的基本状态转换。与2.1部分相同，生成器有额外的损失项来约束学习过程与测量数据保持一致。系统真实测量数据用 $[t_j, y (t_j)]$ 表示，其中 $j=1,2...N_d$ ，系统的初始条件也被视为一种测量数据，二者结合为 $[t_k,y(t_k)]$ ，其中 $k=0,1,2...N_d$ ， $y(t_0=0)=s_0$ 。生成器的损失函数如下公式（8）所示。第一项欺骗判别器将假数据集标记为真实数据，第二项约束生成的假数据与测量数据一致，第三项根据领域知识施加约束：

$\begin{aligned} L_G(\theta_G)=&\frac{1}{N_d+1}\sum_{k=0}^{N_d}\log(1-N_{\theta_{D}}(t_k,N_{{\theta_{G}}}(t_k,z_k)))+ \&\frac{1}{N_d+1}\sum_{k=0}^{N_d}(y(t_k)-N_{\theta_{G}}(t_k,z_k))^2+ \& \lambda[\frac{1}{N_r}\sum_{i=1}^{N_r}(N_{\theta_{G}}(t_i,z_i)\cdot Q(t_i)-\frac{dN_{\theta_{G}}(t_i,z_i)}{dt_i})^2] \end{aligned}$ 判别器 $N_{\theta_{D}}(t,u)$ 旨在区分生成模型生成的假数据集和从测量中收集的真实数据集。判别器损失函数如下方程（9）所示，第一项最大化以正确分类真实测量数据，第二项最大化以正确检测生成器产生的假数据集：

$\begin{aligned} L_D(\theta_D)=&\frac{1}{N_d+1}\sum_{k=1}^{N_d}\log(N_{\theta_{D}}(t_k,y(t_k)))+\& \frac{1}{N_d+1}\sum_{k=0}^{N_d}\log(1-N_{\theta_{D}}(t_k,N_{\theta_{G}}(t_k,z_k))) \end{aligned}$ 在生成器与判别器间分别使用 $L_G(\theta_G)$ 与 $L_D(\theta_D)$ 两个相互博弈的损失函数，推导出对抗训练规则来更新向量 $\theta_D$ 与 $\theta_G$ 中包含的未知模型参数，通过交替优化公式（10,11）中的两个目标来训练PIGAN：

当PIGANs模型训练成功后，考虑到测量数据和不确定性，生成器 $N_{\theta_{G}}(t,Z)$ 可被用来模拟系统的可靠性。其中，系统的可靠性评估是通过生成器随机前向通道抽取N个样本来完成的，通过公式（12）中关于每个样本的预测平均值来确定第j个状态概率的点估计，用公式（13）中的双标准偏差的区间来描述第j个状态概率的不确定性:

假设系统在一组状态集合U中可靠工作，通过汇总U中的状态概率计算系统可靠性的点估计和不确定性：

实验

一个双处理器计算系统的安全模型通过{0,1,2,3} 4种可能的状态进行退化，下图描述了各状态之间可能的状态转换：

随着系统状态从0到3的增加，系统不断退化到出现安全或不安全的故障。系统在状态0和1时认为是可靠的，因此通过计算状态0和1的概率和来计算系统的可靠性。每个状态定义如下：①状态0，两个处理器满负荷工作；②状态1，两个处理器中的任何一个出现故障，系统以降级模式工作，可以被成功检测到（概率 $c_2$ ）；③状态2，系统在降级状态下运行，另一个处理器故障导致安全关闭（概率 $c_1$ ）；④状态3，由于两种情况，系统出现不安全的故障：两个处理器中的任何一个出现故障，但未被发现（概率 $1-c_2$ ）与当系统在退化状态下运行时，另一个处理器故障导致系统进入不安全状态（概率 $1-c_1$ ）。不同状态间转换遵循威布尔分布，并且转换率为 $\lambda(t)=\lambda_0\alpha t^{\alpha -1}$ ，其中t是系统的运行时间。因此形成了一个非齐次的连续时间马尔可夫过程，其中的转换率取决于系统的运行时间。设定 $c_2=0.9$ , $c_1=0.9$ , $\lambda_0=0.01$ 和 $\alpha=2.0$ 。相应的转换率矩阵为：

3.1 不确定性量化预测

下图分别展示了对系统状态概率和系统可靠性的不确定性量化的预测结果，利用所提出的方法和利用蒙特卡洛模拟方法所取得的结果保持一致。虽然在每个状态概率的平均预测和不确定性约束中都观察到了一些偏差，但这种偏差可以归因于蒙特卡洛模拟和神经网络配置所带来的不确定性。可以通过增加蒙特卡罗模拟的重复次数和迭代次数，以及加强网络配置和训练过程进一步减少这种不一致性。

3.2 融合测量数据后的可靠性演化趋势预测

根据2.2节中所提方法将合成测量数据纳入系统可靠性评估，这将反过来导致系统的可靠性演化，在不同的检测时间段产生合成测量数据来反映与基线系统的性能偏差（更好或或更差）。据此可以启发式地评估模拟系统的可靠性演化趋势，如果更新的可靠性演化趋势与用于生成这种合成测量数据的假设一致，那么可以认为所提出的方法在纳入系统服务寿命期间收集的测量数据方面是有效的。下图分别展示了性能较差系统和较好系统在纳入合成测量数据后的可靠性演化。

由图可知，该方法一般可以捕捉到系统的可靠性低于或大于基线情况的趋势；且随着两个系统融合更多的检测数据，模拟的系统可靠性曲线和基线系统可靠性曲线之间的距离逐渐变大，说明更多的测量数据使模型更有信心推断出模拟系统与基线情况不同。

总结

针对马尔科夫系统，作者提出了一种基于物理信息的深度学习方法将深度学习和系统可靠性评估联系起来，通过数据约束和描述系统可靠性演化的物理模型之间的对抗博弈制定深度概率设置，将不确定性量化和测量数据纳入系统可靠性评估。为了约束神经网络的训练过程，设计了相应的损失函数，并与蒙特卡洛模拟等基线方法进行了广泛的实验比较，结果验证了该方法在融合测量数据方面的有效性及在计算效率方面的优越性。

撰稿｜丁永杰

内容校对｜葛世寅陈晖萱

排版｜郑楠

责任编辑｜郭旦怀

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。