一种基于MDP理论的武器火控系统精度可靠性增强方法研究-AET-电子技术应用

一种基于MDP理论的武器火控系统精度可靠性增强方法研究

2019年电子技术应用第7期

冯楠1，张黎2

1.92941部队41分队，辽宁葫芦岛125000；2.61905部队，辽宁沈阳110000

摘要： 火控系统的精度是一个非常重要的战术技术指标，而惯导系统的可靠性则对保证火控系统的精度起着重要的作用，冗余技术是提高惯导系统可靠性的有力保证。以陀螺仪为例建立了惯性导航设备冗余度优化设计的马氏决策控制模型，并进行了验证分析，证明对此模型应用策略迭代算法的科学性与合理性。仿真结果表明，所建立的模型能够反映惯性导航设备冗余度优化设计的实质，仿真结果能够为SINS(捷联惯性导航系统)冗余结构性设计提供一定的工程参考。

关键词： 火控系统冗余度马尔可夫决策过程可靠性

中图分类号： TP202+.1
文献标识码： A
DOI：10.16157/j.issn.0258-7998.190478
中文引用格式： 冯楠，张黎. 一种基于MDP理论的武器火控系统精度可靠性增强方法研究[J].电子技术应用，2019，45(7)：56-58，62.
英文引用格式： Feng Nan，Zhang Li. Research on accuracy and reliability enhancement method of weapon fire-control system based on MDP theory[J]. Application of Electronic Technique，2019，45(7)：56-58，62.

Research on accuracy and reliability enhancement method of weapon fire-control system based on MDP theory

Feng Nan1，Zhang Li2

1.92941 Army 41 Unit，Huludao 125000，China；2.61905 Army，Shenyang 110000，China

Abstract： Precision of fire-control system is a very important index of tactics and technique, but reliability of inertial navigation system is very important to ensure precision of fire-control system, while redundancy technique is powerful ensure to promote.Model for Markov decision process of optimization of redundancy degree of inertial navigation unit(INU) is established and verified through simulation by MATLAB, and it is presented that using policy iteration algorithm is practical and rational. Simulation results show that the above established model will be competent for design target, and materials presented in this paper have engineering value for design of redundant inertial navigation unit.

Key words : fire-control system；redundancy degree；Markov decision process；reliability

0 引言

武器火控系统精度由火控系统和导弹制导系统两个方面的精度组成，惯导系统可以提供火控系统所需接收的导航信息，并且又是导弹制导系统的重要组成部分，因而惯导系统的可靠性对保证火控系统的精度起着重要的作用。惯导系统的可靠性主要取决于其中惯性仪表的可靠性，所以为了提高可靠性，最早采用的方法是提高单个元器件的可靠性，即设计具有大的平均无故障时间(MTBF)的元器件。这一方法要求更高的加工工艺及更好的加工材料，并且对系统可靠性的提高极为有限。因此，采用冗余技术^[1-11]使系统满足可靠性的要求成为行之有效的方法。这种高可靠性不是建立在严格要求元器件和生产工艺的质量上，而是建立在“冗余”的设计上，允许系统内部存在故障，通过容错设计消除故障的影响，使系统仍能给出正确的结果。敖银辉等人[1]对基于连续时间MDP模型的维护策略产出的效益进行阐述。本文通过结合MDP(Markov Decision Process)马尔可夫决策过程算法理论的研究成果，考虑所设计INU(Inerrtial Navigation Unit)惯性导航设备的可靠度与期望节约成本总体指标意义下，采用霍华特(Howard)策略迭代法给出求解最优INU冗余度的计算方法^[2]。

1 可靠度指标及计算方法

在可靠性理论中，可靠度是指系统、元件等在规定的条件下和规定的时间内正常工作的概率^[3-4]，记为R(t)或R₀(t)。

文献[3]指出，相对于INU而言，配置结构的最基本原则是线性不相关，即要求任意2个传感器的测量轴不共线，任意3个传感器的测量轴不共面。从而，对于INU中陀螺仪冗余配置，只要有3个以上单自由度陀螺仪能正常工作，INU就能准确输出。假设N个陀螺仪是同类型、统计独立的，而系统其他部件都是理想的，可得N个单自由度陀螺仪冗余INU的可靠度R(t)为；

由于安装平台复杂，实际应用中对INU需要定期检测维修，这里假设检测维修时间间隔为0.5年，陀螺仪平均无故障时间(MTBF)为1万小时，则根据式(3)可计算得到陀螺仪单元在维修间隔时间内的可靠度为：

2 基于MDP的INU可靠度增强模型

2.1 MDP算法描述

考虑MDP中最基本的离散时间马尔可夫决策过程(DTMDP)。DTMDP考虑的是五元组^[12-13]：{S，A(i)，p_ij(a)，r(i，a)，V，i，j∈S，a∈A(i)}，各元的含义为：

(1)S称为系统的状态空间，是系统所有可能的状态所组成的非空状态集，它可以是有限的、可列的或任意非空集。

(2)对状态i∈S，A(i)是在状态i处非空的可用的决策集。

(3)当系统在决策时刻点t处于状态i，采取决策a∈A(i)时，则系统在下一决策时刻点t+1时处于状态j的概率为p_ij(a)，它与决策时刻t无关。

(4)当系统在决策时刻点t处于状态i，且采取决策a∈A(i)时，系统于本阶段获得的报酬为r(i，a)。

(5)V为准则函数，也称目标函数。MDP常见的决策目标函数有总报酬准则、无限折扣准则以及无限平均准则等。

系统在t时刻的决策规则π_i是一概率分配函数，它决定可行决策集A(i)中各个决策取为实际决策a的概率，策略π是指一个决策规则列π={π_i}。文中采用MDP中常见的Markov策略^[6]。

2.2 MDP模型描述

根据INU冗余结构配置的特点，把考虑INU即时可靠度与期望节约成本总体指标最大意义下最优INU冗余度的整个选择过程进行状态分解，并表示为以下马氏决策过程的参数形式：

(1)决策时刻与周期

前述分析中，假设检测维修时间间隔为0.5年，由于此检测维修时间间隔已包含在单个陀螺仪的可靠度R₀(t)中，因此可以无量纲时间t来描述，如取t=0，1，2，…，且仅在这些时刻观察系统的状态。例如，第一个阶段所经历的时间为时间区间[0，1]。

(2)状态与决策集

INU冗余结构中，以在某一观察时刻INU中正常工作的陀螺仪个数为状态变量参数。设第k阶段观察到的所有可能状态所组成的集合为X(k)，即X(k)={x₁(k)，x₂(k)，…，x_n(k)}，其中x_i(k)(i=0，1，…，6；k=1，2，…，∞)表示在第k阶段初INU中处于正常工作状态的陀螺仪个数i的期望值。现有公开文献中，INU冗余结构中单个自由度陀螺的最多冗余配置通常为5或6个^[7-8]，所以这里状态选择最大期望值为6，所有期望状态均列于表1。

在第k阶段初始状态为i时，所采取的决策记为a_k(i)，A_k={a_k(i)}为第k阶段初始状态为i时的决策集合。令决策集A(i)={0，1，2，3}，即a_k(i)可选择0、1、2、3，分别表示在k时刻INU中增加0、1、2、3个冗余度。

状态0的决策集为独点集A(0)={3}，表示增加3个冗余度，以使INU满足系统准确输出的最低要求；同理，状态1的可用决策集为A(1)={2}，状态2的可用决策集为A(2)={1}。状态3的可用决策集A(3)={0，1，2，3}。为保证各时刻状态i期望值不大于7，状态4的可用决策集A(4)={0，1，2}，状态5的可用决策集为A(5)={0，1}，状态6的可用决策集为A(6)={0}。

式中，z为单个陀螺仪的代价权值，表示增加陀螺将增加系统成本；P₀表示INU在检测时间间隔内能够使系统准确输出的概率，y为P₀的相应报酬权值。表1中给出了仅考虑期望节约成本的报酬取值。

(4)目标函数

决策目标函数定为无限阶段折扣模型，且折扣因子为β=0.9。系统决策优化准则即是在满足系统准确输出要求的前提下，使INU即时可靠度与期望节约成本总体指标期望值最大^[12-13]。

3 试验分析性能评价

策略迭代(policy iteration)算法也称为策略空间逼近法，它是求解折扣MDP的一个有效方法^[9-11]。策略迭代法分两步进行，即策略求值与策略改进。策略求值就是要求出最优INU冗余度策略的一组相对值，策略改进就是要确定每次迭代的最优决策。每个阶段的最优决策不断迭代，直到第k步与第k+1步迭代有A_k=A_k+1时计算结束，则A_k为最优INU冗余度策略，此时INU冗余度即为最低要求的INU冗余度。

假设INU冗余结构中陀螺可靠度遵守二项分布，根据式(1)、式(4)可得在各状态下采取不同决策的状态转移概率，见表1。状态转移概率根据表1可以更加直接地了解决策选择过程。

根据2.2节建立的模型，利用策略迭代算法，编制了最优INU冗余度选择算法的MATLAB程序。利用这个算法，可对考虑INU即时可靠度与期望节约成本总体指标意义下的目标函数T(z，P₀)进行求解，计算出在不同的回报函数权值影响下，应该确定的系统最优INU冗余度。下面通过实际验证证明本文提出的算法的合理性。

3.1 只考虑系统准确输出情况下的期望节约成本，令y=0，z=-1

将表1中计算条件代入程序，得到策略迭代运算结果如下：

初始策略：F₁=[0 0 0 0 0 0 0]

第一次迭代结果：F₂=[3 2 1 0 0 0 0]

第二次迭代结果：F₃=[3 2 1 0 0 0 0]

由计算知，经过2次迭代，INU冗余度策略集合F₂=F₃，因此F^*=[3 2 1 0 0 0 0]是考虑INU期望节约成本意义下，INU长期运行下的最优配置策略，即INU结构中有3个陀螺仪，恰好满足系统准确输出最低要求，验证了算法的合理性。

3.2 考虑INU即时可靠度与期望节约成本总体指标，令y=100，z=-1

将计算条件代入程序，可以得到策略迭代运算结果如下：

初始策略：F₁=[0 0 0 0 0 0 0]

第一次迭代结果：F₂=[3 2 1 1 0 0 0]

第二次迭代结果：F₃=[3 2 1 1 0 0 0]

由计算知，经过2次迭代，INU冗余度策略集合F₂=F₃，因此F^*=[3 2 1 1 0 0 0]是考虑INU即时可靠度与期望节约成本总体指标意义下，INU长期运行下的最优配置策略，即INU结构中有4个陀螺仪。

综合上述两种不同优化指标，可见提高INU可靠度要求后，算法得出INU冗余结构相对单纯考虑成本指标时须增加INU冗余度，从而算法可为INU冗余结构设计提供合理的建议。

4 结论

本文在分析INU可靠度指标和计算方法的基础上，构建了INU冗余度马氏决策控制模型，利用策略迭代算法进行验证分析得出：基于INU即时可靠度与期望节约成本总体指标或单独指标意义下，运用马氏决策控制模型得出的最优INU冗余度是节约成本最高或可靠度与期望节约成本总体指标最高的，且能够满足系统准确输出的要求。验证分析中的具体数据是通过实际情况真实获得的，因此用该模型计算出的结果具有较高的参考价值，能够为SINS冗余可靠性设计提供建议。

参考文献

[1] 敖银辉，王翠芬.基于连续时间MDP模型和随机决策的维护周期[J].电子技术应用，2016，42(3)：123-126.

[2] 冯玎，林圣，张奥，等.基于连续时间马尔可夫退化过程的牵引供电设备可靠性预测方法研究[J].中国电机工程学报，2017，37(7)：1937-1946.

[3] 吴彩华，马建朝，魏海涛，等.基于Markov链的软件可靠性早期评估研究[J].空军预警学院学报，2014，28(3)：199-202.

[4] 周围正，李学峰.单机五陀螺捷联惯导系统重构算法研究[J].航天控制，2017，35(2)：3-7.

[5] 程建华，董金鲁.一种对称斜置式四陀螺惯导冗余配置方案[J].传感器与微系统，2015，34(2)：16-19，27.

[6] 杜海东，曹军海，吴纬，等.基于仿真的复杂系统可靠性冗余分配优化设计[J].系统仿真学报，2016，28(3)：648-653.

[7] 王虎军.冗余技术提高PLC控制系统可靠性的研究[J].计算机测量与控制，2015，23(12)：4016-4018.

[8] 李兴伟，白博，周军.多模冗余可重构计算机可靠性研究[J].计算机测量与控制，2017，25(7)：309-312，316.

[9] 张志伟.机载电子设备冗余设计与可靠性分析[J].光电技术应用，2017，32(3)：66-69.

[10] 刘玉宝，秦贵和.面向可靠性冗余优化的自适应差分进化算法[J].吉林大学学报，2016，54(1)：70-76.

[11] 王跃钢，杨家胜，文超斌，等.一种针对冗余配置捷联惯导的导弹初始对准算法[J].导弹与航天运载技术，2014(1)：65-69.