HTML
-
随机森林是一种利用集成学习思想的机器学习算法,主要用于分类和回归任务场景,它由多个决策树组成,各个决策树的决策过程及结果相互独立,并由融合策略输出最终预测结果。集成学习是通过构建并结合多个学习器来完成学习任务,其思想是先产生一组“个体学习器”,再用某种策略将它们结合起来。随机森林的“个体学习器”即是决策树,决策树是一种常用的树结构机器学习方法,决策树的决策结果经某种策略融合后输出的最终预测结果即是随机森林的决策结果[15-20]。使用随机森林对样本大小为V的训练集建立模型,包括3个步骤:(1)设定决策树模型的个数N,利用bootstrap方法从训练集随机有放回抽样,得到N个大小为V的训练集; (2)利用决策树训练步骤(1)的训练集,得到T个决策树模型,该步骤包括3个重要参量,即决策树使用特征的最大数量、决策树的最大深度、决策树内部节点被划分时所需最小样本数; (3)根据具体的融合策略组合所有决策树的输出,得到最终预测结果。
以上步骤中涉及的参量根据交叉验证方法调优设置。
本文中基于随机森林对导引头跟踪模式决策的流程如图 4所示。
通过对系统输入的bootstrap采样构造不同分布的训练集,进而建立N个基决策器(N≥1),每个基决策器能独立执行跟踪模式的判别,最后通过决策融合形成终决策器,输出跟踪模式。
-
基决策器采用决策树算法实现,其对跟踪模式的判别可表示为:f(X)→Y,Y的取值为{1, 2, 3}, 分别代表激光、雷达、红外(infrared, IR)3种跟踪模式,X是一个n维向量,表示系统输入。图 5为某个基决策器的执行流程。
图中,xn代表X的某一个维度输入。每个基决策器由若干条(不小于1)决策路径构成,1条决策路径由若干(不小于1)决策节点和决策结果构成,图 5中的基决策器包含4条决策路径,例如:[x1, x3, x4, x7, IR]为1条决策路径。决策路径是有执行顺序的,两条决策路径要相同当且仅当它们的决策节点、决策结果、执行顺序完全相同。同理,两个基决策器相同当且仅当它们所有决策路径相同。
-
决策融合的本质是对N个基决策器的输出结果进行整合,得到最终的随机森林决策器,基于3个原因:(1)不同基决策器的质量是不相同的,质量越高的决策器,在不同场景下对跟踪模式的决策输出越稳定;(2)每个决策器有它最擅长的工作场景;(3)实验证明融合后的决策器相比单棵决策树分类器有更加稳定可靠的决策结果。采用对基决策器加权融合的思想,权重越大的基决策器,最终决策的话语权越高。设Wi和f(X)i分别为第i个基决策器的权重及决策输出,F(X)为最终跟踪模式输出,则:
即F(X)的输出值为$\sum\limits_{i = 1}^N {{W_i}} \cdot I\left[ {\mathit{\boldsymbol{f}}{{(\mathit{\boldsymbol{X}})}_i} = \mathit{\boldsymbol{Y}}} \right]$最大时Y的取值, Y={1, 2, 3},其中1代表激光,2代表雷达,3代表红外。当f(X)i=Y时,I=1;当f(X)i≠Y时,I=0。权重Wi=γEi (γ>0),且$\sum\limits_{i = 1}^N {{W_i}} = 1, E_i$为第i个基决策器质量的评价指标, γ为权重的缩放系数。
-
评价指标用来衡量决策器质量的好坏,同时也是实验结果的主要参考。选取真实的导引头工作数据作为验证数据,其中X由10个量组成,分别是:激光方位跟踪偏差Lx、激光俯仰跟踪偏差Ly、激光跟踪目标置信度Lp、雷达方位跟踪偏差Rx、雷达俯仰跟踪偏差Ry、雷达跟踪目标置信度Rp、红外方位跟踪偏差Ix、红外俯仰跟踪偏差Iy、红外跟踪目标置信度Ip、弹目距离D。表 1中为N条验证数据。
number Lx/(°) Ly/(°) Lp Rx/(°) Ry/(°) Rp Ix/(°) Iy/(°) Ip D/km mode 1 0.08 0.12 1 0 0 0 0 0 0 8000 1 2 0.08 -0.05 1 0.07 0.09 1 0 0 0 7650 1 3 -0.07 0.03 1 0.01 0.02 1 0 0 0 6000 2 4 -0.02 0.05 1 -0.03 0.01 1 0.09 0.08 0 4500 2 5 0.06 -0.09 1 0.04 -0.02 1 -0.07 0.12 0 4213 2 6 0.08 0.01 1 0.09 0.07 0 0.04 0.09 0 3908 1 7 0.09 0.02 1 0.08 -0.07 0 0.08 0.06 0 3412 1 8 -0.1 0.08 0 0.06 0.08 0 0.012 0.03 1 2566 3 9 0.04 0.07 1 -0.09 0.06 1 -0.02 0.01 1 1980 3 N 0.09 -0.05 0 -0.07 0.05 0 0.04 0.06 1 1840 3 决策器可以输出3种模式:红外、激光、雷达。以下以激光模式的决策为例,演示决策器在该模式下如何评价。
设X为输入数据,Y为决策器的输出(即模式的选择),将Y的取值合并为两种{激光和非激光(指红外和雷达)}, 同理将用于验证的模式取值也合并为两种。验证值和决策值的不同组合构成见表 2。
verification value decision value laser non-laser laser TP FN non-laser FP TN 表 2中,TP(true positive)为正确分类的正例,FP(false positive)为错误分类的正例,TN(traue negative)为正确分类的负例, FN(false negative)为错误分类的负例, 它们分别表示每条输入数据对应的验证结果的取值范围。例如TP表示决策器输出激光模式,验证值也是激光模式,这是一次正确的决策;同理,TN也表示决策正确,相反,FP和FN表示决策错误。
采用3个指标评价决策器质量,分别为:
式中,P为查准率,R为查全率,F为决策器在当前跟踪模式上关于查准率和查全率的综合表现。
用同样的方法求得决策器分别在红外、雷达模式下的综合表现,求出决策器在{红外、激光、雷达}3种模式下的综合评价指标为:
式中, |MY|表示N条验证数据中模式Y出现的次数, Y取值{1, 2, 3},FY表示Y模式下F评估指标。E越大,则决策器的综合性能越好。
3.1. 随机森林决策流程
3.2. 基决策器原理及实现方法
3.3. 决策融合
3.4. 决策器质量的评价指标
-
基于传统流程是类树的条件判读过程,在仿真分析中,分别采用决策树和随机森林算法对传统决策过程建模,得到跟踪模式决策器,其仿真结果如表 3和表 4所示。
label/measurement P R FY 1 0.99074 0.98165 0.98618 2 0.99547 0.99935 0.99740 3 1.00000 0.99796 0.99898 E 0.99805 0.99805 0.99805 Table 3. The simulaton result based on random forest
label/measurement P R FY 1 0.95349 0.97895 0.97619 2 0.98756 0.98945 0.98043 3 0.97681 0.97319 0.97521 E 0.97851 0.97851 0.97851 Table 4. The simulaton result based on decision tree
由表 3、表 4中的实验数据可知,基于随机森林对传统决策过程建模,精度达到0.99805,基于单决策树建模,精度为0.97851,具有极高的精度和稳定性。由仿真结果对比可知,对于多模跟踪模式决策而言,随机森林算法模型分类准确率优于决策树算法模型。
-
模型稳定性是衡量模型在不同场景下适应性强弱的重要指标,采用不同采样方法制备多个验证数据集,使它们的数据量大小和分布均不相同,分别采用决策树和随机森林算法对传统决策过程建模,得到的决策器评价指标E的曲线对比图, 如图 6所示。
由图可知,采用随机森林算法决策在多数场景下比单决策树算法的性能高(6种场景下,有5种高于决策树),该结果表明, 随机森林算法在复杂的应用场景下输出的决策结果更可靠,适应性更强。
-
由模型精度和稳定性对比结果可知,尽管采用随机森林建模精度达0.99805,无限逼近于1(理想情况是用随机森林算法构建的决策模型能够完全复刻传统流程的判断结果),但依然存在决策误判的情况,抽取其中1200条验证样本数据进行分析, 得到随机森林决策器跟踪模式决策结果分布图, 如图 7所示。
由图可知,用随机森林方法得到的跟踪模式误判的情况为1200例数据中错误6例,其中,红外错误2例,激光错误2例,雷达错误2例。
针对模型存在误判的情况,提取判别错误的样本数据,采用异常检测、相关性分析等手段进一步分析,提取出决策器的误判路径,并采用条件判读的方式进行误差补偿,得到随机森林结合误差补偿的跟踪模式决策结果, 如图 8所示。
由图可知,用随机森林结合误差补偿的方法对跟踪模式的识别正确率达到100%。
-
在保证本文中提出的方法对跟踪模式分类的正确率的前提下,对本文中的方法和传统的方法在模式决策上的耗时进行了对比,结果如图 9所示。由图可知,本文中方法的决策速度提升约为16%。
-
对传统方法和本文中方法的实现代码量(决策流程的逻辑)进行了对比,其结果如图 10所示。
由图可知,在应用程序代码实现过程中,本文中方法150行便实现跟踪模式决策,替换原上千行的流程判读代码,大大简化代码量。