HTML
-
为了减小实验仪器因振动、噪声以及温度等产生的影响,对采集的光谱进行适当预处理很有必要,合适的预处理以获得较好的建模效果。将采集到的甲醇汽油的中红外光谱经预处理后得到的数据作为模型的输入变量X,甲醇体积分数作为输出变量Y,建立了偏最小二乘模型,其结果如表 1所示。由比较可知, 光谱经过平滑处理后建模效果最好。此时,模型的预测集相关系数rp=0.890,预测集均方根误差RMSEP为3.035。而经过多元散射校正、和归一化处理后的建模效果均低于用原始光谱建模效果,此时预处理对建模结果不但没有优化反而降低了模型的预测精度。
model preprocessing PC construction prediction rc RMSEC rp RMSEP PLS original 12 0.946 2.164 0.883 3.127 processing 14 0.962 1.816 0.890 3.035 multivariate scattering calibration 12 0.961 1.837 0.875 3.228 baseline 8 0.962 1.808 0.888 3.061 normalization 8 0.953 2.008 0.869 3.294 Table 1. Results of PLS model for alcohol content of alcoholic gasoline
-
图 2为甲醇汽油和乙醇汽油中红外原始光谱。从波形来看,甲醇汽油和乙醇汽油中红外原始光谱有用信息主要集中在1500cm-1~2750cm-1和3050cm-1~3500cm-1范围内,由于光谱两端存在噪声信息,故建模时候选取1500cm-1~3500cm-1的波段。图中甲醇汽油和乙醇汽油中红外原始光谱波形是一致的,只是在一定的波段内的光强有区别。这是由于甲醇汽油和乙醇汽油中分别含有甲醇和乙醇,同样含量的乙醇汽油中红外的透射更高。
-
采用全谱进行主成分分析,将采集的光谱压缩成若干的主成分的线性组合,前3个主成分的得分如图 3所示。甲醇汽油和乙醇汽油出现聚类,图中甲醇汽油120个样品,乙醇汽油120个样品,通过主成分发现:第一主成分的累计贡献率为88%,第二主成分的累计贡献率为11%,第三主成分贡献率为1%。通过主成分分析就可以方便地将240个样本简单的分成两类。
-
将甲醇汽油和乙醇汽油分别单独进行随机划分,按照3:1进行挑选建模集和预测集,其中,甲醇汽油和乙醇汽油分别有建模集90个,预测集30个,分别将甲醇汽油和乙醇汽油的建模集合并为一个大的建模集180个样本,将甲醇汽油和乙醇汽油的预测集合并为一个大的预测集60个样本。通过UNSCRAMBLER 8.0软件建立定性偏最小二乘判别(discriminant partial least square, DPLS)模型,图 4为醇类汽油醇含量RMSEC和RMSEP随主成分因子数的变化曲线。建模时主成分因子数有很重要的作用,若建模时选择PC为5或者小于5,就可能因为一些有效信息被忽略导致模型精度降低,出现“欠拟合”现象;若建模时选择过高,又会因为噪声信号等影响而产生“过拟合”现象,故由图 4可知, 本实验中DPLS模型最佳主成分因子数(PC)为6。
定性偏最小二乘判别法(DPLS)是将定量偏最小二乘法用于判别分析并建立中红外光谱特征与样本分类变量之间的回归模型的一种定性判别方法。主要思想就是用样品的分类向量代替样品的体积分数向量,再通过定量偏最小二乘方法建立模型。分类向量设为[1, 2],其中1为乙醇汽油样品,2为甲醇汽油样品。
图 5所示为预测集样品(包括甲醇汽油和乙醇汽油两种)分类变量的DPLS模型回归图。建模样品60个,RMSEP为0.0996,相关系数rp=0.9799,波长变量N=218。取阈值T=1.5,线性回归模型建模有0个甲醇汽油样品误判为乙醇汽油样品,误判率为0%。
-
以全波段的光谱数据作为输入变量,数据较多,数据处理耗时长。选择一种适当的波长筛选方法,不仅可以缩短建模时间,还能提高建模的预测精度。此外可以避免光谱仪的噪声影响, 以及一些波长对外界环境因素变化敏感,去掉冗余信息提高数据的处理速度。
对光谱进行波段筛选是一种非常有效的光谱处理方法,能够大大优化模型,本文中采用UVE方法。该方法的原理是基于PLS回归系数建立的波段筛选方法,将回归系数作为重要衡量指标,此法将一定数目的随机变量矩阵加入光谱矩阵中,再通过交互验证建立PLS模型,通过计算PLS与回归系数的平均值与标准偏差比值来选取有效光谱信息,此法将噪声信号和体积分数信息集于一体,方便和直观。
在全谱范围内采用UVE方法进行变量优选。图 6为UVE变量稳定性的分析结果。横坐标为随机变量,纵坐标t为回归系数的平均值与标准偏差的比值。垂直实线为波长变量和随机噪声变量的分割线,左边为波长变量,右边为噪声变量。变量稳定性值位于两阈值之间的波长变量为无用信息变量,需要被剔除;处于量阈值之外的波长变量为有用信息变量,需要保留。通过UVE波段筛选变量后共有236个波长变量被选择。以筛选的波长点所含信息作为输入变量建立更加简化的模型。
-
偏最小二乘法可以充分利用小样本包含的信息,本实验中它可以充分利用醇类汽油光谱数据与中醇含量之间的线性关系关系来建立模型。图 7为甲醇含量建模和预测集均方根误差随主成分因子数变化曲线图。因此,在本实验醇类汽油的醇含量PLS模型中,最佳主成分因子数为7。UVE-PLS模型的预测效果为:预测集R2和RMSEP分别为0.902, 2.591。
-
在UVE-LSSVM建模中,采用线性核函数(linear kernel, LIN)和径向基函数(radical basis function, RBF)分别建立支持向量机模型,分别比较两种函数的建模效果,结果表明:采用LIN核函数时,惩罚因子γ=1.2128,其预测集R2和RMSEP分别为0.8704, 3.2810,采用RBF时,该模型有两个重要参量:惩罚因子γ和核参量σ2,这两个未知参量在一定意义上影响模型泛化能力和建模效果。通过多次尝试,确定了模型的两个参量,此时UVE-LSSVM模型参量的最佳组合为:γ=784.115, σ2=127.973, 其预测集R2和RMSEP分别为0.945, 2.187。通过对比,发现选用RBF更加有利于模型的建立。
-
从表 2可以得出,在两种不同建模方法中,UVE-LSSVM取得最好的结果。通过对比,UVE-PLS的预测集R2和RMSEP分别为0.902, 2.591,UVE-LSSVM的预测集R2和RMSEP分别为0.945, 2.187。结果表明,在甲醇汽油和乙醇汽油中醇类含量检测方面,应用中红外光谱技术结合UVE-LSSVM组合模型可以快速准确地预测甲醇汽油中甲醇含量以及乙醇汽油中乙醇含量,为进一步研究醇类汽油其它指标奠定了基础。
model prediction R2 RMSEP UVE-PLS 0.902 2.591 UVE-LSSVM 0.945 2.187 Table 2. Prediction results by UVE-PLS and UVE-LSSVM