环境科学学报  2020, Vol. 40 Issue (4): 1517-1534
同型规范变换的不同预测模型具有的兼容性和等效性    [PDF全文]
李祚泳, 魏小梅, 汪嘉杨    
成都信息工程大学, 资源环境学院, 成都 610225
摘要:传统的不同预测变量的预测模型之间不具有兼容性和等效性,而同型规范变换和误差修正相结合的不同变量的预测模型的预测相对误差与预测对象的维数、样本数及预测模型类型皆无关,仅与预测变量的数据特性、相似样本的模型输出值及其相对误差和相似度有关,因而同型规范变换的不同预测变量的预测模型之间具有兼容性和等效性.其重要意义在于:只要对任意一个预测变量建立了基于规范变换的某种预测模型,就可以将此预测模型直接用于具有同型规范变换的其他预测变量的预测;若再将其与误差修正法相结合,还可以极大地提高模型的预测精度,获得与实际值很接近的预测结果.依据受3个因子影响的灞河口CODMn指数数据、受4个因子影响的伊犁河雅马渡站年径流量数据和牡丹江市TSP年均值的时序数据,分别建立具有同型规范变换(nj=2)的3个不同预测变量的3种智能预测模型和一元线性回归预测模型,并验证了3个不同预测变量的预测模型之间的兼容性和等效性.对同一个预测样本,用同型规范变换和误差修正相结合的不同预测变量的预测模型的实际预测值及其预测相对误差绝对值不仅差异甚微,而且预测值与实际值非常接近,其预测的相对误差绝对值平均值几乎全都小于3%,最大相对误差绝对值均小于5%,小于或远小于20种传统预测模型和方法预测的相应误差.
关键词规范变换    预测模型    误差修正    兼容性    等效性    对易性    
Compatibility and equivalence of different prediction models with same-type normal transform
LI Zuoyong, WEI Xiaomei, WANG Jiayang    
College of Resources and Environment, Chengdu University of Information Technology, Chengdu 610225
Received 25 July 2019; received in revised from 11 October 2019; accepted 11 October 2019
Abstract: Traditional prediction models with different prediction variables are not compatible and equivalent,while the relative prediction errors of different prediction models with different variables combined with the same type of gauge transformation and error correction are not related to the dimension,sample size and type of prediction model,which is only related to the data characteristics of the predicted variables,the output value of the model of similar samples and their relative errors and similarities. Therefore,the predicted models of different predicted variables with the same type of canonical transformation have compatibility and equivalence. Its significance lies in that as long as a prediction model based on canonical transformation is established for any prediction variable,it can be directly applied to the prediction of other prediction variables with the same canonical transformation. If it is combined with the error correction method,the prediction accuracy of the model can be greatly improved,and the prediction results are very close to the actual values. Based on CODMn annual mean data affected by three factors in Bahe estuary,annual runoff data affected by four factors in Yamadu Station of Yili River and time series data of TSP annual mean value in Mudanjiang City,three intelligent prediction models and one-variable linear regression prediction models with three different prediction variables with the same type of normative transformation (nj=2)were established respectively. The compatibility and equivalence of three prediction models with different prediction variables were verified. For the same forecasting sample,the actual forecasting value and the absolute value of the relative error of the forecasting model with different forecasting variables combined with the same type gauge transformation and error correction are not only slightly different,but also very close to the actual value. The average absolute value of relative error is almost all less than 3%,and the maximum absolute value of relative error is less than 5%,which is less than or far less than the corresponding error of 20 traditional prediction models and methods.
Keywords: canonical transformation    prediction model    error correction    compatibility    equivalence    commutativity    
1 引言(Introduction)

由于长期以来人类对地球自然资源的过度开发, 导致全球的生态平衡已受到破坏, 环境污染日趋严重.因此, 我们必须保护好地球的生态环境, 走一条人类可持续的绿色发展之路.走可持续的绿色发展之路就是不仅要重视环境的现在, 更要关注环境的未来.为此, 人们提出了数十种环境预测的模型与方法.其中, 最常见的是各种非机理性的统计预测模型(Fu, 2011Thoe et al., 2012Tan et al., 2012Chen et al., 2013Comrie, 2013王保良等, 2016)和智能预测模型(Xi et al., 2012笪英云等, 2015Liu et al., 2015Moazami et al., 2016Shaban et al., 2016张旭东等, 2016孙宝磊等, 2017).不过, 传统的非机理性预测的模型与方法存在以下不足:①对高维、非线性复杂问题, 传统预测模型和方法都存在模型结构复杂和“维数灾难”及样本数困难;②用于环境预测往往预测精度不高, 结果不理想;③传统的预测模型和方法的共同局限是不能规范和普适.为此, 笔者提出对因子进行规范变换, 以简化模型结构, 克服了“维数灾难”和样本数困难;还提出预测样本模型输出的误差修正法, 极大地提高了模型的预测精度(李祚泳等, 20182019a2019b);并论证了精度的提高与预测变量的影响因子数目、样本数目、样本原始数据分布特性和变化规律及选用何种预测模型均无关, 因而此种预测模型不仅具有普遍意义, 而且变得普适、规范、简单、实用.

不仅如此, 研究还表明, 只要变换式中的幂指数nj是同为2、1或0.5的同型规范变换的不同预测变量的预测模型, 则彼此之间皆具有“兼容性”、“等效性”和“对称性”, 从而使预测问题变得极大的简化、方便和省时.

2 同型规范变换的不同预测模型的兼容性和等效性的理论基础(Theoretical basis of compatibility and equivalence of different prediction models with same-type normal transform)

由文献(李祚泳等, 2019a)4.3节预测模型误差的理论分析可导出以下结论:若用误差修正公式修正后的预测样本模型输出值计算得到的样本实际预测值的相对误差绝对值为 (式(1)), 未用误差修正公式修正的模型输出值计算得到的样本实际预测值的相对误差绝对值为, 则一定有, 即;且两种相对误差绝对值的比值 (式(2)).为叙述简便, 以下相对误差绝对值简称相对误差.

(1)
(2)

式中, Kysrs分别为与预测样本模型输出值相近的拟合相似样本的相似度、相似样本的模型输出值及其拟合相对误差;参数b=10/nj, 其中, nj为预测变量变换式中的幂指数, 取值为nj=0.5、1、2, 它决定预测变量的变换式的类型, 与预测变量原始数据的分布特性及其变化规律有关.

由式(1)可知, 相对误差与相似样本的Kysrs有关, 与预测变量有关的仅有表征原始数据的分布特性及其变化规律的b, 而与预测变量的建模样本数n、影响因子数m无关, 也与所选择的何种预测模型无关.由式(2)可知, 两种相对误差的比值B =/ 仅由相似样本的相似度K和拟合相对误差rs决定, 且一定满足B < 1或B < < 1.因此, 若将基于规范变换的某个预测变量的某种预测模型直接用于具有同型规范变换的其他不同预测变量的预测, 由于变换式中幂指数nj相同, 因而b也相同, 故只要具有同型规范变换的其他预测样本模型输出的相似样本选择适当, 则由式(2)计算得到的两种相对误差的比值B=/也一定小于或远小于1.可见, 基于同型规范变换的预测变量与误差修正结合的预测模型彼此之间具有“兼(相)容性”和“等效性”.所谓“兼容性”是指任意一个基于规范变换的预测变量的某种预测模型, 都可以直接用于具有同型规范变换的其他预测变量的预测, 反之亦然, 因而满足同型规范变换的不同预测变量的预测模型是彼此协调和兼容的.所谓“等效性”是指对同一个预测变量, 用具有同型规范变换的不同预测变量的预测模型进行预测, 其效果(实际预测值及其相对误差)是相同的, 即彼此等效.具有上述两个特性的规范变换满足“对称性”.所谓“对称性”是指与误差修正法相结合的同型规范变换的不同预测变量的预测模型, 彼此互换(对易)使用, 其预测效果差异甚微, 具有近似稳定“不变性”.正是由于同型规范变换的不同预测变量的预测模型之间具有的兼容性和等效性, 并结合误差修正法, 才保证了不同预测模型的预测效果的稳定性, 从而使对基于规范变换的某个预测变量建立的某种预测模型, 可以直接用于具有同型规范变换的其他预测变量的预测, 而无需对其再建模.因而兼容性和等效性在预测模型中起着重要作用, 具有重要意义.图 1形象、直观地描述了分别位于三角形三顶点的预测变量的同型规范变换与预测模型的兼容性、等效性和预测模型预测效果的稳定性三者之间的逻辑关系.

图 1 预测变量的同型规范变换、预测模型的对称性和预测效果的稳定性三者之间的逻辑关系 Fig. 1 The logical relationship among the homo-canonical transformation of predictive variables, the symmetry of predictive models and the stability of predictive effects

以具有同型规范变换(nj=2)的灞河口水质CODMn的年均值、伊犁河雅马渡站的年径流量及牡丹江市空气总悬浮颗粒物(TSP)年均值的时序数据3个不同预测变量为例, 分别建立基于同型规范变换的3种智能预测模型和一元线性回归预测模型, 并验证不同预测变量的预测模型之间的兼容性、等效性和对称性.

3 基于同型规范变换的不同预测变量的预测模型(Prediction model of different predictive variables based on homogeneous normal transform) 3.1 基于规范变换的灞河口CODMn指数的3种智能预测模型和一元线性回归预测模型 3.1.1 CODMn指数年均值及其影响因子的参照值和规范变换式的设置

西安市灞河口11年(1993—2003年)CODMn(Cy)的年均值(cy)及其3个影响因子Cj(j=1、2、3)的监测数据cj(j=1、2、3)参见文献(房平等, 2011).设置如式(3)和式(4)组成的规范变换式, 由式(3)和式(4)计算得到各影响因子的规范值xi′及预测变量的规范值yi′.

(3)
(4)

式中, cjcj0分别为因子或预测变量实际值和设置的参照值, 3个因子和预测变量的参照值cj0分别设置为0.7、0.5、0.8和0.8;cjcj0cy的单位皆为mg·L-1Xjxj′分别为因子或预测变量的变换值和规范值.

3.1.2 基于CODMn规范值的3种智能预测模型和一元线性回归预测模型

依据基于规范变换的NV-FNN、NV-PPR、NV-SVR 3种智能预测模型(李祚泳等, 2019a;2018)和一元线性回归预测模型(NV-ULR)(李祚泳等, 2019b)的建模理论和方法, 分别得到CODMn指数的NV-FNN、NV-PPR、NV-SVR和NV-ULR预测模型, 具体如式(5)~式(11)所示.

(5)
(6)
(7)
(8)
(9)
(10)

式中, k1k2k3皆为径向基核函数;x10x20x30分别是3个核函数的恒定中心矢量;||·||为用均方根距离表示的两个样本之间的范数;σ为径向基核函数的宽度参数, 分别为σ1=0.0945和σ2=0.1068;b1b2为阈值;αi(i=1, 2, 3)为支持向量对应的系数.

(11)

式(5)~式(11)中, xj1xj2xj3分别为将每个样本的m(j= 1, 2, …, m)个因子规范值按顺序排列, 并首、尾两个因子相连构成循环, 其中, 从第j个因子开始, 依顺序取的连续3个因子规范值.

3.2 基于伊犁河雅马渡站年径流量规范值的智能预测模型和一元线性回归预测模型 3.2.1 年径流量及其影响因子的参照值和规范变换式的设置

新疆伊犁河雅马渡站23年(1953—1975年)的年径流量(Cy)及其4个影响因子(Cj, j=1~4)的监测数据cj参见文献(崔东文, 2013).设置如式(12)的变换式, 由式(12)和式(4)计算得到各影响因子的规范值xi′及径流量的规范值yi′.

(12)

式中, C1~C4Cy的参照值cj0分别设置为3.5、0.1、0.19、28和30;C2C3Cy的阈值cb分别为1.5、0.07和100.cj0的单位与相应cj的单位相同.

3.2.2 年径流量规范值的3种智能预测模型和一元线性回归预测模型

与3.1.2节CODMn 3种智能预测模型和一元线性回归预测模型的建模过程类似, 分别得到径流量的NV-FNN、NV-PPR、NV-SVR和NV-ULR预测模型, 具体如式(13)~式(19)所示.其中, 式(17)和式(18)中的σ分别为σ1=0.1120和σ2=0.1639.

(13)
(14)
(15)
(16)
(17)
(18)
(19)
3.3 基于牡丹江TSP年均值时序数据规范值的智能预测模型和一元线性回归预测模型 3.3.1 TSP年均值的参照值和规范变换式的设置

牡丹江市1991—2002年总悬浮颗粒物(TSP)年均值的时间序列数据见文献(陈世权等, 2003).设置如式(20)所示的TSP时序数据变换式, 由式(20)和式(4)计算得到TSP的规范值yi′.

(20)

式中, 参照值ct0=0.05.ctct0的单位相同, 为mg·m-3.

3.3.2 TSP规范值的3类智能预测模型和一元线性回归预测模型

与3.1.2节CODMn 3类智能预测模型和一元线性回归预测模型的建模过程类似, 分别得到TSP的NV-FNN、NV-PPR、NV-SVR和NV-ULR预测模型, 具体如式(21)~式(27)所示.其中, 式(25)和式(26)中的σ分别为σ1=0.1503和σ2=0.1869

(21)
(22)
(23)
(24)
(25)
(26)
(27)
4 同型规范变换的不同预测模型的兼容性和等效性的验证实例(Examples of compatibility and equivalence of different prediction models with same-type normal transform) 4.1 同型规范变换的不同预测变量的预测模型用于灞河口CODMn指数预测 4.1.1 基于同型规范变换的雅马渡站径流预测模型的灞河口CODMn指数预测

① CODMn指数年均值及其影响因子的参照值和规范变换式的设置仍设置灞河口CODMn(Cy)的年均值(cy)及其3个影响因子Cj的监测数据cj(j=1, 2, 3)的变换式,如式(3)所示, 只是CODMn的参照值设置为cy0=0.5.由式(3)和式(4)计算得到CODMn的规范值yi0′, 结果见表 1.

表 1 4种预测模型的建模样本拟合输出值yi及预测样本计算输出值yx Table 1 Fitting output value yi of modeling sample and calculating output value yx of predicting sample based on 4 prediction models

② 3种智能模型和NV-ULR模型的建模样本拟合输出值及预测样本的计算输出值将由式(3)和式(4)计算得到的CODMn的各因子的规范值xi′代入3.2.2节雅马渡站的年径流量预测模型公式(13)~(19), 计算得到两种结构的3种智能预测模型和NV-ULR预测模型前9年建模样本(1993—2001年)的模型拟合输出值及后2年检测(预测)样本(标记为2002*、2003*)的模型计算输出值, 如表 1所示.计算得到3种智能预测模型和NV-ULR预测模型的前9年建模样本的模型输出的拟合相对误差绝对值, 如表 2所示.

表 2 基于4种预测模型的建模样本的拟合相对误差ri Table 2 Fitting relative errors of modeling samples based on four prediction models

③ 预测样本模型输出的误差修正及修正后的CODMn指数的实际预测值从表 1可见, 分别与雅马渡站径流预测模型的2002*年、2003*年CODMn预测样本的4种预测模型输出相似的拟合样本如表 3所示.用误差修正公式(李祚泳等, 2019a)修正后的2个检测(预测)样本的4种预测模型的输出值Yx′, 如表 4所示.再由式(3)和式(4)的逆运算, 计算得到4种预测模型对2002*年、2003*年CODMn指数的实际预测值cyx, 如表 5所示.表 4表 5中还分别列出2002*年、2003*年CODMn指数实际值的规范值Yx0′和实际值cy0.

表 3 基于4种预测模型的预测样本输出的相似样本 Table 3 Similar samples of prediction samples output based on four prediction models

表 4 基于4种预测模型的预测样本误差修正后的模型输出值 Table 4 Model output values based on the corrected sample error of four prediction models

表 5 基于4种预测模型的预测样本误差修正后的实际预测值 Table 5 Actual predicted values based on the corrected sample error of four prediction models

④ 多种预测模型的实际预测值的相对误差及比较2个检测样本的4种预测模型预测的实际预测值与真实(测定)值之间的相对误差rx(绝对值)及其平均值和最大相对误差(绝对值)如表 6所示.

表 6 预测样本的多种预测模型的预测相对误差的绝对值及其平均值和最大值rx Table 6 Absolute values of relative errors, their mean values and maximum values of various prediction models for prediction samples
4.1.2 基于同型规范变换的牡丹江市TSP时序预测模型的灞河口CODMn指数的时序预测

由于牡丹江市TSP时间序列的4种预测模型只是时间序列的预测模型, 因此, 也只用于建立灞河口CODMn指数的时间序列(k=3)预测模型.

① CODMn指数年均值时序变量的参照值和规范变换式的设置设置灞河口CODMn(Cy)的年均值(cy)时序的监测数据cj(j=1, 2, 3)的变换式仍如式(3)所示, 只是CODMn的参照值设置为cy0=0.6.由式(3)和式(4)计算得到CODMn时序变量的规范值y0′, 如表 1所示.

② 3种智能模型和NV-ULR模型的建模样本拟合输出值及预测样本的计算输出值将由式(3)和(4)计算得到的CODMn的时序规范值xi′组成的3个因子(k=3)代入3.3.2节牡丹江市TSP预测模型公式(21)~(27)中, 计算得到两种结构的3种智能预测模型和NV-ULR预测模型前6年建模样本(1996—2001年)的模型拟合输出值及后2年检测(预测)样本(2002*年、2003*年)的模型计算输出值(表 1).同时, 计算得到3种智能预测模型和NV-ULR预测模型的前6年建模样本的模型输出的拟合相对误差绝对值(表 2).

③ 预测样本模型输出的误差修正及修正后的CODMn指数的实际预测值从表 1可见, 分别与基于牡丹江市TSP预测模型的2002*年、2003*年CODMn预测样本的4种预测模型输出相似的拟合样本见表 3.用误差修正公式修正后的2个检测(预测)样本的4种预测模型的输出值Yx′见表 4.再由式(3)和式(4)的逆运算, 计算得到4种预测模型对2002*年、2003*年CODMn指数的实际预测值cyx表 5.表 4表 5中还分别列出2002*年、2003*年CODMn指数实际值的规范值Yx0′和实际值cy0.

④ 多种预测模型的实际预测值的相对误差及比较2个预测样本的4种预测模型预测的实际预测值与真实(测定)值之间的相对误差rx(绝对值)及其平均值和最大相对误差(绝对值)见表 6.表 6中还列出直接用基于多因子灞河口预测模型式(5)~式(11)及传统的LS-SVM、BP和RBF等3种预测模型的预测相对误差rx.可见, 3种同型规范变换的不同预测模型的预测相对误差平均值和最大值均远小于传统的3种预测模型的相应误差.

4.2 同型规范变换的不同预测变量的预测模型用于雅马渡站径流量预测 4.2.1 基于同型规范变换的灞河口CODMn预测模型的雅马渡站径流量预测

① 年均值及其影响因子的参照值和规范变换式的设置雅马渡站径流(Cy)的年均值(cy)及其4个影响因子Cj(j=1~4)的监测数据cj见文献(崔东文, 2013).仍设置如式(12)所示的变换式.除径流量的参照值设置为cy0=50外, 因子的参照值和阈值均不变.由式(12)和式(4)计算得到各影响因子的规范值xi′, 预测变量的规范值yi0′, 如表 7所示.

表 7 4种预测模型的建模样本拟合输出值yi及预测样本计算输出值yx Table 7 Fitting output value yi of modeling sample and calculating output value yx of predicting sample based on 4 prediction models

② 3种智能模型和NV-ULR模型的建模样本拟合输出值及预测样本的计算输出值将计算得到的各因子的规范值xi′代入3.1.2节灞河口CODMn预测公式(5)~式(11)中, 计算得到3种智能预测模型和NV-ULR预测模型前19年建模样本的模型拟合输出值及后4年检测样本(序号20*~23*)的模型计算输出值, 如表 7所示.同时, 计算得到3种智能预测模型和NV-ULR预测模型的前19年建模样本的模型输出的拟合相对误差绝对值, 如表 8所示.

表 8 4种预测模型的建模样本的拟合相对误差ri Table 8 Fitting relative errors of modeling samples based on four prediction models

③ 预测样本模型输出的误差修正及修正后的径流量的实际预测值从表 7可见, 分别与灞河口CODMn预测模型的序号20*~23*径流预测样本的4种预测模型输出相似的拟合样本如表 9所示.用误差修正公式修正后的4个检测(预测)样本的4种预测模型的输出值Yx′如表 10所示.再由式(12)和式(4)的逆运算, 计算得到4种预测模型对序号20*~23*径流的实际预测值cyx, 如表 11所示.表 10表 11中还分别列出序号20*~23*径流的实际值的规范值Yx0′和实际值cy0.

表 9 4种预测模型的预测样本输出的相似样本 Table 9 Similar samples of prediction samples output based on four prediction models

表 10 4种预测模型的预测样本误差修正后的模型输出值 Table 10 Model output values based on the corrected sample error of four prediction models

表 11 4种预测模型的预测样本误差修正后的模型实际预测值 Table 11 Actual predicted values based on the corrected sample error of four prediction models

④ 多种预测模型的实际预测值的相对误差及比较4个检测样本的4种预测模型预测的实际预测值与真实(测定)值之间的相对误差rx(绝对值)及其平均值和最大相对误差(绝对值)如表 12所示.

表 12 4个检测样本的多种预测模型的预测相对误差的绝对值及其平均值和最大值rx Table 12 The absolute value of relative error, its average value and maximum value rx of multiple prediction models with four test samples
4.2.2 基于同型规范变换的4种牡丹江市TSP时序预测模型的雅马渡站径流时序预测

由于牡丹江市TSP的4种预测模型只是时间序列的预测模型, 因此, 也只用于建立雅马渡站径流时间序列(k=3)预测模型.

① 雅马渡站径流年均值时序的参照值和规范变换式的设置雅马渡站径流量(Cy)的年均值的时序监测数据ct的变换式仍如式(12)所示, 径流量的参照值仍设置为cy0=30, 阈值cb=100.由式(12)和式(4)计算得到雅马渡站径流样本时序变量(从第4个样本开始)的规范值yt表 7.

② 3种智能模型和NV-ULR模型的建模样本拟合输出值及预测样本的计算输出值将表 7中径流时序变量的规范值yt组成的3(k=3)个因子的规范值yj(j=t-1, t-2, t-3)代入3.3.2节牡丹江的TSP预测公式(21)~(27)中, 计算得到两种结构的3种智能预测模型和NV-ULR预测模型前16个建模样本(序号4~19)的模型拟合输出值及后4个检测(预测)样本(序号20*~23*)的模型计算输出值亦见表 7.计算得到3种智能预测模型和NV-ULR预测模型的前16个建模样本的模型输出的拟合相对误差绝对值见表 8.

③ 预测样本模型输出的误差修正及修正后的径流量的实际预测值从表 7可见, 分别与牡丹江市TSP时序预测模型的20*~23*径流预测样本的4种预测模型输出相似的拟合样本如表 9示.用误差修正公式修正后的4个检测(预测)样本的4种预测模型的输出值Yx′如表 10所示.再由式(12)和式(4)的逆运算, 计算得到4种预测模型对序号20*~23*的径流实际预测值cyx亦见表 11.表 10表 11中还分别列出序号20*~23*的径流实际值的规范值Yx0′和实际值cy0.

④ 多种预测模型的实际预测值的相对误差及比较4个检测样本的4种预测模型预测的实际预测值与真实(测定)值之间的相对误差rx(绝对值)及其平均值和最大相对误差(绝对值)亦见表 12.表 12中还列出直接用3.2.2节基于多因子的雅马渡站径流预测模型(13)~(19)计算得到的预测样本的相对误差rx.为了比较, 表 12中还列出了16种传统预测模型和方法用于雅马渡站径流预测的相对误差.可以看出, 基于同型规范变换的不同预测变量的预测模型用于雅马渡径流量预测的相对误差绝对值平均值和最大相对误差绝对值均小于或远小于16种传统预测模型和方法预测的相应误差.

4.3 同型规范变换的不同预测变量的预测模型用于牡丹江市TSP时序预测 4.3.1 基于同型规范变换的灞河口CODMn预测模型的牡丹江市TSP时序预测

① TSP年均值时序数据参照值和规范变换式的设置牡丹江市TSP年均值的时间序列(1991—2002年)数据仍见文献(陈世权等, 2003).TSP时序数据变换式仍同式(20), 参照值仍设置为ct0=0.05.由式(20)和式(4)计算得到TSP的规范值xt′如表 13所示.仍取最近邻时刻数k=3, 则从第4个样本(第4年)的数据规范值起始, 由TSP第t个样本的前3个最近邻时序数据的规范值xt-1xt-2xt-3构成第t个样本的3个影响因子, 则全部组成9个时序样本(1994—2002年), 其中, 前7个作为拟合检验样本, 后2个作为预测检验样本.

表 13 4种预测模型的建模样本拟合输出值yi及预测样本计算输出值yx Table 13 Fitting output value yi of modeling sample and calculating output value yx of predicting sample based on 4 prediction models

② 3种智能模型和NV-ULR模型的建模样本拟合输出值及预测样本的计算输出值将计算得到的各因子的规范值xi′代入3.1.2节灞河口CODMn预测公式(5)~(11)中, 计算得到3种智能预测模型和NV-ULR预测模型前7个(1994—2000年)建模样本(样本序号4~10)的模型拟合输出值及后2个(2001*年、2002*年)检测(预测)样本(样本序号11*、12*)的模型计算输出值, 如表 13所示.同时, 计算得到3种智能预测模型和NV-ULR预测模型的前7个建模样本的模型输出的拟合相对误差绝对值, 如表 14所示.

表 14 4种预测模型的建模样本的拟合相对误差ri Table 14 Fitting relative errors of modeling samples based on four prediction models

③ 预测样本模型输出的误差修正值及修正后的TSP实际预测值从表 13可见, 分别与TSP时序预测模型的序号11*、12*预测样本的4种预测模型输出相似的拟合样本如表 15所示.用误差修正公式修正后的2个检测(预测)样本的4种预测模型的输出值Yx′如表 16所示.再由式(20)和式(4)的逆运算, 计算得到4种预测模型对序号11*、12*TSP的实际预测值cyx, 如表 17所示.表 16表 17中还分别列出序号11*、12*TSP的实际值的规范值Yx0′和实际值cy0.

表 15 4种预测模型的预测样本输出的相似样本 Table 15 Similar samples of prediction samples output based on four prediction models

表 16 4种预测模型的预测样本误差修正后的模型输出值 Table 16 Model output values based on the corrected sample error of four prediction models

表 17 4种预测模型的预测样本误差修正后的模型实际预测值 Table 17 Actual predicted values based on the corrected sample error of four prediction models

④ 多种预测模型的实际预测值的相对误差及比较2个检测样本的4种预测模型预测的实际预测值与真实(测定)值之间的相对误差rx(绝对值)及其平均值和最大相对误差(绝对值)如表 18所示.

表 18 预测样本的多种预测模型的预测相对误差的绝对值及其平均值和最大值rx Table 18 Absolute values of relative errors, their mean values and maximum values of various prediction models for prediction samples
4.3.2 基于同型规范变换的雅马渡站径流量预测模型的牡丹江市TSP时序预测

① TSP年均值及其影响因子的参照值和规范变换式的设置牡丹江市1991—2002年总悬浮颗粒物(TSP)年均值的时间序列数据仍见文献(陈世权等, 2003).设置如式(28)所示的TSP时序数据变换式.

(28)

式中, 参照值ct0 =0.05, 阈值cb=0.615, ctct0cb的单位相同, 皆为mg·m-3.

由式(28)和式(4)计算得到TSP的时序规范值xt′.仍取最近邻时刻数k=3, 则从第4个样本(第4年)的数据规范值起始, 由TSP第t个样本的前3个最近邻时序数据的规范值xt-1xt-2xt-3构成第t个样本的3个影响因子, 则全部组成9个时序样本(1994—2002年), 其中, 前7个作为拟合检验样本, 后2个作为预测检验样本.

② 3种智能模型和NV-ULR模型的建模样本拟合输出值yi及预测样本的计算输出值yx将9个TSP时序样本组成的各因子的规范值xi′代入3.2.2节雅马渡站径流预测公式(13)~(19)中, 计算得到3种智能预测模型和NV-ULR预测模型前7个(1994—2000年)建模样本(样本序号4~10)的拟合输出值及后2个(2001*、2002*)检测(预测)样本(样本序号11*~12*)的模型计算输出值见表 13.计算得到3种智能预测模型和NV-ULR预测模型的前7个拟合样本的模型输出的拟合相对误差绝对值见表 14.

③ 预测样本模型输出的误差修正及修正后的TSP的实际预测值从表 13可见, 分别与TSP时序预测模型的序号11*、12*预测样本的4种预测模型输出相似的拟合样本见表 15.用误差修正公式修正后的2个检测(预测)样本的4种预测模型的输出值Yx′亦见表 16.再由式(28)和式(4)的逆运算, 计算得到4种预测模型对序号11*、12*TSP的实际预测值cyx亦见表 17.表 16表 17中还分别列出序号11*、12*TSP的实际值的规范值Yx0′和实际值cy0.

④ 多种预测模型的实际预测值的相对误差及比较2个检测样本的4种预测模型预测的实际预测值与真实(测定)值之间的相对误差rx(绝对值)及其平均值和最大相对误差(绝对值)亦见表 18.表 18中还列出直接用3.3.2节基于牡丹江市时序预测模型公式(21)~(27)计算得到的预测样本的相对误差rx.文献(陈世权等. 2003)用灰色预测法预测得到的平均值和最大值分别为10.34%和14.91%.

4.4 同型规范变换预测模型和传统预测模型的相对误差在不同误差区间所占百分比

具有同型规范变换的3种智能预测模型和NV-ULR预测模型及20种传统预测模型的3个验证实例, 其相对误差绝对值的平均值及最大值在不同误差区间所占百分比如表 19所示.可见, 同型规范变换的不同预测模型预测的相对误差绝对值的平均值几乎都小于3%, 最大相对误差绝对值全都小于5%.而20种传统预测模型预测的相对误差绝对值的平均值全都大于3%, 其中, 误差在[5%, 15%)内的占了85%;最大相对误差绝对值全都大于5%, 其中, 误差在[10%, 30%)内的占了75%.可见, 基于同型规范变换的不同预测模型预测的相对误差绝对值的平均值和最大相对误差绝对值皆小于或远小于所有20种传统预测模型的相应误差.

表 19 同型规范变换的预测模型和传统预测模型的3个验证实例的相对误差绝对值的平均值及最大值在不同误差区间所占百分比 Table 19 Percentage of relative errors of homogeneous normal transform prediction model and traditional prediction model in different error ranges
5 分析与讨论(Analysis and discussion)

表 6表 12表 18表 19可以看出, 只要将同型规范变换与误差修正相结合, 应用于同一个样本预测, 不仅用同类预测模型, 即使用不同类型预测模型, 比如NV-FNN、NV-PPR、NV-SVR和NV-ULR等, 其预测值及其预测精度(与实际值的相对误差绝对值), 彼此差异皆甚微, 预测值与实际值均十分接近.因此, 可以说具有同型规范变换的不同预测变量的不同类型预测模型之间还具有广义的兼容性、等效性和对称性, 其预测精度比传统预测模型和方法的预测精度高数倍到数10倍.

理论分析和实例验证均表明, 由于具有同型规范变换和误差修正相结合的不同预测模型的实际预测值的相对误差, 与预测变量的影响因子的个数、建模样本个数(样本容量)及预测变量的原始数据分布特征和变化规律, 如线性或非线性、正态或非正态、独立或相关、正向或逆向、趋势性或波动性、快变或缓变等均无关, 也与选取的何种预测模型无关, 因而满足同型规范变换的不同预测量的预测模型之间的兼容性、等效性和对称性是不受条件约束的.兼容性、等效性和对称性的重要意义在于:无论是多因子或时间序列的预测问题, 只要对某预测变量建立了基于规范变换的某种智能预测模型、统计预测模型或其它非机理性预测模型, 都可以将建立的基于规范变换的该预测变量的预测模型, 结合误差修正法, 直接用于具有同型规范变换的其它任意预测变量的预测, 而无需了解其它预测变量的样本个数、影响因子个数及数据分布和变化规律等特性.

由于传统的预测模型对预测变量及其影响因子的变换皆是彼此独立无关的变换, 因而对因子数不同的预测问题, 模型的结构不能简化和统一, 而且不同预测变量变换后的数据分布特性和变化规律也不可能变得一致或相似.因此, 不同预测变量的传统预测模型之间不具有兼容性、等效性和对称性.这正是基于规范变换尤其是同型规范变换的预测模型与传统的预测模型的显著不同之处.

从理论上讲, 满足同型规范变换的不同预测变量的预测模型之间具有的兼容性、等效性和对称性不受的预测模型的限制, 但本文仅对投影寻踪、支持向量机、前向神经网络(比如双极性前向网络、BP网络、RBF网络、概率神经网络等)等智能预测模型和统计预测模型等非机理性预测模型的兼容性、等效性和对称性进行了理论论证和实例验证, 对机理性预测模型是否成立还有待深入研究.

6 结论(Conclusions)

本文虽然只对具有同型规范变换nj=2的不同预测变量的预测模型的兼容性、等效性和对称性进行了实例验证, 而理论已证明具有同型规范变换nj=1或nj=0.5的不同预测变量的预测模型也同样具有兼容性、等效性和对称性.由于预测变量的同型规范变换只有nj=2、1或0.5这3种不同的类型, 故通常只需建立3种不同的同型规范变换的预测量的预测模型, 即可满足一切预测问题的需要, 从而既省时, 又省力, 给实际应用带来了极大方便.因而同型规范变换的预测变量的预测模型的兼容性、等效性和对称性的发现, 不仅具有重要理论意义, 而且具有重要的实用价值.

参考文献
陈世权, 贲毅, 宋居可, 等. 2003. 牡丹江市区大气总悬浮颗粒物污染趋势及预测[J]. 黑龙江环境通报, 27(2): 64-65.
Chen S Y, Xue Z C, Li M. 2013. Variable sets principle and method for flood classification[J]. Science China Technological Sciences, 56(9): 2343-2348. DOI:10.1007/s11431-013-5304-4
Comrie A C. 2013. Comparing neural networks and regression models for ozone forecasting[J]. Journal of the Air & Water Mangement Association, 47(6): 653-663.
崔东文. 2013. 多隐层BP神经网络模型在径流预测中的应用[J]. 水文, 33(1): 68-73.
崔东文, 金波. 2016. 鸟群算法-投影寻踪回归模型在多元变量年径流预测中的应用[J]. 人民珠江, 37(11): 26-30. DOI:10.3969/j.issn.1001-9235.2016.11.006
笪英云, 汪晓东, 赵永刚, 等. 2015. 基于关联向量机回归的水值预测模型[J]. 环境科学学报, 35(11): 3730-3735.
房平, 邵瑞华, 司全印, 等. 2011. 最小二乘支持向量机应用于西安霸河口水质预测[J]. 系统工程, (6): 113-117. DOI:10.3969/j.issn.1001-2362.2011.06.051
Fu T C. 2011. A review on time series data mining[J]. Engineering Application Artificial Intelligence, 24(1): 164-181. DOI:10.1016/j.engappai.2010.09.007
花蓓, 熊伟, 陈华. 2008. 模糊支持向量机在径流预测中的应用[J]. 武汉大学学报(工程版), 41(1): 5-8.
金菊良, 杨晓华, 金保明, 等. 2000. 门限回归模型在年径流预测中的应用[J]. 冰川冻土, 22(3): 230-234. DOI:10.3969/j.issn.1000-0240.2000.03.007
蒋尚明, 金菊良, 袁先江, 等. 2013. 基于近邻估计的年径流预测动态联系数回归模型[J]. 水利水电技术, 44(7): 5-9. DOI:10.3969/j.issn.1000-0860.2013.07.002
李佳, 王黎, 马光文, 等. 2008. LS-SVM在径流预测中的应用[J]. 中国农村水利水电, (5): 8-10, 14.
李希灿, 王静, 赵庚星. 2010. 径流中长期预报模糊识别优化模型及应用[J]. 数学的实践与认识, 40(6): 92-98.
李祚泳, 汪嘉杨, 徐源蔚. 2018. 基于规范变换与误差修正的回归支持向量机的环境系统预测[J]. 环境科学学报, 38(3): 1235-1244.
李祚泳, 汪嘉杨, 徐源蔚. 2019a. 规范变换与误差修正结合的环境系统的前向网络和投影寻踪预测模型[J]. 环境科学学报, 39(6): 2053-2070.
李祚泳, 魏小梅, 汪嘉杨. 2019b. 规范变换降维与误差修正结合的环境系统的一元线性回归预测[J]. 环境科学学报, 39(7): 2455-2466.
Liu Y H, Zhu Q, Yao D, et al. 2015. Forecasting urban air quality via a back-propagation neural network and a selection sample rule[J]. Atmosphere, 6(7): 891-907. DOI:10.3390/atmos6070891
Moazami S, Noori R, Amiri B J, et al. 2016. Reliable prediction of carbon monoxide using development support vector machine[J]. Atmospheric Pollution Research, 7(3): 412-418. DOI:10.1016/j.apr.2015.10.022
孙宝磊, 孙蒿, 张朝能, 等. 2017. 基于BP神经网络的大气污染物浓度预测[J]. 环境科学学报, 37(5): 1864-1871.
Shaban K B, Kadri A, Rezk E, et al. 2016. Urban air pollution monitoring system with forecasting models[J]. IEEE Sensors Journal, 16(8): 2598-2606. DOI:10.1109/JSEN.2016.2514378
Tan G H, Yan J Z, Gao C, et al. 2012. Prediction of water quality time series data based on least squares support vector machine[J]. Procedia Engineering, 31: 1194-1199. DOI:10.1016/j.proeng.2012.01.1162
Thoe W, Wong S H C, Choo K W, et al. 2012. Daily prediction of marine beach water quality in Hong Kong[J]. Journal of Hydro-environment Research, 6(3): 164-180. DOI:10.1016/j.jher.2012.05.003
王保良, 范昊, 冀海峰, 等. 2016. 基于分段线性表示的最近邻的水质预测方法[J]. 环境工程学报, 10(2): 1005-1009.
Xi J H, Wang H D, Jiang L Y. 2012. Multivariate time series prediction based on a simple RBF network[J]. Advanced Material Research, 566: 97-102. DOI:10.4028/www.scientific.net/AMR.566.97
徐纬芳, 刘成忠, 顾延涛. 2010. 基于PCA和支持向量机的径流预测应用研究[J]. 水资源与水工程学报, 21(6): 72-75.
周佩玲, 陶小丽, 傅忠谦, 等. 2011. 基于遗传算法的RBF网络及应用[J]. 信号处理, 17(3): 269-273.
张旭东, 高茂亭. 2016. 基于IGA-BP网络的水质预测方法[J]. 环境工程学报, 10(3): 1566-1761.