2. 重庆大学建筑规划设计研究总院有限公司, 重庆 400045;
3. 华南师范大学环境学院, 华南师范大学环境理论化学教育部重点实验室, 广州 510006;
4. 暨南大学地下水与地球科学研究院, 广州 510632
2. General Architectural Planning and Design Research Institute of Chongqing University Co., Ltd., Chongqing 400045;
3. Key Laboratory of Theoretical Chemistry of Environment, Ministry of Education, School of Environment, South China Normal University, Guangzhou 510006;
4. Institute of Groundwater and Earth Sciences, Jinan University, Guangzhou 510632
由于水体中重金属等有毒污染物具有微量及难生物降解的特性, 其含量升高逐渐成为全球关注的环境问题(Zhang et al., 2015; Wang et al., 2019).近年来, 我国水体污染事件频发, 其中化学性污染以砷污染为主(丁凡等, 2017).研究表明, As会破坏细胞的氧化还原能力, 影响人体正常代谢(Perry et al., 2019), 造成组织损伤和机体紊乱, 甚至会导致中毒死亡(候双迪等, 2017).因此, 进行水体水质预报具有重要意义, 可以提前掌握未来一段时间内水质情况, 以降低水体污染造成的危害.
然而, 由于地表水中As浓度的测定受人力、物力成本的限制(Hung et al., 2004), 所以利用模拟工具来表征As污染潜力成为掌握水质情况、减少水污染危害的一种替代方法.随着计算机技术发展而诞生的人工神经网络(ANN)技术, 在很大程度上弥补了传统水质预测方法的缺陷, 在简化操作流程的同时也提高了预测精度, 目前已在水文、气象等领域得到了广泛应用(Ardabili et al., 2020).ANN中使用最广泛、最成熟的反向传播神经网络(Back Propagation Neural Network, BPNN)以较强非线性映射、自适应、泛化和容错能力, 成功地应用在降雨径流过程的模拟、河流流量预测、溶解氧预测、COD预测等方面(KişI et al., 2004; 梁国华等, 2009; Rankovic et al., 2010; 郭庆春等, 2014), 但该模型在地表水As含量预测方面的应用较少.虽然BP人工神经网络比较适合处理动态、非线性及不确定的水文信息, 但其自身算法缺陷也是不可回避的, 正是由于诸如学习速度慢、不易收敛、易陷入局部最优等问题, 影响了预测的准确性及可靠性(李辉东等, 2015).
遗传算法(Genetic Algorithm, GA)是一种根据生物遗传法则和进化学说启发而生的具有全局搜索寻优能力的智能算法(王德明等, 2015).在BP网络训练前就先赋予模型相对较优的初始权值和阈值, 让BP网络可以很快收敛到全局最优解(陈笑等, 2019; 谢劭峰等, 2020).小波分解是一种处理非平稳数据集的有效工具, 在过去几十年里被广泛应用于时间序列或空间数据分析(Wang et al., 2003; Mitra et al., 2020).近期的小波-人工神经网络(Wavelet-ANN)预测研究包括每日河流流量、降雨径流、海滩微生物污染、地下水水位等(Nourani et al., 2009; Sehgal et al., 2014; 张建峰等, 2016; Zhang et al., 2018), 然而该方法在地表水管理中应用也较少.
基于此, 本研究提出皮尔逊相关系数和信息指标评价法对模型输入变量进行筛选, 以降低人为选择输入变量而导致的主观性强的问题.同时提出小波-遗传算法改进的人工神经网络耦合模型, 并将其应用于地表水As浓度预报(W-GABP).最后, 本文还对单水质参数与多水质参数输入的BPNN、GABP、W-GABP模型进行比较分析, 以证明小波-遗传改进神经网络在地表水As浓度预测上的实用性, 以期为提高水体污染物质预测精度提供一种有效方法.
2 数据与方法(Data and methods) 2.1 研究数据本研究采用的数据为某河流监测站1998年1月—2016年12月共19年的水质监测数据, 该数据从一周的混合物样本中测量所得, 取每月数次监测数据的平均值作为该站点的月检测值.一方面, 通过逐月预报可以提前掌握未来较长时间内地表水As浓度的大致情况, 以及时采取措施降低水体污染造成的危害;另一方面, 逐月预报的准确性普遍较低, 这不利于地表水污染防控最佳方案的确定.
选取的水质监测参数中硫酸盐、溶解氧、化学需氧量、氯化物、生化需氧量、氨氮、硝酸盐、铁的浓度单位为mg·L-1, 汞、锌、铜、锰、砷的浓度单位为μg·L-1.最后, 将记录的数据划分为训练和模拟两类, 1998—2010年的数据用于模型训练, 2011—2016年的数据用于模拟训练好的模型, 以进一步评价模型的预测性能.
2.2 输入层自变量选择方法由于水体环境十分复杂, 且水质监测参数多, 各个水质监测参数之间的相互影响不明, 为了降低运算的难度, 充分让网络学习有用信息, 所以在选择模型输入层的自变量时, 采用皮尔逊相关系数和信息指标评价法相结合的方式对变量进行选择(张萌等, 2017).
2.2.1 皮尔逊相关系数皮尔逊相关系数可以表征两个变量之间的线性相关程度.假设x1…xn-1为输入层, xn为输出层, 现有以下矩阵:
(1) |
式中, xi, j为第j组的第i个数据, 由于各组之间的单位可能会不同, 故先将所有数据进行均值标准化, 统一处理为无量纲数, 具体公式如下:
(2) |
式中, yi, j为标准化后的数据;xnax为该组数据的最大值;xmin为该组数据的最小值.在求得标准化数据后, 即可求相关系数r(yj, yn), 公式如下:
(3) |
式中, r(yi, yn)的取值范围为[-1, 1], r(yi, yn)越接近1, 表示yi与yn的相关性越强;r(yi, yn)越接近0, 表示yi与yn的相关性越弱.
2.2.2 信息指标评价法在求得各输入层数据与输出层数据之间的相关系数后, 将各相关系数按绝对值大小排序, 进行信息指标计算.所谓信息指标计算法, 就是利用各数据间的方差来表示水质指标所携带的信息, 再对其进行信息持有度分析, 再根据一定标准筛选出最优水质指标组合.信息持有度(R)可以表示为前i个输入层的方差之和(Si)与总的m个输入层的方差(Sm)之比, 具体如下所示:
(4) |
(5) |
(6) |
式中, zi与zm分别为第i或m个输入层;E(zi)与E(zm)为前i个或总的m个输入层的算术平方根.
最后需确定最佳输入层个数, 由于没有确定的理论, 故本研究参考主成分分析法中取值, R=80%, 即满足信息持有度为80%时的前i个输入层为最佳输入层, 它们所包含的信息已经在很大程度上反映了监测水体的水质变化情况及各水质监测指标之间的相互影响情况.
2.3 小波分解小波分解克服了傅里叶变换只在频率上局部化的缺点, 是一种同时具有时域和频域的变换分析方法(Morlet et al., 1982; Parsons et al., 2000).小波分解又分为连续小波分解和离散小波分解.
由于水文时间序列数据的离散化特性, 离散小波分解在大部分水文预报研究中都是首选方法(周雨婷, 2019).离散小波分解可以视作时间序列数据通过高通和低通滤波器, 进而产生离散小波系数(DWCs), 对于输入信号f(t), 第一步产生两组DWCs: 低频的高通近似系数A1和高频的细节系数D1.下一步用同样的方法继续分解近似系数A1, 产生A2和D2, 以此类推.时间序列f(t)在通过n层小波分解后结构为[An, Dn, Dn-1, …, D2, D1](Sahoo et al., 2016).离散小波分解可定义为:
(7) |
式中, a0与b0均为常数;j为分解水平;k为平移参数;n为信号长度.若分解水平j=3, 则3层小波分解如图 1所示.
利用试错法和经验式(8)分别得到合适的小波函数及分解水平(Tiwari et al., 2010):
(8) |
式中, L为分解水平, N为原始时间序列长度.
最后决定使用Daubechies(db6)小波函数对这19年的实测水质数据进行3次分解, As浓度时间序列小波分解结果如图 2所示.由图 2可知, 通过小波分解的原始水质时间序列被分解为高频和低频部分, 通过伸缩平移运算让时间序列实现了多分辨率细化, 最后分解所得的低频系数能比较明显地反映原始时间序列的趋势而又不失代表性, 让预测模型可以更好地学习原始序列的信息, 以实现高精度水质预报.
BPNN的模拟计算过程可以分为两个部分: 一是输入信号正向传递, 二是误差信号反向传递, 通过权值和阈值的不断调整, 直到模型输出与期望输出的误差小于设定误差(Ramirez et al., 2005; 朱星明等, 2005).BP网络由输入层、隐含层和输出层组成, 理论实践证明, 仅含一个隐含层的BP网络模型就几乎可以处理任意一个非线性相关问题, 故本研究选择使用一个隐含层, 隐含层节点数根据经验式(9)确定.
(9) |
式中, n为输入节点个数;q为输出节点个数;a为0~10的正整数;m为隐含层节点个数, 经过试错法及经验式最终决定隐含层节点数为7个.其他初始参数的选取, 迭代次数为100次, 网络训练的期望误差为1×10-20, 学习步长η为1×10-7, 选择Sigmoid函数作为传递函数.
BPNN的初始权值和阈值在[-1, 1]的范围内随机选取, 这也就导致了BP网络因其连接层权值阈值可能会过度调整, 以致最终预测精度较差.
2.5 遗传算法遗传优化算法是受生物遗传学启发而产生的一种人工智能算法.在该算法中将问题的解用“染色体”来表示, 以实数编码的方式, 其长度由式(10)计算, 将BPNN初始的随机权值和阈值参数集编码成位数串, 这些“染色体”群便形成了类似自然界的种群, 初始种群规模为50.
(10) |
式中, m为染色体编码的长度;i、j、h分别为输入层、输出层和隐含层的节点数.
将种群置于问题的具体“环境”中, 通过适应度函数(11)来衡量个体对“环境”的适应能力, 以适应度值筛选优秀个体, 得到下一代优秀种群和个体.
(11) |
式中, F为适应度;k为系数;n为输出层节点数;yi为该节点的实际输出;Oi为该节点的预测输出.
再通过选择、交叉和变异一系列操作产生更加优秀的个体.选择操作采用适应度比例法, 个体被选中的概率由式(12)确定, 交叉概率取0.4, 变异概率取0.05.
(12) |
式中, pi为个体被选中的概率;
经过重重筛选和进化, 最终得到对环境适应能力最强的个体, 即问题的可能解最终收敛到一个最优解(孙天英, 2008), 最后将得出的最优权值和阈值赋予BPNN中.遗传算法对BPNN权值和阈值优化流程如图 3所示.
模型均采用决定系数(R2)、均方根误差(RMSE)、平均绝对百分比误差(MAPE)进行精度评价, 各指标的表达式如下所示:
(13) |
(14) |
(15) |
式中, yi为原始数据;
为了探讨输入变量对水体As浓度预报精度的影响, 需对实测的多水质监测参数进行变量选择.首先计算硫酸盐、溶解氧、化学需氧量、氯化物、生化需氧量、氨氮、硝酸盐、铁、汞、锌、铜、锰与砷的相关系数, 将各水质参数按相关系数绝对值从大到小排列, 根据式(5)计算各水质监测参数的方差, 根据式(4)进行信息持有度计算, 计算结果如表 1所示.最后根据满足信息持有度为80%时的前i个输入层为最佳输入层.
多水质参数预测模型输入变量为硫酸盐、溶解氧、汞、锌、化学需氧量、氯化物、铜、生化需氧量及氨氮, 利用前3个月变量的监测值及其小波分解系数来对下一个月的As浓度值进行预测.单水质参数预测模型输入变量为前3个月的As浓度值及其小波分解系数, 以此对下一个月的As浓度值进行预测.
3.2 W-GABP耦合模型构建W-GABP耦合模型构建流程图见图 4.利用Daubechies(db6)小波函数将原始水质时间序列经过3次离散小波分解(式(7))得到高频和低频部分, 随着低频部分的继续分解, 低频部分所包含的高频成分信息会越来越少, 重复以上分解便可以得到任意尺度上的高频和低频部分, 最后分解所得的小波分解系数(D1、D2、D3、A3)能比较明显地反映该项水质浓度时间序列的趋势而又不失代表性.根据地表水As浓度预报该实际问题, 系统随机赋予BPNN一组初始权值和阈值, 利用实数编码方法生成初始种群, 经过一系列的遗传操作后赋予BPNN较优的连接层权值和阈值.最后输入小波分解系数对耦合模型进行训练, 直到预设误差或迭代次数后结束训练, 再输出预测结果.
将2.1节筛选出的水质监测参数的过去值及其小波分解系数作为预测模型的输入参数, 其预测值与实际值的决定系数(R2)、均方根误差(RMSE)、平均绝对百分比误差(MAPE)对模型精度见表 2, 各模型预测结果如图 5所示.
由以上图表可得BPNN精度最低, MAPE为17.51%, 决定系数为0.26.W-GABP在多水质参数输入的模型中精度最高, MAPE为14.46%, 决定系数为0.46, GABP介于两者之间.3种模型输出的As浓度预测值与真实值在变化趋势上基本一致, 但在原序列波动较大或极值出现时, 有大幅度偏离真实值的现象.通常, 决定系数R2在0.6以上则认为结果是可信的, 所以虽然以上多水质参数输入的预测模型都能模拟出As浓度变化趋势, 但不能提供精确水质预报.
4.2 单水质参数模型将As浓度监测参数的过去值及其小波分解系数作为预测模型的输入参数, 其预测值与实际值的决定系数(R2)、均方根误差(RMSE)、平均绝对百分比误差(MAPE)对模型精度如表 3所示, 各模型预测结果如图 6所示.
由以上图表可得BPNN与GABP精度最低, 与多水质参数输入的BPNN相当, MAPE分别为18.75%和16.74%, 决定系数分别为0.26和0.24.单水质参数输入的W-GABP精度在所有预测模型中精度最高, MAPE为7.83%, 决定系数为0.85, 较准确地预测了下月As浓度变化情况.
5 分析与讨论(Analysis and discussion) 5.1 输入变量对预测精度的影响在本研究中, 采用皮尔逊相关系数与信息指标评价法筛选外部变量, 来分析输入变量对模型预测性能的影响.结果表明, BPNN在两种输入下预测精度相当, 多水质参数输入GABP预测性能略高于单水质参数输入, 而单水质参数输入让W-GABP的预测精度大大提升, R2提升0.39, RMSE降低0.16 μg·L-1, MAPE降低6.63%.这是因为水环境中影响As浓度变化的因素较多, 各个水质参数之间的关系较复杂, 若在模型输入中没有找到主控因素, 输入的多个水质序列会对模型造成不利影响, 从而导致模型预测精度下降.一方面, 对于不同的模型, 需选择不同的输入变量, 以获得最佳的预测精度;另一方面, 单水质参数输入的W-GABP展现出良好的预测精度, 这对数据缺乏地区的水质预报与地表水As污染防控具有重要意义.
5.2 小波分解与遗传算法对预测精度的影响BPNN模型预测精度最低, W-GABP相对于BPNN预测精度有较大程度的提高.一方面, 说明通过遗传优化算法提前赋予BPNN较优的权值阈值后, 可以较大程度地降低初始权值阈值因随机选取从而导致过多或过大的网络结构参数调整, 进而较大幅度地提高了预测精度.另一方面, 将输入序列通过小波分解处理后, 模型的预测精度得以进一步提升, 说明将原始时间序列数据通过小波变换后, 能同时从时域和频域揭示时间序列局部特征, 从而让模型可以更好地学习序列的各种特征, 进而预测精度得以再次提高.
综上所述, 单水质参数输入的W-GABP是所有模型中预测效果最好的.该模型将As浓度时间序列通过小波分解后所得小波分解系数作为预报因子, 输入至通过遗传优化算法提前赋予较优初始权值阈值的BPNN中, W-GABP耦合模型不仅克服了权值阈值的随机性带来的误差, 还能从分解后的小波系数中充分学习到原始序列的更多细节信息, 故W-GABP的预测精度最高, 也说明了遗传优化算法和小波分解能在较大程度上改善水体中污染物浓度的预测精度, 进而为水质监控提供参考, 对水体污染防治具有重要意义.
6 结论(Conclusions)1) 多水质参数BPNN、GABP与W-GABP耦合模型预测结果的MAPE分别为17.51%、15.98%、14.46%, 单水质参数BPNN、GABP与W-GABP耦合模型预测结果的MAPE分别为18.78%、16.74%、7.83%.单水质参数W-GABP耦合模型展现出最佳预测性能, RMSE=0.17 μg·L-1, R2=0.85, MAPE=7.83%, 其高拟合度与低误差可以指导实际应用.
2) 利用遗传算法强大的全局寻优能力与小波分解在不同尺度上对时间序列信息的揭示能力, 为稳定可靠地预测地表水As污染物提出了新方法.所建立的单水质参数W-GABP耦合模型可以较准确地预报水体中As的浓度值, 对数据缺乏地区水质监控和地表水As污染防治具有重要意义, 同时可为提高其它水体污染物的预测精度提供参考方法.
3) 采用皮尔逊相关系数和信息指标评价法相结合的方式从多水质参数中筛选输入变量, 可以降低因人为选择而存在的主观性强的问题, 但如果没有找到主控因素, 反而会导致模型预测精度下降.对于地表水水质预报, 需对比不同模型在不同输入变量下的预测结果, 以获得最佳的预测精度.
Alexander D L J, Tropsha A, Winkler D A. 2015. Beware of R2: Simple, unambiguous assessment of the prediction accuracy of QSAR and QSPR models[J]. Journal of Chemical Information & Modeling, 55(7): 1316-1322. |
Ardabili S, Mosavi A, Dehghani M, et al. 2020. Deep learning and machine learning in hydrological processes climate change and earth systems: A systematic review[J]. Engineering for Sustainable Future. DOI:10.20944/preprints201908.0166.v1 |
陈笑, 胡宏祥, 戚王月, 等. 2019. 基于集对分析和GA-BP神经网络的地下水埋深预测研究[J]. 华北水利水电大学学报(自然科学版), 40(4): 57-64. |
丁凡, 黄立勇, 王锐, 等. 2017. 中国2004-2015年突发水污染事件监测数据分析[J]. 中国公共卫生, 33(1): 59-62. |
郭庆春, 郝源, 李雪, 等. 2014. BP神经网络在长江水质COD预测中的应用[J]. 计算机技术与发展, 24(4): 235-238+242. |
Hung D Q, Nekrassova O. 2004. Compton.Analytical methods for inorganic arsenic in water: A review[J]. Talanta, 64(2): 269-277. DOI:10.1016/j.talanta.2004.01.027 |
侯双迪, 王鑫, 邵娟娟, 等. 2017. 食品中重金属砷的危害及其检测方法[J]. 农产品加工, (7): 39-40+43. |
Jin Z, Pei H, Peter K. 2015. The build-up dynamic and chemical fractionation of Cu, Zn and Cd in road-deposited sediment[J]. Science of the Total Environment, 532(1): 723-732. |
KişI O. 2004. River flow modeling using artificial neural networks[J]. Journal of Hydrologic Engineering, 9(1): 60-63. DOI:10.1061/(ASCE)1084-0699(2004)9:1(60) |
梁国华, 习树峰, 王本德. 2009. 基于BP神经网络的旬降雨径流相关预报模型[J]. 水力发电, 35(8): 10-12+39. |
李辉东, 关德新, 袁凤辉, 等. 2015. BP人工神经网络模拟杨树林冠蒸腾[J]. 生态学报, 35(12): 4137-4145. |
Mitra G, Mina A. 2020. A novel wavelet artificial neural networks method to predict non-stationary time series[J]. Communications in Statistics-Theory and Methods, 49(4): 864-878. DOI:10.1080/03610926.2018.1549259 |
Morlet J, Arens G, Fourgeau E, et al. 1982. Wave propagation and sampling theory-Part I: Complex signal and scattering in multilayered media[J]. Geophysics, 47(2): 203-21. DOI:10.1190/1.1441328 |
Nourani V, Komasi M, Mano A. 2009. A multivariate ANN-wavelet approach for rainfall-runoff modeling[J]. Water Resources Management, 23(14): 2877-2894. DOI:10.1007/s11269-009-9414-5 |
Özgür K. 2004. River flow modeling using artificial neural networks[J]. Journal of Hydrologic Engineering, 9(1): 60-63. DOI:10.1061/(ASCE)1084-0699(2004)9:1(60) |
Parsons S, Boonman A M, Obrist M K. 2000. Advantages and disadvantages of techniques for transforming and analyzing chiropteran echolocation calls[J]. Journal of Mammalogy, 81(4): 927-38. DOI:10.1644/1545-1542(2000)081<0927:AADOTF>2.0.CO;2 |
Perry A, Lynch R M, Rusyn I, et al. 2019. Long-term combinatorial exposure to trichloroethylene and inorganic arsenic in genetically heterogeneous mice results in renal tubular damage and cancer-associated molecular changes[J]. G3-Genes Genomes Genetics, 9(5): 1729-1737. |
Ramirez M C V, Velho H F D, Ferreira N J. 2005. Artificial neural network technique for rainfall forecasting applied to the So Paulo region[J]. Journal of Hydrology, 301(1/4): 146-162. |
Rankovic V, Radulovic J, Radojevi I, et al. 2010. Neural network modeling of dissolved oxygen in the Gruza reservoir, Serbia[J]. Ecological Modelling, 221(8): 1239-1244. DOI:10.1016/j.ecolmodel.2009.12.023 |
Sahoo B, Nanda T, Bhabagrahi H, et al. 2016. A wavelet-based non-linear autoregressive with exogenous inputs(WNARX) dynamic neural network model for real-time flood forecasting using satellite-based rainfall products[J]. Journal of Hydrology, 539: 57-73. DOI:10.1016/j.jhydrol.2016.05.014 |
Sehgal V, Tiwari M K, Chatterjee C. 2014. Wavelet bootstrap multiple linear regression based hybrid modeling for daily river discharge forecasting[J]. Water Resources Management, 28(10): 2793-2811. DOI:10.1007/s11269-014-0638-7 |
Seth I. 2015. Use of artificial neural networks and genetic algorithms in urban water management: A brief overview[J]. Journal American Water Works Association, 107(6): 93-97. |
孙天英. 2008. 遗传算法及在控制理论中的应用研究[D]. 哈尔滨: 哈尔滨工业大学
|
Tiwari M K, Chatterjee C. 2010. Development of an accurate and reliable hourly flood forecasting model using wavelet-bootstrap-ANN(WBANN) hybrid approach[J]. Journal of Hydrology, 394(3/4): 458-70. |
Wang W, Ding J. 2003. Wavelet network model and its application to the prediction of hydrology[J]. Nature & Science, 1(1): 67-71. |
王德明, 王莉, 张广明. 2015. 基于遗传BP神经网络的短期风速预测模型[J]. 浙江大学学报(工学版), 46(5): 837-841+904. |
谢劭峰, 赵云, 李国弘, 等. 2020. GA-BP神经网络的GPS可降水量预测[J]. 测绘科学, 45(3): 33-38. |
Zhang J, Qiu H, Li X Y, et al. 2018. Real-time nowcasting of microbiological water quality at recreational beaches: A wavelet and artificial neural network-based hybrid modeling approach[J]. Environmental Science & Technology, 52(15): 8446-8455. |
Wang Z Y, Hua P, Li R F, et al. 2019. Bill X.Concentration decline in response to source shift of trace metals in Elbe River, Germany: A long-term trend analysis during 1998-2016[J]. Environmental Pollution, 250: 511-519. DOI:10.1016/j.envpol.2019.04.062 |
张建锋, 刘见宝, 崔树军. 2016. 小波-神经网络混合模型预测地下水水位[J]. 长江科学院院报, 33(8): 18-21. |
张萌, 赵志怀, 司宏宇. 2017. 基于改进的BP神经网络水源地水质安全预测[J]. 水力发电, 43(10): 1-4. |
周雨婷. 2019. WA-ANN模型在水文时间序列长期预报中的应用[D]. 南京: 南京大学
|
朱星明, 卢长娜, 王如云, 等. 2005. 基于人工神经网络的洪水水位预报模型[J]. 水利学报, (7): 806-811. DOI:10.3321/j.issn:0559-9350.2005.07.007 |