ABB
关注中国自动化产业发展的先行者!
CAIAC 2025
2025工业安全大会
OICT公益讲堂
当前位置:首页 >> 案例 >> 案例首页

案例频道

基于神经网络的水质预测模型研究
  • 企业:     行业:综合    
  • 点击数:3988     发布时间:2023-01-13 23:07:32
  • 分享到:

文献标识码:B文章编号:1003-0492(2022)12-066-04中图分类号:TP311

★王梅芳,张磊,单卫军(深圳市水务科技有限公司,广东深圳518000)

摘要:水体预测分析在掌握江河水体的现状、理解污染物质转移的特点以及了解污染源的排污状况进而预测水体发展趋势等方面有着重要意义。有效的水资源管理和明确的水污染治理的区域规划是水生态环境保护的首要任务,而水体的预测分析则是基本保障。本文以某河流域为研究对象,根据其水体现状以及检测的统计数据,创建人工神经网络的水体预测模型,对水环境的关键超标准污染物质总氮的含量进行仿真模拟预测分析。分析数据表明,经过训练后的神经元网络的预测分析偏差低于5%,因而该实体模型能合理地预测分析水体中的总氮浓度值。

关键词:神经网络;水质;预测模型

随着我国经济快速发展,工业生产及日常生活需水量猛增,水资源污染和水源污染问题越演越烈,快速精准地预测分析水体是水源信息化管理的关键。对于水体预测分析,世界各国进行了大量研究,并提出多种预测分析理论模型。传统式的水体预测分析基础理论主要是以污染源为核心的机理性水质模型和以水源保护区水质为核心的非机理性水质实体模型,对江河水体变化趋势和污染物质迁移扩散状况开展探究和预测分析。但由于模型对繁杂的自然环境及其多样化的数学模型机理的适应能力较弱,因而导致传统式预测模型的预估精度较差[1-3]

随着人工智能应用和深度神经网络的迅速发展,人工智能技术逐渐渗透到生产制造的各个方面。在水体预测分析行业,以水体为核心的非机理性预测分析方式获得普遍的运用。大部分科学研究主要是运用回归分析、灰色模型、svm算法实体模型及神经元网络等来预测分析水体[4-6]。与实体模型相比,因神经网络模型特有的最优控制、软性的网络拓扑结构、强悍的并行计算信息内容的功能及其较强的自适应性,被广泛应用于水质的预测分析。孔刚等[7]根据BP(Back Propagation,误差反向传播)神经网络运用单因素评价方法,对某地区的地表水超标准因素进行了分析研究,研究结论能对昌平的地表水管理方面给予具体指导。李晓辉等[8]基于深灰色模型,对仿真模拟值和方差开展了BP神经网络模型预测研究,研究结果能提高降雨量的预估精度。Kim等[9]耦合了聚类算法与神经元网络,减少了数据信息训练不平衡对网络拓扑结构练习造成的不良影响。Shi等[10]在神经元网络基础上,运用时频分析法对水体时间序列分析进行减噪处理,从而提升了预测分析精度。宋一凡等[11]选用同样的方式,其仿真模拟结果表明:该模式可以高效地防止小波变换神经元网络和BP网络深陷局部极小值,进而对水文气象状况的趋势进行精准预测,具备较好的气象预报精度和可靠性。

1 研究目标与内容

神经元网络和深度神经网络的飞速发展,为水体预测分析行业带来了新的预测分析构思。但在水质预测分析领域,神经网络方式的使用仍处在初级探索阶段。因此,本研究运用神经网络建模方法,搭建神经元网络水体预测模型并对流域水体开展分析预测,希望在丰富水体预测分析领域研究基础理论的同时能为水资源整治给予实践指导。

1.1数据采集

本研究所采用的数据是某河流域连续325天的数据信息。为确保预测模型的准确性,文中将某河流域2021年325天的总氮浓度值数据信息中的前300天数据作为训练集,以确保训练样本的总数满足训练要求。

数据预处理是对时间序列分析开展预测分析的主要前提。未预处理原始数据经常会出现数据信息缺少、紊乱、数据信息逻辑不符及运算量大造成分析困难等问题。为确保对数据进行有效分析,必须先对数据进行预处理,主要包含数据清洗和数据归一化。

1.2 数据样本的选择

1.2.1 数据清洗

数据信息在采集环节中存在数据信息不正确、缺乏记录等问题,这种干扰正确数据的信息会严重影响到后续的数据统计分析。因此在对数据资料进行后续处理前,需要预处理样本信息,确保数据信息的一致性。整个清洗过程是对样本信息开展校验和查验,主要是查验样本信息的一致性和缺失情况,并处理失效数据和丢失数据。数据预处理是对数据采用删除或者替代方式,以样本数据信息总体或部分平均值、平均数或众数等替代失效数据进行填补。

文中对危害某河流域水体的总氮数据完成清洗,设定浓度值数据有效范围为0-4mmol/m3。在进行数据清理时,发现数据中的第104天数据超过有效范围并且缺少第21和76天的浓度值数据信息。由于数据信息样本比较大,因此本文用前5天和后5天数据的平均值来替代问题数据,对异常数据和缺失数据进行处理。将2021年5月到2021年12月的107组数据的前102组数据进行模型的训练,这102组数据被划分为三部分:训练集、验证集和测试集。后5组数据信息用以实体模型的校检。

1.2.2数据归一化处理

在搜集原始记录时,存在个别数据记录值较大,测算量大且不收敛的问题,因而将原始记录的数据进行归一化处理,将原始记录依照一定占比放缩,限定在一个小的区段范围内。归一化处理既有利于加快后续数据的处理,又可以提高建模的收敛性速率和精度。数据归一化的形式有min-max规范性和z-score规范化,本研究中采用的是min-max规范性。

Min-max规范化的原理是对样例信息进行线性变换。将原始记录依照一定占比缩放进[0,1]或[-1,1]区段内,文中选用的是[0,1]区段内,实际计算公式如下所示:

image.png

式中,

X-原始样本数据;

min(X)-原始样本数据的最小值;

max(X)-原始样本数据的最大值;

x-经归一化处理后的数据。

1.2.3评价标准

本文选用平均偏差和均方根误差作为评价指标。均方根误差可以表示数据信息的变化水平,值越小表示预测模型具有越好的精确度,计算方式如下所示。

平均误差:

image.png

均方根误差:

image.png

式中,

n-样本数量;

fi-模型预测值;

yi-实际值。

2 基于神经网络水质预测模型的建立

2.1 神经网络预测模型的实现

本文使用的仿真软件为MATLAB2019。对于神经网络,为了使得网络性能达到更理想的状态,一般权值连接输入端的神经元的数量的选定范围在(-2.4/F,2.4/F)的随机值,具体的流程如图1所示。

image.png

图1 分析预测流程

2.2 训练集与验证集样本的划分

BP神经元网络的实现必须包含两部分数据:训练样本数据与验证样本数据。训练样本指用以网络学习、训练的样本,这一部分数据信息作为神经元网络的训练样本,通过学习优化算法开展权重值和阈值的调节,使BP网络对训练样本有着一个较好的线性拟合情况;验证样本则用以神经网络练习结束后,输入模型,验证已完成训练过程的BP神经网络对生疏数据信息的线性拟合工作能力,检测所建立的神经网络模型预测分析现阶段水体的效果。

本文将102组数据作为模型的训练数据,这102组数据被划定为三部分:第一部分用以训练,第二部分用以验证,第三部分用以检测。后5组数据信息用以实体模型的校检。

2.3训练算法的选取

MALTAB的训练算法具体有三种;第一种是ML优化算法,全称为Marquardt Levenberg训练法。该计算方法是应用最普遍的最优控制最小二乘法,具备梯度方向法和牛顿法的优势。此方法会占有大量内存,原因是该优化算法必须求得矩阵的逆。第二种是贝叶斯算法正则化优化算法(Bayesian Regularization),此类优化算法能避免过度拟合:加上正则化项等同于加上处罚项,趋于让神经网络模型复杂性减少,可以避免过度拟合,在处理繁杂、样本少且噪声大的数据的时候会有比较好的效果。第三种是量化分析共轭梯度法(Scaled Conjugate Gradient),此优化算法占用的运行内存更少。从运算速度方面考虑,本文的训练优化算法选用Levenberg-Marquardt(此处与上文出现的英文名不一致),它是梯度下降法与高斯函数-牛顿法的结合,不仅有高斯函数-牛顿法的局部收敛性,还具备梯度下降法的全局性特点。LM(此处与上文出现的简写不一致)优化算法运用了类似的二阶导数信息,相比梯度方向法速度更快。

2.4 隐层数与隐层节点数的选择

当训练集明确以后,输入层节点个数和输出层节点个数便确定,后续就需要确定隐层数和隐层连接点数。在开展神经元网络的总体设计时首先考虑开展三层网络的设计方案,除此之外,依据Kolmogorov定律,针对随意三层的前向神经元网络,根据隐层神经细胞数量和非线性函数拟合准确度的对应关系,确定BP神经网络的隐含层数目为1。

2.5 模型训练及选取

模型训练时,要求的偏差限为0.01,模型的原始权重值和阈值由MATLAB随机生成。利用均方根误差(RMSE)和相关系数r(R)来确认建立的神经网络模型是否可用。表1列出了神经网络模型的RMSE和R值。

表1神经网络训练结果

image.png

由上表的结果可以确定:隐含层的神经元个数为12,BP神经网络模型的训练误差为0.328,验证误差为0.445,相关系数R值为0.89,误差较小,相关性较大,可以作为预测模型进行应用。模型的训练结果见图2。

image.png

图2 预测和训练值比较

3 结果与讨论分析

运用训练好的神经网络模型,对2021年8月-2021年12月的总氮浓度值进行预测分析,分析结论见表2和图3。由图3和表2可知,8月到12月,神经网络模型相对误差的绝对值都小于5%。8月和9月预测精度相比10、11和12月更高,主要是因为影响水质变化的因素不是绝对不变的,上游产生的环境问题和污染会传递到下游的水域系统中,水质也会发生相应的改变。总的来说,本文所建立的模型能有效地预测水质中的总氮浓度。

表2 总氮浓度预测校检结果(三线表)

image.png

image.png

image.png

图3 总氮实测值与两种模型预测值的对比曲线

4 结论

本文在搜集某河流域数据信息基础上,以数据预处理、归一化等方法对数据进行处理后,运用BP神经网络优化算法,搭建了某河流域总氮预测分析神经网络模型。该模式的总体偏差小于5%,在容许范围内。因而,基于灰色关联度的BP神经网络总氮预测模型在具体的水环境管理方法中有着一定的指导作用。

危害流域水体转变的因素并非完全一致的,相对上游造成的生态环境问题和环境污染也会传递到相对下游的海域系统中,进而对水体产生影响。因此,实体模型必须及时的升级和优化,并采用更大数量的练习数据集对所建立的模型进行训练,以确保预测模型具备实用价值。

作者简介:

王梅芳(1974-),女,四川达州人,电气工程师,现就职于深圳市水务科技有限公司,主要从事自动化方向的研究。

张磊(1978-),男,浙江杭州人,电气工程师,现就职于深圳市水务科技有限公司,主要从事自动化方向的研究。

单卫军(1977-),男,天津人,电气工程师,现就职于深圳市水务科技有限公司,主要从事自动化方向的研究。

参考文献:

[1] 陈奉军. 水环境监测质量控制相关措施的分析[J]. 资源节约与环保, 2019 (1) : 38.

[2] 董国庆, 孙伯寅, 李峥, 等. 时间序列模型在水源水化学耗氧量预测中的应用[J]. 环境与健康杂志, 2018, 35 (3) : 234 - 237.

[3] 王惠文, 孟洁. 多元线性回归的预测建模方法[J]. 北京航空航天大学学报, 2007(4): 500-504.

[4] 陈鹏飞, 王丽学, 李爱迪, 等. 基于灰色关联度与 BP 神经网络的清河水库总氮浓度预测模型[J]. 水电能源科学, 2018, 36 (7) : 40 - 43.

[5] 李春华, 胡文, 叶春, 等. 基于BP神经网络预测地表水净化装置总氮的去除效果[J]. 环境工程技术学报, 2018, 8 (6) : 651 - 655.

[6] 杨丽, 吴雨茜, 王俊丽, 等. 循环神经网络研究综述[J]. 计算机应用, 2018, 38 (S2) : 1 - 6.

[7] 孔刚, 王全九, 黄强. 基于BP 神经网络的北京昌平山前平原地下水水质评价[J]. 农业工程学报, 2017, 33 : 151 - 155.

[8] 李晓辉, 杨勇, 杨洪伟. 基于 BP 神经网络与灰色模型的干旱预测方法研究. 沈阳农业大学学报, 2014, 45 (2) : 253 - 256.

[9] Shi S, Cao J, Feng L, et al. Construction of a technique plan repository and evaluation system based on AHP group decision

making for emergency treatment and disposal in chemical pollution accidents[J]. Journal of Hazardous Materials, 2014, 276(jul.15):

200 - 206.

[10] Kim S E, Seo I W. Artificial Neural Network ensemble modeling with conjunctive data clustering for water quality prediction in rivers[J]. Journal of Hydro-environment Research, 2015.

[11] 宋一凡, 郭中小, 卢亚静, 等. 基于遗传算法优化的小波神经网络在中长期水文预报中的应用-以三门峡为例[J]. 中国水利水电科学研究院 学报, 2014, 12 (4) : 337 - 343.

摘自《自动化博览》2022年12月刊

热点新闻

推荐产品

x
  • 在线反馈
1.我有以下需求:



2.详细的需求:
姓名:
单位:
电话:
邮件: