宁波大学,宁波韦尔德斯凯勒智能科技有限公司 王宝磊
宁波韦尔德斯凯勒智能科技有限公司 邓华伟,王斐
宁波大学 吴可
宁波韦尔德斯凯勒智能科技有限公司 贾庆伟
宁波蔚澜环保科技有限公司 钱罡,史薛瑜
随着信息技术的飞速发展,水下环境的探索与监测已成为全球科研和工业领域的关键议题。水下机器人的具身智能识别能力作为水下作业的重要技术支撑,直接关系到作业效率与安全性。海洋资源开发、环境监测、水下考古以及军事侦察等领域,对水下机器人的具身智能识别性能也提出了更高要求。然而,水下环境的复杂性,如光衰减、高浊度、低对比度和高光散射等因素,导致水下图像常常模糊、色彩失真和细节丢失,极大地影响了智能识别的准确性和效率[1]。
传统的水下机器人智能识别方法主要包括基于声呐的探测技术和基于光学成像的图像处理技术[2]。声呐技术虽能在复杂环境中提供稳定成像,但成像速度慢且难以实现实时处理。光学成像技术则因高分辨率和实时性优势而备受青睐,但水下光学成像常受光线衰减和散射影响,图像质量下降,进而影响目标检测的准确性[3]。为克服这些限制,研究者们开始探索基于深度学习的检测算法。其中,YOLO(You Only Look Once)系列算法因其快速高效的检测能力被广泛应用。YOLO算法将目标检测任务整合为端到端的神经网络模型,显著提高了检测速度和精度。2023年, Ultralytics团队提出的YOLO v8算法在水下机器人智能识别中展现出较大优势,许多研究者基于此进行了优化。例如,李博豪等通过引入可变核卷积、注意力机制等提出了无人机航拍小目标检测算法[4] ;王文浩等通过引入DBB模块和Non- local改进方案等提出了水面漂浮物高效检测算法[5] ; Wang等开发的STF-YOLO算法通过引入新的卷积结构STRCN,在小目标检测方面实现显著性能提升[6] ; Zhang等提出的GCS-YOLO v8模型提高了远光灯车辆检测效率[7]。然而,因水下浑浊介质会降低图像可见度和对比度,上述算法的检测效果受限严重,它们直接应用在水下目标识别上尚不成熟。
因此,本文以YOLO v8n为基础, 通过多重优化提升具身智能水下机器人在浑浊介质环境下的识别性能。具体优化措施包括:首先,用深度可分离卷积DSConv (Depthwise-Separable Convolution with Kernel Distribution Shift)替换YOLO v8n骨干层P5层的常规卷积,降低网络复杂性并提高推理速度;其次,在YOLO v8n的C2f模块中引入倒置残差注意力机制iRMB,增强网络捕捉关键全局信息的能力,提升其对复杂场景的理解;最后,采用KioU损失函数替代原有的CioU损失函数,提高复杂环境下的边框回归精度。实验表明,本文的优化设计有非常明显的有效性。
1 YOLOv8基础结构相关介绍
1.1 具身智能水下机器人介绍
本文设计的水下机器人属于新一代数字化具身智能水下机器人,融合了ROV和AUV两类机器人技术优点,实现了“遥操作+自主导航”多模式作业。该机器人在产品设计层面主要分为水下航行器、水下采测作业
装置、岸基操控装置和远程系统四大模块。机器人功能架构如图1所示。

图1 机器人功能架构
其中,水下航行器核心组件包括高密度电池、大力矩舵机、抗扰控制器和机载传感器,确保了机器人的稳定运行和精确控制。水下采测作业装置主要设计了高清摄像机、高亮度水下照明、多波束声呐成像、多功能作业工具以及多模态水质监测设备,这些装置使得机器人能够执行复杂的水下观测、采样和作业任务。岸基操控装置通过岸基边缘计算控制器和AI加速识别服务器进行数据处理和智能分析,同时提供便携式遥控器、多功能操控器和功能更加丰富的桌面式工作站,以适应不同的操作需求。远程系统则通过4G/5G DTU连接云服务器,支持APP软件、PC数据分析软件和大数据库,对数据进行远程分析和管理,为操作人员提供决策支持。
本文水下机器人智能识别的工作流程为:首先具身智能机器人水下航行器搭载的高清晰光学相机在高亮度水下照明装置的辅助下对水下目标区域进行成像,然后通过智能机器人水下航行器的脐带缆发送到岸基控制装置的边缘计算控制器中,再经部署本文优化算法的AI加速识别服务器完成目标识别,最后将识别结果在岸基操控装置进行显示存储,并通过4G/5G DTU将识别结果发送至云服务器中供云端使用。上述过程中,对水下目标智能识别较为关键的部分为AI加速识别服务器。本文中的AI加速识别服务器配置为: Intel Core i7- 10700KF CPU,NVDIA Ge Force RTX 3090 GPU, 32 GB内存,24GB显存, Pytorch2.3.1深度学习框架, Python3.9编译系统,CUDA 11.8。
1.2 YOLOv8 基础结构介绍
YOLO v8是YOLO系列算法的最新版本,该版本YOLO算法实现了“速度-精度”的权衡优化提升。从YOLO演进过程来看, YOLO v1以“回归式端到端”框架奠定实时检测基础[8] ;YOLO v2-v3借助Darknet骨干与多尺度融合策略,将mAP提升10%量级并维持毫秒级延迟[9] ;YOLO v5-v7通过锚点精炼、重参数化及EMA注意力,在边缘端实现小于3ms的推理增益[10] ; YOLO v8则进一步以C2f跨阶段模块与解耦head重构,使640×640输入下COCO mAP达53.3%,参数量较v7缩减15%,显著缓解了密集小目标漏检。YOLO v8n作为YOLO v8的轻量级版本,广泛应用于机器人等运算资源受限的具身智能系统中,其网络结构如图2所示。

图2 YOLOv8n 网络结构
在YOLO v8n架构中,数据预处理层、主干网络层和颈部网络层是其关键部分。数据预处理层对输入图像执行归一化、增强等操作,为后续特征提取奠定基础;主干网络层是模型的核心,负责从输入图像中提取并逐步抽象出特征;而颈部网络层则进一步处理由主干网络提取的多尺度特征,以提升模型在不同尺度上的目标检测性能。
2 改进算法介绍
2.1 DSConv深度可分离卷积
卷积算子作为深度学习视觉模型的表征引擎,其机理在于通过可学习核组在输入张量上执行局部加权滑动,逐级抽取低阶边缘、中阶纹理与高阶结构等空间谱系特征,为后续检测或分类任务奠定语义基底。然而,当输入分辨率或训练语料规模显著扩张时,标准稠密卷积暴露出两项固有缺陷:其一,计算负荷随通道数与空间维度的乘积耦合增长,浮点运算量与激活内存同步膨胀,直接拉长训练与推理时间,并令模型在算力与内存受限的具身智能设备上难以实时收敛;其二,参数量随网络深度线性累积,造成假设空间冗余,在小样本场景下显著放大过拟合风险,同时抬升迁移微调与压缩部署的工程复杂度。
为应对上述瓶颈,本文在骨干网络Backbone的P5层级与颈部网络Neck末端引入深度可卷积分离算子DSConv[11],以替换标准稠密卷积。 DSConv通过“量化-分布偏移”耦合机制,在保持浮点卷积精度的同时可以降低计算与存储开销。其核心思想可概括为:先将浮点权重离散化至低比特整型空间,再借助可学习的分布偏移向量对量化核进行逐通道校正,使整数运算结果在统计意义上等价于原始浮点卷积。该策略一方面压缩了参数量与激活值位宽,另一方面利用整数乘加指令的硬件友好特性,将理论FLOPs削减约8倍,并缩短推理延迟。DSConv的完整数据流如图3所示:(1)核分布偏移KDS(Kernel Distribution Shift)模块对输入卷积核执行逐组量化,生成低比特核VQK;(2)通过轻量级扩展算子将VQK维度对齐至原始特征图,并以残差路径RES保留高频细节; (3)卷积分布偏移CDS (Convolutional Distribution Shift)单元在通道维度施加可学习偏置,补偿量化误差,确保输出特征分布与浮点卷积保持Wasserstein距离最小。上述过程在数学上可视为对原始卷积算子的分布保持映射,从而在端侧设备上实现精度-效率联合最优。
总体而言,集成DSConv后模型的推理效率可以实现显著提升,这种提升是在确保模型准确率不受影响的基础上实现的。通过简化网络结构,DSConv不仅能够提升运算速度,还可以降低模型的复杂度,这使得它在资源受限的具身智能设备中表现出色。 DSConv的引入还带来了模型泛化能力的显著提升。通过精简参数数量, DSConv有效降低了模型在训练过程中出现过拟合的可能性,这对于在数据量有限的情况下训练深度学习模型尤为重要。这种泛化能力的增强,意味着模型在面对新的、未见过的数据时,能够展现出更好的适应性和稳定性,从而在广泛的应用场景中提供更加可靠的性能。

图3 DSConv计算流程
2.2 C2f_DiRMB
在深度学习范式中,瓶颈Bottleneck网络结构对特征提取效率与模型性能具有支配性影响。针对该关键节点,本文通过设计C2f_DiRMB模块,对YOLO v8n原生C2f单元实施重构。该模块在维持原有计算开销的前提下,通过引入高阶卷积算子,扩展了特征张量的语义深度与空间广度,并增强了网络的表征能力。
改进后的C2f_DiRMB模块凭借经系统性设计的卷积范式,在特征提取阶段实现双重优化:其一,通过增强局部感受野的谱系响应,使网络对细微纹理、边缘扰动等高频成分保持高灵敏度,从而在复杂视觉任务中显著降低了目标误识别与类别混淆概率;其二,在维持前向传播低延迟约束的同时,将语义判别边界推向更高维流形,实现精度与速度的协同提升。嵌入其中的iRMB子模块在继承CBAM[12]轻量级拓扑的前提下,引入残差校正路径,使梯度张量在深度级联中保持高秩特性,有效抑制了信息坍缩;其通道-空间双重注意力通过张量低秩分解与逐像素重标定策略,强化了跨通道协同与长程空间依赖,构建起更具表达力的特征交互机制,进而提升了模型对复杂上下文的解析能力。并行DualConv分支以3×3深度卷积与1×1逐点卷积同址运算,辅之以动态组卷积调度,可在保留局部几何结构的同时将理论参数量压缩至标准卷积的三分之一,显著降低了片上访存与乘法累加次数,故在具身智能设备上仍能保持实时推理特性。
为了能够在保持Bottleneck模块参数效率优势的基础上,提升特征表达能力,本文通过两项关键技术对传统Bottleneck模块的结构进行改进:特征增强结构和双路径特征提取机制。在特征增强方面,通过引入倒置式特征扩展(iRMB)方法,先扩展特征维度以提升表征空间,再采用高效卷积操作降低计算量。这种设计既保留了原有通道压缩-扩展的核心机制,又通过优化的维度调整策略,在保证运算效率的同时增强了特征学习能力。特征处理过程中维持的跨层连接机制,有效保障了信息传递的完整性。在特征提取层面,创新性地采用并行双分支结构(DualConv)。其中一路使用常规卷积捕捉局部细节特征,另一路采用大感受野操作提取全局上下文信息。两路特征在输出阶段通过自适应的加权融合策略进行组合,这种设计能够自动调整网络对不同尺度特征的关注程度,并显著提升了其对目标尺寸变化的适应能力。

图4 iRMB模块
2.3 小目标检测头
针对水下场景目标成像尺寸偏小、成像分辨率低及悬浮颗粒与气泡散射所导致的高频信息衰减与背景噪声耦合等问题,本文提出了一种面向轻量化部署的多级检测头扩展框架,其核心思想在于以分层特征耦合机制弥合浅层纹理与深层语义在单级输出时的固有矛盾,进而提升网络对弱对比度小目标的感知鲁棒性。水下光学链路受水介质吸收、前向散射与后端成像传感器物理孔径的多重限制,目标在像平面呈现低信噪比、边缘退化及频谱混叠等退化特征。传统单阶检测模型将预测任务委托于最深特征层(通常对应输入降采样至1/32),虽具备类别可辨性,却因空间栅格稀疏而难以对亚像素级目标进行精确定位。反之,仅依赖浅层特征虽可保留高频细节,但缺乏足够的感受野与语义抽象能力,且易被复杂水体噪声干扰。
为此,本文构建了四级检测头体系,通过“浅层特征适配与增强-多级特征互补-动态尺度响应”三级策略实现特征表达与计算开销的权衡:首先,对P2层特征执行阶梯式上采样以恢复空间分辨率,并引入深度可分离卷积对高频边缘与纹理进行选择性强化,在保留局部敏感性的同时抑制参数冗余;其次,通过跨层通道拼接将P2局部细节与P3~P5全局语义联合表征,使网络同时具备亚像素级细节感知与场景级抽象能力;最后,四级检测头按感受野递进形成自适应尺度响应,浅层栅格聚焦极小目标,中层覆盖中等尺度区间,深层负责大尺度实例锚定,实现锚框先验与特征图空间的解耦,降低小目标漏检概率并抑制背景误激活,从而在保持计算图稀疏性的前提下完成水下弱对比度目标的稳健识别。
经上述多重机制优化后的YOLO v8n(YOLO v8n- improved)网络结构如图5所示。

图5 基于多重机制优化的YOLOv8n (YOLOv8n-improved)网络结构
3 实验验证
3.1 实验数据
为验证本文所设计的优化算法的有效性,我们使用两组数据进行实验,分别为第三方开源网站Kaggle数据集和本文实际拍摄采集数据集。其中Kaggle数据集如图6所示,包含不同水下背景、不同水下照度、不同水下鱼类共计4505张照片,在实验中训练集3153张,验证集901张,测试集451张。 Kaggle数据集实验平台采用本文1.1节中介绍的AI加速识别服务器相同配置的服务器进行离线实验验证。

图6 Kaggle数据集
本文实际拍摄采集数据集如图7所示,为使用本文智能水下机器人在宁波市奉化江宝化桥段水下真实拍摄,拍摄时间为2024年春夏交接时节,该水域在此季节水草茂盛、水温适宜,适合鱼苗发育。数据采集时采用的智能水下机器人设定每秒拍摄采集30帧有效图像,采集时长30分钟,共采集54000张图像,通过数据清洗挑选出其中带有鱼类目标且非重复的有效图像约7600张。同Kaggle数据集实验一样,使用4505张有效图像进行实验,其中用于训练集3153张,验证集901张,测试集451张。实际拍摄采集数据集实验平台直接采用本文1.1节中介绍的AI加速识别服务器在线进行实验验证。

图7 实际拍摄数据集
Kaggle数据集实验和实际拍摄采集数据集实验参数设置均如表1所示。
表1 参数设置

3.2 评测指标
为了对模型性能进行准确评估,本文采用了精确度(Precision)、召回率(Recall)、均值平均精度( mAP)和参数量(Params),作为实验评测指标。
精确率(Precision)是预测为正的样本中实际为正的比例,召回率(Recall)是所有实际为正的样本中被正确预测为正的比例。二者计算公式如式(1)、式(2)所示:


其中,TP是指模型正确预测为正类的样本数量,
FP是指模型错误的预测为正类的样本数量, FN是指实际为正类但被模型错误预测为负类的样本数量。
mAP(meanAveragePrecision)是衡量目标检测模型性能的指标,分为mAP0.5和mAP0.5~0.95两种。mAP0.5是在IoU(IntersectionoverUnion)阈值为0.50时的平均精度均值,即预测框与真实框的IoU大于等于0.50时,预测才被视为正确。 mAP0.5~0.95是在0.50到0.95的IoU阈值范围内,以0.05为步长计算每个阈值的平均精度(AP),然后取这些AP值的平均值。具体计算公式如式(3)、式(4)所示:


参数量(Params)即模型训练过程中的参数总数,是衡量模型空间复杂度和规模的重要指标。较大的参数量代表着模型更为复杂,需要更大的存储容量来存储这些参数。
3.3 实验结果与分析
3.3.1 Kaggle数据集实验对比
本文通过Kaggle数据集实验, 首先比较了传统YOLO v8n和优化后的YOLO v8n-improved两种算法在边界框、置信度和类别损失上的性能差异。分析两种算法的训练和验证过程中的损失曲线,可以发现两者的损失值都维持在较低水平,但YOLO v8n-improved在分类和置信度损失上略低于YOLO v8n。通过对精确度、召回率、mAP@0.5和mAP@0.5~0.95四个关键指标的收敛情况分析对比,可以发现,YOLO v8n- improved在精确率、召回率和mAP@0.5~0.95上表现更优,且收敛曲线更为平顺。
为了进一步证明本文提出的各个改进模块的优越性,我们还设计了基于Kaggle数据集的消融实验,实验结果如表2所示。
表2 消融实验

上述实验结果显示,通过改进特征网络,将C2f模块替换为C2f-DiRMB模块,模型的召回率和mAP@0.5~0.95分别提升了0.2%、0.1%、0.3%,但准确率略有降低。在卷积模块中,用DSConv替换传统卷积后, mAP@0.5提升了0.4%,准确率、召回率和FPS均有所提高。综合来看,与传统YOLO v8n模型相比,新提出的模型在mAP@0.5和mAP@0.5~0.95上分别提高了0.5%和0.8%,在准确率和召回率上分别提升了0.5%和1.0%,参数量有所下降,性能提升显著。
3.3.2 实际拍摄采集数据集实验对比
本文通过实际拍摄采集数据集实验,对改进前后两种算法性能进行了比较,并通过准确率、召回率、 mAP@0.5mAP@0.5~0.95等参数对性能对比结果进行了统计,如表3所示。
表3 性能对比

通过对上表数据的分析可知,在实际拍摄采集数据集实验中,YOLO v8n-improved在准确率、召回率、 mAP@0.5、mAP@0.5~0.95上相较于传统的YOLO v8n网络分别提升了2.3%、0.2%、0.2%、0.9%。由此可见,通过本文的优化设计,改进后算法在水下目标检测任务中展现出了更强的准确性和鲁棒性,能够成功识别水体浑浊环境中的重叠目标,进而可以为实际应用提供更可靠的检测结果。
图8展示了实际拍摄采集数据集其中一副有较少数量鱼类的图像,该图像中鱼类目标的数量为5条。通过两种算法识别效果差异的直观对比可知:基于传统YOLO v8n算法能够成功识别3条、漏识别2条,成功识别出的3条的置信度分别为0.87、0.86、0.74,如图8(a)所示;基于本文改进的YOLO v8n-improved算法能够成功识别5条,成功识别出的5条的置信度分别为0.89、0.87、0.78、0.72、0.67,如图8(b)所示。

图8 对比测试结果
图9展示了实际拍摄采集数据集其中一副有较多数量鱼类的图像,该图像中鱼类目标的数量为18条,且该图像中有多个尺寸较小的目标。通过两种算法识别效果差异的直观对比可知:基于传统YOLO v8n算法能够成功识别11条、漏识别7条,识别成功率为61.1%,未成功识别的全部为小尺寸目标,如图9(a)所示;基于本文改进的YOLO v8n-improved算法能够成功识别18条,识别成功率为100%,如图9(b)所示。

图9 对比测试结果
对比测试可以看出,传统YOLO v8n算法在处理物体重叠和水体浑浊条件下的识别任务时,存在一定漏识别的风险,特别是难以完成对小尺寸目标的识别;而改进后的YOLO v8n-improved算法在处理该类场景下的识别任务时,表现会更加让人满意。
3.4 拓展实验
除上述基本实验外,本文还将上述改进算法进行了拓展应用部署,在水下管廊裂缝识别以及水下管缆识别任务中进行了实验,如图10所示。实验结果显示,本文改进算法在该类任务场景下表现良好,能满足实际使用需求。

图10 拓展实验结果
4 结论
本文以YOLO v8n为基础, 通过三项改进构建了适用于浑浊水域的目标检测模型:以DSConv替换骨干P9与Neck末层常规卷积,压缩了参数量并提升了推理速度;在C2f模块嵌入倒置残差注意力机制iRMB与双通道卷积DualConv,增强了全局关键信息捕获;增设小目标检测头,缓解了水下图像小目标漏检。 Kaggle公开数据集与奉化江实测数据集的对比实验表明,改进模型的mAP@0.5、mAP@0.5~0.95、精确率及召回率分别较原网络提升了0.5%、0.8%、0.5%与1.0%,参数量下降了0.9×106 ,并在水体浑浊、目标重叠场景下显著降低了漏识别。以上结果验证了本文所提多重优化策略可在不增加计算负担的前提下,有效提高水下机器人对复杂环境的感知可靠性与实时性,为后续工程部署提供了直接可用方案。
作者简介:
王宝磊 (1986-),男,山东潍坊人,高级工程师,博士,现任宁波大学产业教授,宁波韦尔德斯凯勒智能科技有限公司技术副总,研究方向为智能机器人及其控制系统。
参考文献:
[1] 刘有用. 基于生成对抗网络的水下多目标识别[D]. 绵阳: 西南科技大学, 2020.
[2] Xing B, Sun M, Ding M, et al. Fish sonar image recognition algorithm based on improved YOLOv5[J]. Mathematical Biosciences & Engineering, 2024, 21 (1).
[3] Shi K, Wang J, Zhu H, et al. Intelligent target detection of underwater optical images based on image enhancement[J]. Proceedings of SPIE, 2023.
[4] 李博豪, 李智. 基于改进YOLOv8n的无人机航拍小目标检测算法[J]. 智能计算机与应用, 2025 (5) : 173 - 179.
[5] 王文浩. 基于改进YOLOv8的水面漂浮物检测模型[D]. 南昌: 南昌大学, 2024.
[6] Hui Y M, WANG J, LI B. STF - YOLO: A small targetdetection algorithm for UAV remote sensing images based onimproved Swin Transformer and class weighted classification decoupling head[J]. Measurement, 2024, (224) : 113936.
[7] Zhang L, Zhang K, Yang K, et al. Driving risks from light pollution: an improved YOLOv8 detection network for high beam vehicle image recognition[J]. The Journal of Supercomputing, 2025, 81 (1) : 1 - 23.
[8] 毛少华, 王文东. 基于深度学习的YOLO系列物体检测算法研究综述[J]. 延安大学学报 (自然科学版), 2024, 43 (02) : 88 - 95.
[9] 臧涛, 傅志凌, 王喆, 等. 改进YOLOv3的红外弱小目标检测[J]. 计算机工程与设计, 2024, 45 (11) : 3479 - 3485.
[10] 莫恒辉, 魏霖静. 基于改进YOLOv7的复杂环境下苹果目标检测[J]. 浙江大学学报 (工学版), 2024, 58 (12) : 2447 - 2458.
[11] 徐一翔, 吕勇. 基于生成对抗网络的轻量化图像融合算法[J]. 北京信息科技大学学报(自然科学版), 2024, 39 (03) : 84 - 90.
[12] 沙浩源, 梅飞, 李丹奇, 等. 基于改进生成对抗网络的电压暂降事件类型辨识研究[J]. 中国电机工程学报, 2021, 41(22) : 7648 - 7660.
[13] Rezatofighi H, Tsoi N, Gwak J, et al. Generalized Intersection Over Union: A Metric and a Loss for Bounding Box Regression [C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA, 2019 : 658 - 666.
[14] 佘明磊, 张神德, 邓志勇, 等. 最佳交并比在塔吊裂缝检测的应用[J]. 南阳理工学院学报, 2021, 13 (6) : 65 - 69.
摘自《自动化博览》2026年第一期暨《2026具身智能专刊》






资讯频道