查看: 73|回复: 0

CVPR 2023 | 视频去雾:新框架和新数据

[复制链接]

3

主题

5

帖子

12

积分

新手上路

Rank: 1

积分
12
发表于 2023-7-19 09:57:00 | 显示全部楼层 |阅读模式
引言

雾大大降低了室外场景的可见度和对比度,这对自动驾驶和监控等下游视觉任务的性能产生了负面影响,例如检测和分割。近日,香港中文大学与上海人工智能实验室发表了名为Video Dehazing via a Multi-Range Temporal Alignment Network with Physical Prior 的论文,提出了一个视频去雾数据集HazeWorld和一个视频去雾新框架MAP-Net。该文章接收于CVPR2023。
以下是来自论文作者徐家奇、胡枭玮的分享。
亮点速览

本文提出了一个新的视频去雾框架,可以有效地探索雾天成像先验知识和提取视频时序信息。本文设计了基于记忆的物理先验引导模块,以长程记忆的方式编码先验相关特征,并设计了多范围场景信息恢复模块,从相邻帧有效地聚合时间信息。本文还构建了第一个大规模的室外视频去雾基准数据集。实验结果表明,本文提出的方法在合成和真实条件下具有优秀的性能。



图1: 视频去雾任务


论文地址:
https://arxiv.org/abs/2303.09757
代码链接:
https://github.com/jiaqixuac/MAP-Net
CVPR2023: Jiaqi Xu, Xiaowei Hu*, Lei Zhu*, Qi Dou, Jifeng Dai, Yu Qiao, and Pheng-Ann Heng, "Video Dehazing via a Multi-Range Temporal Alignment Network with Physical Prior," accepted in CVPR, 2023, *Corresponding authors.
HazeWorld数据集

现有的基于深度学习的视频去雾方法主要在室内数据集上进行训练和评估,这些方法在真实的室外场景中性能会下降。因此,该研究构建了一个室外视频去雾基准数据集HazeWorld,该数据集具有三个主要特点。首先,HazeWorld是一个大规模的合成数据集,包括3,588个训练视频和1,496个测试视频。其次,该数据集收集了来自不同室外场景的视频,例如自动驾驶和生活场景。第三,该数据集具有各种下游任务进行评估,例如分割和检测。



图2: HazeWorld数据集

MAP-Net视频去雾框架

本文提出了一种新颖的视频去雾框架,即具有物理先验的多范围时序对齐网络(MAP-Net),以有效探索雾天成像先验知识和提取视频时序信息。首先,该研究设计了一个基于记忆的物理先验引导模块,旨在引入物理先验,帮助场景信息恢复。其次,文章构建了一个多范围场景信息恢复模块,以捕捉多个空间-时间范围内的时空依赖关系。



图3: MAP-Net模型结构

上图展示了MAP-Net的网络结构。MAP-Net是一种类似于U-Net的结构,主要由编码器、先验解码器和场景解码器组成。一个通用的图像骨干网络被用作特征编码器,提取多尺度的特征映射。在每个尺度上,特征在先验解码器层和场景解码器层中交互处理。初始先验特征和初始场景特征首先被输入到一个基于记忆的物理先验引导模块(MPG),旨在获取记忆增强的先验特征P和先验引导的场景特征J。然后,P和J被输入到多范围场景信息恢复模块(MSR)中,通过对相邻帧的递归时序特征进行对齐和聚合,获得无雾场景的特征。先验解码器和场景解码器根据雾天成像物理模型共同执行特征解耦。具体而言,先验解码器通过预测透射率和环境光来学习与先验相关的特征,而场景解码器则生成恢复的场景。
基于记忆的物理先验引导



图4: 基于记忆的物理先验引导模块

该研究设计了一个基于记忆的物理先验引导模块(MPG),将雾天成像先验相关的特征编码到长程记忆中,以增强场景恢复能力。上图展示了MPG模块的详细结构,MPG模块包括(a)物理先验压缩,(b)记忆增强先验,和(c)先验特征引导。
多范围场景信息恢复



图5: 多范围场景信息恢复模块

多范围场景信息恢复模块(MSR)旨在捕捉多个空间-时间范围内的时空依赖关系。上图展示了MSR的详细结构,它将相邻帧的特征划分到具有不同时间范围的多个集合中,以探索不同时间间隔中的时序雾线索。然后,具有不同时间范围的时序特征被输入到共享的空间-时间可变形注意力结构(STDA),它将特征对齐到目标帧。最后,该研究构建了一个有引导的多范围聚合结构(GMRA),从而在先验特征的引导下聚合多个集合的时序对齐特征。
实验结果

该研究在HazeWorld、REVIDE数据集和真实场景下对所提方法进行了评估。视频去雾结果如下图、表1、表2所示,MAP-Net相较于先进的去雾方法有明显提升。



图6: 在HazeWorld上的去雾视觉比较



图7: 在REVIDE上的去雾视觉比较



图8: 在真实场景上的去雾视觉比较



表1: 在HazeWorld上的去雾结果



表2: 在REVIDE上的去雾结果

下游任务

下游任务结果如表3所示,MAP-Net复原的视频有效提升下游任务的性能。



表3: 下游任务结果

总结

该研究设计了一种具有物理先验的多范围时序对齐的视频去雾框架。引入了两种新结构,即基于记忆的物理先验引导模块和多范围场景信息恢复模块,以有效探索雾天成像物理先验并聚合时序信息。此外,该研究构建了面向室外视频去雾的第一个大规模基准数据集,使相关的工作能够在各种应用场景和下游任务中评估去雾性能。最终,基于合成和真实条件的实验结果,展示了该研究设计的框架的优越性。欢迎大家试用!
论文地址:https://arxiv.org/abs/2303.09757
代码链接:https://github.com/jiaqixuac/MAP-Net

END
了解更多关于通用视觉团队的研究成果,请关注我们(#^.^#)

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表