(cvpr 2018)Technology details of SMRD
1.摘要
近年来,深度卷积神经网络(CNN)方法在单幅图像超分辨率(SISR)领域取得了非常大的进展。然而现有基于 CNN 的 SISR 方法主要假设低分辨率(LR)图像由高分辨率(HR)图像经过双三次 (bicubic) 降采样得到,因此当真实图像的退化过程不遵循该假设时,其超分辨结果会非常差。此外,现有的方法不能扩展到用单一模型解决多种不同的图像退化类型。为此,提出了一种维度拉伸策略使得单个卷积超分辨率网络能够将 SISR 退化过程的两个关键因素(即模糊核和噪声水平)作为网络输入。归因于此,训练得到超分辨网络模型可以处理多个甚至是退化空间不均匀的退化类型。实验结果表明提出的卷积超分辨率网络可以快速、有效的处理多种图像退化类型,为 SISR 实际应用提供了一种高效、可扩展的解决方案。
2.引言
单幅图像超分辨率(SISR)的目的是根据单幅低分辨(LR)图像输入得到清晰的高分辨率(HR)图像。一般来说,LR 图像 y 是清晰 HR 图像 x 由下面的退化过程得来,
。
其中
表示 HR 清晰图像 x 与模糊核 k 之间的卷积,
表示系数为 s 的降采样算子,n 表示标准差(噪声水平)为
的加性高斯白噪声(AWGN)。
SISR 方法主要分为三类:基于插值的方法、基于模型的方法以及基于判别学习的方法。基于插值的方法(例如:最近邻插值、双三次插值)虽然速度快,但是其效果比较差。基于模型的方法通过引入图像先验,例如:非局部相似性先验、去噪先验等,然后求解目标函数得到视觉质量较好的 HR 图像,然而速度较慢。虽然结合基于 CNN 的去噪先验可以在某种程度上提升速度,但仍然受限于一些弊端,例如:无法进行端对端的训练,包含一些比较难调的参数等。基于判别学习的方法尤其是基于 CNN 的方法因其速度快、可以端对端的学习因而效果好等在近几年受到了广泛关注,并且逐渐成为解决 SISR 的主流方法。
自从首个用 CNN 解决 SISR 的工作 SRCNN 在 ECCV(2014)发表以来,各种不同的改进方法相继提出。例如,VDSR 在 PSNR 指标上取得了非常大的提升;ESPCN 和 FSRCNN 分别在速度上进行了改进;SRGAN 在放大倍数较大情况下针对视觉效果的改善提出了有效的方法。然而这些方法都存在一个共同缺点,也就是它们只考虑双三次 (bicubic) 降采样退化模型并且不能灵活的将其模型扩展到同时(非盲)处理其它退化类型。由于真实图像的退化过程多种多样,因而此类方法的有效实际应用场景非常有限。一些 SISR 工作已经指出图像退化过程中的模糊核的准确性对 SISR 起着至关重要的作用,然而并没有基于 CNN 的相关工作将模糊核等因素考虑在内。为此引出本文主要解决的问题:是否可以设计一个非盲超分辨率(non-blind SISR)模型用以解决不同的图像退化类型?
3.方法
本文首先分析了在最大后验(MAP)框架下的 SISR 方法,借此希望可以指导 CNN 网络结构的设计。由于 SISR 问题的不适定性,通常需要引入正则项来约束解空间。具体来说,LR 图像 y 对应的 HR 图像 x 可以通过求解下述问题近似,
其中为似然(也即数据保真)项,为先验(也即正则)项,为似然项和先验项之间的权衡参数。简单来说,上述公式包含两点:1)估计得到的 HR 图像不仅要符合 SISR 的退化过程,并且还要满足清晰图像所具有的先验特征;2)对于非盲超分辨率问题,x 的求解与 LR 图像 y、模糊核 k、噪声水平以及权衡参数有关。简而言之,非盲 SISR 的 MAP 估计可以表示为,其中为 MAP 估计中的参数。进而如果将 CNN 看作 MAP 估计另一种形式的解,那么有如下结论:
1)由于数据保真项对应着 SISR 的退化过程,因此退化过程的准确建模对 SISR 的结果起着至关重要的作用。然而现有的基于 CNN 的方法其目标是求解下面的问题,
。由于没有将模糊核和噪声等因素考虑在内,因此其实用性非常有限。
2)为了设计更加有效的基于 CNN 的 SISR 模型,应该将更多的图像退化类型考虑在内,一个简单的思路就是将模糊核 k 和噪声水平
也作为网络的输入。由于权衡参数
可以融入噪声水平
之中,因此 CNN 映射函数可以简化成如下形式:
3)由于 MAP 估计中大部分的参数都对应着图像先验部分,而图像先验是与图像退化过程不相关的,因此单一的 CNN 模型具有处理不同退化类型的建模能力。
通过上述分析可以得出非盲 SISR 应该将退化模型中的模糊核和噪声水平也作为网络的输入。然而 LR 图像、模糊核和噪声水平三者的维度是不同的,因此不能直接作为 CNN 的输入。为此本文提出了一种维度拉伸策略。假设 LR 图像大小为
,首先将向量化的模糊核 PCA 降维,然后和噪声水平并在一起得到一个t+1维的向量 v,接着将v拉伸为
维的张量,我们将此张量称之为退化图(Degradation Maps),其中第i个图的所有
元素均为
。
图 1:维度拉伸示意图。
至此,我们可以将退化图和 LR 图像合并在一起作为 CNN 的输入。为了证明此策略的有效性,选取了快速有效的 ESPCN 超分辨网络结构框架。值得注意的是为了加速训练过程的收敛速度,同时考虑到 LR 图像中包含高斯噪声,因此网络中加入了 Batch Normalization 层。
图 2 给出了提出的超分辨率网络(简称 SRMD)结构框架。
图 2:提出的超分辨率网络结构框架(卷积层数为 12,每层通道数为 128)。
4.实验
在训练阶段,SRMD 采用了各向同性和各向异性的高斯模糊核、噪声水平在 [0, 75] 之间的高斯白噪声以及 bicubic 降采样算子。需要指出的是 SRMD 可以扩展到其它降采样算子,甚至其它退化模型。
在测试阶段,SRMD 比较了不同方法在同为 bicubic 降采样退化下的 PSNR 和 SSIM 结果(如表 1 所示)。可以看出虽然 SRMD 是用来处理各种不同的退化类型,但是仍然在 bicubic 降采样退化下取得不错的效果。需要指出的是 SRMD 在速度上也有很大的优势,在 Titan Xp GPU 上处理 512 × 512 的 LR 图像仅需 0.084 秒,是 VDSR 超分辨率两倍所用时间的一半。表 2 给出了不同退化类型下的 PSNR 和 SSIM 结果比较,可以看到 SRMD 同样取得了不错的效果。图 4 举例说明了 SRMD 可以设定非均匀退化图,进而可以处理退化空间不均匀的 LR 图像。最后,图 5 展示了不同方法在真实图像上的视觉效果比较,可以看到 SRMD 复原的 HR 图像在视觉效果上明显优于其它方法。
表 1:不同方法在 bicubic 降采样退化下的 PSNR 和 SSIM 结果比较(其中 SRMDNF 表示不考虑噪声情况下训练得到的模型)。
图 3:不同方法在 bicubic 降采样退化下超分辨率四倍的视觉效果比较。
表 2:不同方法在不同退化类型下的 PSNR 和 SSIM 结果比较。
图 4:举例说明 SRMD 可以处理退化空间不均匀的情形。(a)噪声水平以及模糊核宽度的空间分布;(b)LR 图像(最近邻插值放大);(c)复原得到的 HR 图像(放大两倍)。
图 5:不同方法在 SISR 经典测试图像「Chip」上超分辨率四倍的视觉效果比较。
5.结论
最后总结一下,本文的主要贡献有三个方面:
提出了一种简单、有效、可扩展的超分辨率模型,其不仅可以处理 bicubic 降采样退化模型,并且可以处理多个甚至是退化空间不均匀的退化类型,为 SISR 实际应用提供了一种解决方案。提出了一种简单有效的维度拉伸策略使得卷积神经网络可以处理维度不同的输入,此策略可以扩展到其他应用。通过实验展示了用合成图像训练得到的超分辨网络模型可以有效的处理真实图像复杂的退化类型。
(cvpr 2018)Technology details of SMRD的更多相关文章
- (TIP 2018)Technology details of FFDNet
前言 论文地址:见researchgate, 方法继续更新. 解决的问题: 1.discriminative learning methods 用于denoising 任务学习到的是一个对于每种 噪声 ...
- 爬取CVPR 2018过程中遇到的坑
爬取 CVPR 2018 过程中遇到的坑 使用语言及模块 语言: Python 3.6.6 模块: re requests lxml bs4 过程 一开始都挺顺利的,先获取到所有文章的链接再逐个爬取获 ...
- 在矩池云上复现 CVPR 2018 LearningToCompare_FSL 环境
这是 CVPR 2018 的一篇少样本学习论文:Learning to Compare: Relation Network for Few-Shot Learning 源码地址:https://git ...
- CVPR 2018 DeepGlobe
在刚刚结束的CVPR2018: DeepGlobe Road Extraction Challenge(全球卫星图像道路提取)比赛中,北京邮电大学信息与通信工程学院模式识别实验室张闯老师指导的研究生周 ...
- (cvpr2019 ) Technology details of Deep Learning for Multiple-Image Super-Resolution
Mutiple-Image SSR 关键的技术imformation fusion 1. 将单一场景的多图像经过Resnet, 其中每张图片的维度变为了输入的两倍.同时,这些输入的单一场景的多图像进行 ...
- Paper Reading - Learning to Evaluate Image Captioning ( CVPR 2018 ) ★
Link of the Paper: https://arxiv.org/abs/1806.06422 Innovations: The authors propose a novel learnin ...
- Paper Reading - Convolutional Image Captioning ( CVPR 2018 )
Link of the Paper: https://arxiv.org/abs/1711.09151 Motivation: LSTM units are complex and inherentl ...
- CVPR 2018:diractNets网络,有残差网络好吗?
我把我明天讲PPT的材料弄上来了........哈 哈哈
- NASNet : Google Brain经典作,改造搜索空间,性能全面超越人工网络,继续领跑NAS领域 | CVPR 2018
论文将搜索空间从整体网络转化为卷积单元(cell),再按照设定堆叠成新的网络家族NASNet.不仅降低了搜索的复杂度,从原来的28天缩小到4天,而且搜索出来的结构具有扩展性,在小模型和大模型场景下都能 ...
随机推荐
- 重构file_get_contents实现一个带超时POST传值函数
function wp_file_post_contents($url, $post = null) { $context = array(); if (is_array($post)) { ksor ...
- Nginx 自定义404、500、502 页面
利用nginx的反向代理来实现 服务器404 和500 等状态码的自定义页面 1.nginx配置文件 nginx.conf 配置开启代理错误拦截 和配置页面 下划线部分 http { ...... ...
- 图片上传组件webuploader
前端组件webuploader 当时也是搞了很久参考这种demo,但是没记.现在事后大致总结下.直接上大概代码(我使用asp.net MVC来做的): 执行顺序:(get)Record/Add——A ...
- 2019年春季学期第二周作业 基础作业 请在第一周作业的基础上,继续完成:找出给定的文件中数组的最大值及其对应的最小下标(下标从0开始)。并将最大值和对应的最小下标数值写入文件。 输入: 请建立以自己英文名字命名的txt文件,并输入数组元素数值,元素值之间用逗号分隔。 输出 在不删除原有文件内容的情况下,将最大值和对应的最小下标数值写入文件
~~~ include<stdio.h> include<stdlib.h> int main() { FILE*fp; int i=0,max=0,j=0,maxb=0; i ...
- webToImage (网页转图片)模块试用分享
模块介绍: 本模块封装了把 webview 转换成图片的功能.调用本模块的transImage接口,可把当前 webview显示的内容转换成一张图片.注意,本模块只能把当前的webview页面转换为图 ...
- 博客搬家 https://hanwang945.github.io/
博客搬家 https://hanwang945.github.io/
- css 修改svg图标的颜色(不修改fill)
给icon加样式 (利用原图标的阴影区域,同时将原图标移动超过之前父元素范围)filter: drop-shadow(red 80px 0);transform: translateX(-80px); ...
- 常用Java技术社区
Java生态圈知识链: 求职平台 阿里巴巴社招平台 杭州网易社招平台 微店社招平台 银联社招平台 百度社招平台 Java生态圈知识链: 个人优秀博客 腾讯_运维工程师_刘天斯 阿里_Android ...
- SharePoint 已在此服务器场中安装 ID 为 XXXXXXXXX 的功能。请使用强制属性显式地重新安装此功能。解决方法
图1: 图2: 解决方法: stsadm -o deploysolution -name ***.wsp -immediate -allowGacDeployment -url http://*** ...
- Cron表达式范例
每隔5秒执行一次:*/5 * * * * ? 每隔1分钟执行一次:0 */1 * * * ? 每天23点执行一次:0 0 23 * * ? 每天凌晨1点执行一次:0 0 1 * * ? 每月1号凌晨1 ...