Learning in the Frequency Domain 解读

论文：Learning in the Frequency Domain， CVPR 2020

实际的图像尺寸比较大，无法直接输入到CNN处理。因此，各类CNN模型都把图像首先下采样的224x224，然后再处理。但是，这样会引起信息损失并影响准确率。因此，阿里巴巴的研究人员提出新的方法，把RGB图像变换到DCT频率域，而不是直接下采样。该模型不需要改变现有网络结构，因此可以应用于任何CNN网络。

该方法总体思路：高分辨率RGB图像首先转换到YCbCr颜色空间，然后转换为DCT频域。这样就产生多个通道。某些通道对于分类识别的影响较大，因此，只保留重要的通道输入到CNN处理即可。

具体来说，将图像按8x8分块，在Y通道每个块会得到64个DCT信号，对应64个不同的频率分量。对于尺寸为W x H的原始图像, 会有W/8 x H/8 个块。每个块中相同位置的频率分量可以组成一个尺寸为W/8 x H/8 的feature map，这样会产生8x8=64个feature map。对于Cb和Cr通道，也可以各自产生64个feature map。总共产生了64x3=192个feature map。假设W=H=448, 那么现有的基于频域的feature map的尺寸为56x56x192。

对于ResNet-50，输入为224x224，经过一次卷积和pooling后， feature map 尺寸为 56x56。这样我们可以把 56x56x192 的 feature map 放在这里即可。

时间有限，没有仔细阅读代码，有时间补上代码的解析。

Learning in the Frequency Domain 解读的更多相关文章

数字图像处理实验（9）：PROJECT 04-05，Correlation in the Frequency Domain 标签：图像处理MATLAB 2017-05-25 10:14
实验要求: Objective: To know how to implement correlation of 2 functions in the frequency domain and, us ...
convolution in frequency domain
https://blog.csdn.net/myjiayan/article/details/72427995 convolution in frequency domain convolution ...
FFT快速傅立叶变换：解析wav波频图、Time Domain、Frequency Domain
您好,此教程将教大家使用scipy.fft分析wav文件的波频图.Time Domain.Frequency Domain. 实际案例:声音降噪,去除高频. 结果: 波频图: Time Domain:
Relationship between frequency domain and spatial domain in digital images
今天又复习了一遍<<Digital Image Processing>>的第四章,为了加深对频域的理解,我自己用PS画了一张图.如下: 然后做FFT,得到频谱图如下: 从左到右 ...
Speex回声消除代码分析
先说明下,这里的代码流程是修改过的Speex流程,但与Speex代码差异不大,应该不影响阅读. (1)用RemoveDCoffset函数进行去直流 (2)远端信号预加重后放入x[i+frame_s ...
Speex回声消除原理深度解析
这里假设读者具有自适应滤波器的基础知识.Speex的AEC是以NLMS为基础,用MDF频域实现,最终推导出最优步长估计:残余回声与误差之比.最优步长等于残余回声方差与误差信号方差之比,这个结论可以记下 ...
CVPR 2020 全部论文分类汇总和打包下载
CVPR 2020 共收录 1470篇文章,根据当前的公布情况,人工智能学社整理了以下约100篇,分享给读者. 代码开源情况:详见每篇注释,当前共15篇开源.(持续更新中,可关注了解). 算法主要领域 ...
CVPR 2020论文收藏（转知乎：https://zhuanlan.zhihu.com/p/112337176）
CVPR 2020 共收录 1470篇文章,根据当前的公布情况,人工智能学社整理了以下约100篇,分享给读者. 代码开源情况:详见每篇注释,当前共15篇开源.(持续更新中,可关注了解). 算法主要领域 ...
论文翻译：2019_Deep Neural Network Based Regression Approach for A coustic Echo Cancellation
论文地址:https://dl.acm.org/doi/abs/10.1145/3330393.3330399 基于深度神经网络的回声消除回归方法摘要声学回声消除器(AEC)的目的是消除近端传声器 ...

随机推荐

设计模式--Builder生成器模式
如果文章中哪里有问题,希望各位大哥大姐指出,小弟十分感激. 正文什么是生成器模式? 生成器模式就是把生产对象的过程进一步抽取.细化.独立.以往我们生产对象,可能就是在一个小作坊里面从头做到尾.现在用 ...
.Net Core api 中获取应用程序物理路径wwwroot
如果要得到传统的ASP.Net应用程序中的相对路径或虚拟路径对应的服务器物理路径,只需要使用使用Server.MapPath()方法来取得Asp.Net根目录的物理路径,如下所示: // Classi ...
win10 64位 MySQL 8.0 下载与安装
免安装版(超级棒的教程): 安装只需 Download .zip压缩文件卸载只需 Delete 解压文件即可 https://blog.csdn.net/hzxOnlineOk/article/de ...
第一步：安装centos_8
关于centos的安装其实大部分时候都是在虚拟机环境下安装. 好处无疑有这几个:方便,快速,主要就是整出事情了我可以直接删了重装我这边是在vmware下进行一个安装 vmware我这边给出下载链接: ...
pycham中报：ModuleNotFoundError: No module named 'pymysql'
参考https://www.cnblogs.com/wupeiqi/articles/5713330.html https://pypi.python.org/pypi # D:\Program Fi ...
css怎么样设置透明度？
css怎么样设置透明度?下面本篇文章就来给大家介绍一下使用css设置透明度的方法.有一定的参考价值,有需要的朋友可以参考一下,希望对大家有所帮助. 在CSS中想要设置透明度,可以使用opacity属性 ...
CSS中的一些细节
一.塌陷 1.当position设置为:absolute或者fixed时,元素的display会转换为block.(设置float也会产生这样的效应)2.正常情况下,div会被内容撑开,但是如果设置了 ...
组合 a 标签与 canvas 实现图片资源的安全下载的方法与技巧
普通用户下载图片时只需一个「右键另存为」操作即可完成,但当我们做在线编辑器.整个 UI 都被自定义实现时,如何解决不同域问题并实现页面中图片资源的安全下载呢?本文就解决该问题过程中所涉及的正则表达式. ...
web网页动态分享facebook和twitter
介绍 facebook分享 http://www.facebook.com/sharer.php?t=${text}u=encodeURIComponent('静态html') twitter分享 h ...
介绍python由来, 安装python3.8.3 及其变量的定义, 小整数池
介绍 python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,Guido开始写能够解释Python语言语法的解释器.Python这个名字,来自Guido所挚爱 ...

Learning in the Frequency Domain 解读

Learning in the Frequency Domain 解读的更多相关文章

随机推荐

热门专题