patchgan论文原文

2024-10-24

对PatchGAN的感知域(receptive_field)理解

for basic discriminator of GANs 判别器用于感知生成器产生的合成图片和ground-truth的差异,并旨在实现区分出fake or real: 同时,判别器的输出也是经过一系列的conv后得到的一个标量值,一般使这个值激活在0~1之间: 但是,这样的结果存在着一些问题: 1.输出的结果显然是一个整体图片的加权值,无法体现局部图像的特征,对于精度要求高的的图像迁移等任务比较困难. for Patch-based discriminator of GANs Patch

【中文版 | 论文原文】BERT：语言理解的深度双向变换器预训练

BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding 谷歌AI语言组论文<BERT:语言理解的深度双向变换器预训练>,介绍一种新的语言表征模型BERT——来自变换器的双向编码器表征量.异于最新语言表征模型,BERT基于所有层的左.右语境来预训练深度双向表征量.BERT是首个大批句子层面和词块层面任务中取得当前最优性能的表征模型,性能超越许多使用任务特定架构的系统,刷新11项NLP任务当前最

【论文：麦克风阵列增强】Signal Enhancement Using Beamforming and Nonstationarity with Applications to Speech

作者:桂. 时间:2017-06-06 13:25:58 链接:http://www.cnblogs.com/xingshansi/p/6943833.html 论文原文:http://pan.baidu.com/s/1hsuuQYK 前言上一篇GSC是基于delay的框架进行处理,这是在无混响的情况下一种简单近似处理.许多更为复杂的应用场景,如存在的混响较严重Rt=450ms,则基于delay的模型是不合适的,有学者就考虑直接利用系统的响应函数,也就是传递函数(Transfer functi

论文阅读笔记四十二：Going deeper with convolutions (Inception V1 CVPR2014 )

论文原址:https://arxiv.org/pdf/1409.4842.pdf 代码连接:https://github.com/titu1994/Inception-v4(包含v1,v2,v4) 摘要本文提出了一个深层的卷积网络结构-Inception,该结构的主要特点是提高了网络内部计算资源的利用率.在预估计算资源消耗量不变的情况下增加网络的深度及宽度.为了进行有效的优化,结构决策基于Hebbian原理及多尺寸处理操作.本文思想的一个经典实现是GoogLeNet,网络的深度为22层,该网

论文阅读笔记五：U-Net: Convolutional Networks for Biomedical Image Segmentation(CVPR2015)

前面介绍了两个文本检测的网络,分别为RRCNN和CTPN,接下来鄙人会介绍语义分割的一些经典网络,同样也是论文+代码实现的过程,这里记录一下自己学到的东西,首先从论文下手吧. 英文论文原文地址:https://arxiv.org/abs/1505.04597 前面的论文忘记介绍大佬的名字了,在这里先抱个歉...那么接下来有请提出U-Net的大佬们一一列席:Olaf Ronneberger, Philipp Fischer, and Thomas Brox 这里依次是三位大佬的主页 https

MCNN多层神经网络论文笔记

论文原文 https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Zhang_Single-Image_Crowd_Counting_CVPR_2016_paper.pdf 人群计数领域目前的研究进展复现过程: 首先当然是准备数据集,我没有用论文作者的shanghaitech数据集,准备了malldataset数据集,反正都是大同小异啦.这篇文章的label有一点区别的就是它不是像很多分类的问题一样是0 1 啥的,而是

论文翻译——Rapid 2D-to-3D conversion——快速2D到3D转换

https://blog.csdn.net/qq_33445835/article/details/80143598 目前想做一个关于2D转3D的项目,由于国内资料比较少而且大部分都是基于国外的研究资料优化而来,所以想翻译翻译国外的论文,强化自己的理解,同时方便他人,英文水平有限,尽量做到“信达雅”的信,争取下达,如有错误,希望大家指正.文末提供论文原文PDF下载.以下为正文. 快速2D到3D转换摘要从现有2D图像到3D的转换已经被证明了是商业上可行的,并且满足了日益增长的对高质量立体影像

转载：resNet论文笔记

<Deep Residual Learning for Image Recognition>是2016年 kaiming大神CVPR的最佳论文原文:http://m.blog.csdn.net/justpsss/article/details/77103077 摘要 resNet主要解决一个问题,就是更深的神经网络如何收敛的问题,为了解决这个问题,论文提出了一个残差学习的框架.然后简单跟VGG比较了一下,152层的残差网络,比VGG深了8倍,但是比VGG复杂度更低,当然在ImageNet上的

[论文理解] Connectionist Text Proposal Network

Connectionist Text Proposal Network 简介 CTPN是通过VGG16后在特征图上采用3*3窗口进行滑窗,采用与RPN类似的anchor机制,固定width而只预测anchor的y坐标和高度,达到比较精准的text proposal效果.同时,文章的亮点在于引入了RNN,使用BLSTM使得预测更加精准.CTPN在自然场景下文本提取的效果很不错,不同于传统的bottom-up方法,传统方法通过检测单个字符然后再去连接文本线,其准确性主要依赖于单个字符的识别,而且错误

[论文理解] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 简介 Faster R-CNN是很经典的two-stage的目标检测方法,前面看了Selective Search以为在这里可以用到,但是作者在这篇文章里面没有采用Selective Search方法得到候选框,而是采用了Edge Boxes方法得到的候选框,好吧,再去看看这个方法到底快在哪里.Faster R-CNN分为两个过程,第一个过

[论文理解]Selective Search for Object Recognition

Selective Search for Object Recognition 简介 Selective Search是现在目标检测里面非常常用的方法,rcnn.frcnn等就是通过selective search方法得到候选框,然后进行分类,也就是传统的two stage方法.本篇也是我看到frcnn之后不得不看的一篇论文,大致将自己的理解记录下来,方便以后指正. Selective Search 算法目的能够得到各种大小的框由于图像中的物体可以有任意大小,所以selective sear

[论文理解]Region-Based Convolutional Networks for Accurate Object Detection and Segmentation

Region-Based Convolutional Networks for Accurate Object Detection and Segmentation 概括这是一篇2016年的目标检测的文章,也是一篇比较经典的目标检测的文章.作者介绍到,现在表现最好的方法非常的复杂,而本文的方法,简单又容易理解,并且不需要大量的训练集. 文章的大致脉络如图. 产生region proposal 文章提到了滑窗的方法,由于滑窗的方法缺点非常明显,就是每次只能检测一个aspect ratio,所以确

[论文理解] Rapid-Object-Detection-using-a-Boosted-cascade-of-simple-features

Rapid-Object-Detection-using-a-Boosted-cascade-of-simple-features 简介文章是2001年发表的,是一篇很经典的Object Detection的文章,而文章的亮点就在于使用了"Integral Image"计算Haar-like特征,从而加速了计算:此外,文章提出利用级联的方式分类,将很多非脸特征在前面剔除了,减少了大量的计算.文章采用Adaboost训练弱分类器组成强分类器,使得分类精度也很不错,而最大的两点就是其速度

Deep Learning 27：Batch normalization理解——读论文“Batch normalization: Accelerating deep network training by reducing internal covariate shift ”——ICML 2015

这篇经典论文,甚至可以说是2015年最牛的一篇论文,早就有很多人解读,不需要自己着摸,但是看了论文原文Batch normalization: Accelerating deep network training by reducing internal covariate shift 和下面的这些解读之后,还有感觉有些不明白.比如, 是怎么推导出来的,我怎么就是没搞懂呢? 1.论文翻译:论文笔记-Batch Normalization 2.博客专家黄锦池的解读:深度学习(二十九)Batch

patchgan论文原文

对PatchGAN的感知域(receptive_field)理解

【中文版 | 论文原文】BERT：语言理解的深度双向变换器预训练

【论文：麦克风阵列增强】Signal Enhancement Using Beamforming and Nonstationarity with Applications to Speech

论文阅读笔记四十二：Going deeper with convolutions (Inception V1 CVPR2014 )

论文阅读笔记五：U-Net: Convolutional Networks for Biomedical Image Segmentation(CVPR2015)

MCNN多层神经网络论文笔记

论文翻译——Rapid 2D-to-3D conversion——快速2D到3D转换

转载：resNet论文笔记

[论文理解] Connectionist Text Proposal Network

[论文理解] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

[论文理解]Selective Search for Object Recognition

[论文理解]Region-Based Convolutional Networks for Accurate Object Detection and Segmentation

[论文理解] Rapid-Object-Detection-using-a-Boosted-cascade-of-simple-features

Deep Learning 27：Batch normalization理解——读论文“Batch normalization: Accelerating deep network training by reducing internal covariate shift ”——ICML 2015

[论文理解] Attentional Pooling for Action Recognition

[论文理解] Receptive Field Block Net for Accurate and Fast Object Detection

[论文理解] Spatial Transformer Networks

[论文理解] Squeeze-and-Excitation Networks

《Deep Learning of Graph Matching》论文阅读

【论文笔记】YOLOv4: Optimal Speed and Accuracy of Object Detection

Focal loss论文解析

热门专题