2019 CVPR 基于GAN的ImageCaptioning论文】的更多相关文章

1.MSCap: Multi-Style Image Captioning with Unpaired Stylized Text 生成多种风格的caption 当前的image captioning systems的问题:生成的caption是很相对很中性,不能体现人类语言风格的多种多样 面临的困难:得到配对的风格和对应的caption是很昂贵的,所以本论文只是使用image和对应的多个caption,最后加一个分类器,对caption分类 整体框架:Caption Generator输入图像…
1.        SemStyle: Learning to Generate Stylised Image Captions using Unaligned Text(2018 CVPR) 主要研究方向:本论文主要是做语言风格,就是对同一张图片有多种描述. 2.        Neural Baby Talk(2018 cvpr) 主要研究内容:对于图片的描述更多的应该是基于图像内容,而不是基于语言模型去推理:如果是非常见场景,那么模型就差强人意. 3.        Bottom-Up a…
作者 | 文永亮 研究方向 | 目标检测.GAN 研究动机 ​ 这是一篇发表于CVPR2019的关于显著性目标检测的paper,在U型结构的特征网络中,高层富含语义特征捕获的位置信息在自底向上的传播过程中可能会逐渐被稀释,另外卷积神经网络的感受野大小与深度是不成正比的,目前很多流行方法都是引入Attention(注意力机制),但是本文是基于U型结构的特征网络研究池化对显著性检测的改进,具体步骤是引入了两个模块GGM(Global Guidance Module,全局引导模块)和FAM(Featu…
1.        SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning(2017 CVPR) 主要研究方向:大多数现有的基于注意力的图像字幕模型只考虑了空间特征,本文是对同一层的feature map(特征图)加入了权重考虑. 2.        Knowing When to Look: Adaptive Attention via A Visual Sentine…
GAN Theory Modifyingthe Optimization of GAN 题目 内容 GAN   DCGAN   WGAN   Least-square GAN   Loss Sensitive GAN   Energy-based GAN   Boundary-seeking GAN   Unroll GAN   Different Structure from the Original GAN 题目 内容 Conditional GAN   Semi-supervised GA…
本篇随笔为转载,原贴地址,知乎:GAN for NLP(论文笔记及解读).…
近日,斯坦福联合MIT.哈佛.OpenAI等院校和机构发布了一份291页的<2019年度AI指数报告>. 这份长达291页的报告从AI的研究&发展.会议.技术性能.经济.教育.自动系统.公众认知.社会学原则.国家战略和全球AI活力九个方面分析了AI的发展. 本文整理了<报告>中的几个要点,账号后台回复关键词“报告”即可获取291页报告的英文原文下载链接. 1.中国学者发表的论文期刊和会议论文数量已于2006年超过美国,并与欧洲数量相当.但在论文被引用相关指数上还未达到全球平…
InfoGAN 期望的是 input 的每一个维度都能表示输出数据的某种特征.但实际改变输入的一个特定维度取值,很难发现输出数据随之改变的规律. InfoGAN 就是想解决这个问题.在 GAN 结构以外,把输入 z 分成两个部分 c 和 z' ,然后根据 generated data x 来预测给到 generator 的 c 是什么,这里的ae 做的事情是 code-x-code.同时还需要 discriminator 来配合,x 还必须要足够像目标数据(要不 generator 直接把 c…
1.Show and Tell: A Neural Image Caption Generator Google团队的成果 整体处理流程: 1)通过CNN提取到图片的特征,简称feature. 2)而后将feature输入到LSTM中,生成第一个词S0 3)而后每个词Si的生成只需要上一个生成的词Si-1的对应的embedding,直到生成最后一个特殊符号 框架: 生成词的方法 Sampling:softmax取最大值 BeamSearch:每次生成一个单词,保存到目前为止生成的概率最大的K个句…
摘要:近日,CVPR 2022放榜,基于CANN的AI论文<Interactive Image Synthesis with Panoptic Layout Generation>强势上榜. 本文分享自华为云社区<昇腾CANN论文上榜CVPR,全景图像生成算法交互性再增强!>,作者:昇腾CANN . 近日,CVPR 2022放榜,基于CANN的AI论文<Interactive Image Synthesis with Panoptic Layout Generation>…
Guided Anchoring通过在线生成anchor的方式解决常规手工预设anchor存在的问题,以及能够根据生成的anchor自适应特征,在嵌入方面提供了两种实施方法,是一个很完整的解决方案   来源:晓飞的算法工程笔记 公众号 论文: Region Proposal by Guided Anchoring 论文地址:https://arxiv.org/abs/1901.03278 论文代码:https://github.com/open-mmlab/mmdetection Introdu…
Abstract 在这篇论文中,我们提出了自注意生成对抗网络(SAGAN),它是用于图像生成任务的允许注意力驱动的.长距离依赖的建模.传统的卷积GANs只根据低分辨率图上的空间局部点生成高分辨率细节.在SAGAN中,可以使用来自所有特征位置的线索生成细节.此外,判别器可以检查图像中较远部分的细节特征是否一致.此外,最近的研究表明,生成器条件会影响GAN的性能.利用这一观点,我们将光谱归一化应用到GAN生成器上,发现这改善了训练的动态.提出的SAGAN比以前的研究的效果更好,在ImageNet数据…
CNN综述文章 的翻译 [2019 CVPR] A Survey of the Recent Architectures of Deep Convolutional Neural Networks 翻译 综述深度卷积神经网络架构:从基本组件到结构创新 目录 摘要    1.引言    2.CNN基本组件        2.1 卷积层        2.2 池化层        2.3 激活函数        2.4 批次归一化        2.5 Dropout        2.6 全连接层…
转自:https://zhuanlan.zhihu.com/p/31921944 前言:行人重识别(Person Re-identification)也称行人再识别,本文简称为ReID,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术.广泛被认为是一个图像检索的子问题.给定一个监控行人图像,检索跨设备下的该行人图像. 在监控视频中,由于相机分辨率和拍摄角度的缘故,通常无法得到质量非常高的人脸图片.当人脸识别失效的情况下,ReID就成为了一个非常重要的替代品技术.ReID有一个非常…
[论文阅读笔记] Adversarial Learning on Heterogeneous Information Networks 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 现有的异构网络(HIN)嵌入方法本质上可以归结为两个步骤(1)正样本生成和负样本生成(2)在这些样本上训练模型优化目标函数以得到更合适的节点嵌入.目前主流的异构网络嵌入方法存在以下几个问题: Problem 1: 首先,这些算法一般从原始网络中随机选择节点与中心节点组合生成正样本或者负样本,即,…
论文地址:http://www.interspeech2020.org/uploadfile/pdf/Thu-1-10-5.pdf 基于GAN的回声消除 摘要 生成对抗网络(GANs)已成为语音增强(如噪声抑制)中的热门研究主题.通过在对抗性场景中训练噪声抑制算法,基于GAN的解决方案通常会产生良好的性能.在本文中,提出了卷积循环GAN架构(CRGAN-EC),以解决线性和非线性回声情况.所提出的体系结构在频域中进行了训练,并预测了目标语音的时频(TF)掩码.部署了几种度量损失函数,并研究了它们…
论文题目<Deep Learning for Hyperspectral Image Classification: An Overview> 论文作者:Shutao Li, Weiwei Song, Leyuan Fang,Yushi Chen, Pedram Ghamisi,Jón Atli Benediktsson 论文发表年份:2019 发表期刊:IEEE Transactions on Geoscience and Remote Sensing 一.高光谱简述 高光谱成像是一项重要的…
文章下载地址:A Surface Defect Detection Method Based on Positive Samples 第一部分  论文中文翻译 摘要:基于机器视觉的表面缺陷检测和分类可以大大提高工业生产的效率.利用足够的已标记图像,基于卷积神经网络的缺陷检测方法已经实现了现有技术的检测效果. 然而在实际应用中,缺陷样本或负样本通常难以预先收集,并且手动标记需要耗费大量时间.本文提出了一种仅基于正样本训练的新型缺陷检测框架. 其检测原理是建立一个重建网络,如果它们存在,可以修复样本…
它是一个能使开发者快速搜索相似多媒体文件的算法库.而该领域一直是传统的搜索引擎的短板.借助Faiss,Facebook 在十亿级数据集上创建的最邻近搜索(nearest neighbor search),比此前的最前沿技术快 8.5 倍,并创造出迄今为止学术圈所见最快的.运行于 GPU 的 k-selection 算法.Facebook 人工智能实验室(FAIR) 借此创造了数个世界纪录,包括在十亿高维矢量上的构建的.世界最快的 k-nearest-neighbor 图. 相似性搜索的本质 传统…
本文转自:https://mp.weixin.qq.com/s?__biz=MzIwMTgwNjgyOQ==&mid=2247484846&idx=1&sn=c2333a9986c19e7106ae94d14a0555b9 能根据文字生成图片的 GAN,深度学习领域的又一新星 2017-01-12 DataCastle数据城堡 2014 年 6 月,Ian Goodfellow 等学者发表了论文<Generative Adversarial Nets>,题目即“生成对抗…
R-CNN(Region-based CNN) motivation:之前的视觉任务大多数考虑使用SIFT和HOG特征,而近年来CNN和ImageNet的出现使得图像分类问题取得重大突破,那么这方面的成功能否迁移到PASCAL VOC的目标检测任务上呢?基于这个问题,论文提出了R-CNN. 基本步骤:如下图所示,第一步输入图像.第二步使用生成region proposals的方法(有很多,论文使用的是seletivce search,ImageNet2013检测任务的冠军UVA也使用了该算法)提…
论文链接:https://arxiv.org/abs/1711.06897 代码链接:https://github.com/sfzhang15/RefineDet 摘要 RefineDet是CVPR 2018的一篇论文,文中提出了一个新的single-shot检测器RefineDet,实现了比二阶段方法更高的准确率而且具有与一阶段方法相当的效率.RefineDet包括两个互连模型ARM(anchor refinement module)和ODM(object detection module):…
注:博主是大四学生,翻译水平可能比不上研究人员的水平,博主会尽自己的力量为大家翻译这篇论文.翻译结果仅供参考,提供思路,翻译不足的地方博主会标注出来,请大家参照原文,请大家多多关照. 转载请务必注明出处,谢谢. 0. 译者序 题目翻译:基于内容感知生成模型的图像修复 介绍:这篇文章也被称作deepfill v1,作者的后续工作 "Free-Form Image Inpainting with Gated Convolution" 也被称为deepfill v2.两者最主要的区别是,v2…
生成式对抗模型GAN (Generativeadversarial networks) 是Goodfellow等[1]在 2014年提出的一种生成式模型,目前已经成为人工智能学界一个热门的研究方向,著名学者Yann Lecun甚至将其称为“过去十年间机器学习领域最让人激动的点子".GAN的基本思想源自博弈论的二人零和博弈,由一个生成器和一个判别器构成,通过对抗学习的方式来训练,目的是估测数据样本的潜在分布并生成新的数据样本.在图像和视觉计算.语音和语言处理.信息安全.棋类比赛等领域,GAN正在被…
出处 arXiv.org (引用量暂时只有3,too new)2017.7 SourceCode:https://github.com/RichardYang40148/MidiNet Abstract 以前的音乐生成工作多基于RNN,受DeepMind提出的WaveNet的启发,作者尝试用CNN来生成音乐,确切地说,用GAN来生成音乐,模型称为MidiNet.与Google的MelodyRNN(magenta)相比,在realistic和pleasant上旗鼓相当,yet MidiNet’s…
1. 从纳什均衡(Nash equilibrium)说起 我们先来看看纳什均衡的经济学定义: 所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处.换句话说,如果在一个策略组合上,当所有其他人都不改变策略时,没有人会改变自己的策略,则该策略组合就是一个纳什均衡. B站上有一个关于”海滩2个兄弟卖雪糕“形成纳什均衡的视频,讲的很生动. 不管系统中的双方一开始处于什么样的状态,只要系统中参与竞争的个体都是”理性经济人“,即每个人在考虑其他人的可能动作的基…
注:本文来自机器之心的PaperWeekly系列:万字综述之生成对抗网络(GAN),如有侵权,请联系删除,谢谢! 前阵子学习 GAN 的过程发现现在的 GAN 综述文章大都是 2016 年 Ian Goodfellow 或者自动化所王飞跃老师那篇.可是在深度学习,GAN领域,其进展都是以月来计算的,感觉那两篇综述有些老了.最近发现有一篇最新的 GAN 综述论文(How Generative Adversarial Networks and Their Variants Work: An Over…
原文地址:https://blog.csdn.net/Sakura55/article/details/81514828 1.GAN 先来看看公式:             GAN网络主要由两个网络构成,生成网络G和辨别网络D,生成模型G的思想是将一个噪声包装成一个逼真的样本,判别模型D则需要判断送入的样本是真实的还是假的样本,即共同进步的过程,辨别模型D对样本的判别能力不断上升,生成模型G的造假能力也不断上升!              需要注意的是,生成模型G的输入是服从-1~1均匀分布的随…
https://juejin.im/post/5d3fb44e6fb9a06b2e3ccd4e 生成对抗网络(GAN)是生成模型的一种神经网络架构. 生成模型指在现存样本的基础上,使用模型来生成新案例,比如,基于现存的照片集生成一组与其相似却有细微差异的新照片. GAN是使用两个神经网络模型训练而成的一种生成模型.其中一个称为"生成器"或"生成网络"模型,可学习生成新的可用案例.另一个称为"判别器"或"判别网络",可学习判别生…
选自venturebeat 翻译:魔王.一鸣 前言 AI 领域最杰出的头脑如何总结 2019 年技术进展,又如何预测 2020 年发展趋势呢?本文介绍了 Soumith Chintala.Celeste Kidd.Jeff Dean 等人的观点. 人工智能不是将要改变世界,而是正在改变世界.在新年以及新的十年开启之际,VentureBeat 采访了人工智能领域最杰出的头脑,来回顾人工智能在 2019 年的进展,展望机器学习在 2020 年的前景.受访者包括 PyTorch 之父 Soumith…