Visual Question Answering with Memory-Augmented Networks 2018-05-15 20:15:03 Motivation: 虽然 VQA 已经取得了很大的进步,但是这种方法依然对完全 general,freeform VQA 表现很差,作者认为是因为如下两点: 1. deep models trained with gradient based methods learn to respond to the majority of train…
Visual Question Answering as a Meta Learning Task ECCV 2018 2018-09-13 19:58:08 Paper: http://openaccess.thecvf.com/content_ECCV_2018/papers/Damien_Teney_Visual_Question_Answering_ECCV_2018_paper.pdf 1. Introduction: 本文提出一种新的 VQA 思路,将 meta-learning 结…
Hierarchical Question-Image Co-Attention for Visual Question Answering NIPS 2016 Paper: https://arxiv.org/pdf/1606.00061.pdf Code: https://github.com/jiasenlu/HieCoAttenVQA Related Blog: [AI前沿]机器阅读理解与问答·Dynamic Co-Attention Networks Introduction: 本文提…
一.前述 视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务.这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]. 翻译为中文:一个VQ…
Learning Visual Question Answering by Bootstrapping Hard Attention Google DeepMind  ECCV-2018   2018-08-05 19:24:44 Paper:https://arxiv.org/abs/1808.00300  Introduction: 本文尝试仅仅用 hard attention 的方法来抠出最有用的 feature,进行 VQA 任务的学习. Soft Attention: Existing…
Learning Conditioned Graph Structures for Interpretable Visual Question Answering 2019-05-29 00:29:43 Paper:http://papers.nips.cc/paper/8054-learning-conditioned-graph-structures-for-interpretable-visual-question-answering.pdf Code:https://github.com…
第八讲_图像问答Image Question Answering 课程结构 图像问答的描述 具备一系列AI能力:细分识别,物体检测,动作识别,常识推理,知识库推理..... 先要根据问题,判断什么任务 图像问题与图像描述的关系 研究的难点和挑战 研究方向 数据集 COCO-QA来源MSCOCO VQA(visual question answering) 平衡数据集V1.9-->V2.0 Visual7W---Visual Genome的子集 图像问答模型 模型 基本都是VGG-Net和ResN…
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering-阅读总结 笔记不能简单的抄写文中的内容,得有自己的思考和理解. 一.基本信息 **\1.标题:**Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering **\2.作者:**Peter Anderson,Xiaodong…
Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering 2019-04-25 21:43:11 Paper:https://arxiv.org/pdf/1904.04357.pdf Code: https://github.com/fanchenyou/HME-VideoQA 1. Background and Motivation:  用 Memory Network 做视觉问题…
SalGAN: Visual saliency prediction with generative adversarial networks 2017-03-17 摘要:本文引入了对抗网络的对抗训练机制来进行显著性物体的预测.虽然我们老板很不喜欢显著性,但是,做显著性检测的人还是会说:这是有意义的.如本文说的:恩,显著性可以作为 soft-attention,来引导其他计算机视觉任务的进行,也可以直接引导 marketing 领域. 本文区别于其他方法最显著的地方在于:the usage of…