一.前述 视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务.这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]. 翻译为中文:一个VQ…
Hierarchical Question-Image Co-Attention for Visual Question Answering NIPS 2016 Paper: https://arxiv.org/pdf/1606.00061.pdf Code: https://github.com/jiasenlu/HieCoAttenVQA Related Blog: [AI前沿]机器阅读理解与问答·Dynamic Co-Attention Networks Introduction: 本文提…
Visual Question Answering with Memory-Augmented Networks 2018-05-15 20:15:03 Motivation: 虽然 VQA 已经取得了很大的进步,但是这种方法依然对完全 general,freeform VQA 表现很差,作者认为是因为如下两点: 1. deep models trained with gradient based methods learn to respond to the majority of train…
第八讲_图像问答Image Question Answering 课程结构 图像问答的描述 具备一系列AI能力:细分识别,物体检测,动作识别,常识推理,知识库推理..... 先要根据问题,判断什么任务 图像问题与图像描述的关系 研究的难点和挑战 研究方向 数据集 COCO-QA来源MSCOCO VQA(visual question answering) 平衡数据集V1.9-->V2.0 Visual7W---Visual Genome的子集 图像问答模型 模型 基本都是VGG-Net和ResN…
Visual Question Answering as a Meta Learning Task ECCV 2018 2018-09-13 19:58:08 Paper: http://openaccess.thecvf.com/content_ECCV_2018/papers/Damien_Teney_Visual_Question_Answering_ECCV_2018_paper.pdf 1. Introduction: 本文提出一种新的 VQA 思路,将 meta-learning 结…
Learning Visual Question Answering by Bootstrapping Hard Attention Google DeepMind  ECCV-2018   2018-08-05 19:24:44 Paper:https://arxiv.org/abs/1808.00300  Introduction: 本文尝试仅仅用 hard attention 的方法来抠出最有用的 feature,进行 VQA 任务的学习. Soft Attention: Existing…
Learning Conditioned Graph Structures for Interpretable Visual Question Answering 2019-05-29 00:29:43 Paper:http://papers.nips.cc/paper/8054-learning-conditioned-graph-structures-for-interpretable-visual-question-answering.pdf Code:https://github.com…
本文记录简单了解VQA的过程,目的是以此学习图像和文本的特征预处理.嵌入以及如何设计分类loss等等. 参考资料: https://zhuanlan.zhihu.com/p/40704719 https://www.youtube.com/watch?v=ElZADFTer4I https://www.youtube.com/watch?v=cgOmpgcELPQ https://tryolabs.com/blog/2018/03/01/introduction-to-visual-questi…
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering-阅读总结 笔记不能简单的抄写文中的内容,得有自己的思考和理解. 一.基本信息 **\1.标题:**Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering **\2.作者:**Peter Anderson,Xiaodong…
​ 我们生活在一个多模态的世界中.视觉的捕捉与理解,知识的学习与感知,语言的交流与表达,诸多方面的信息促进着我们对于世界的认知.作为多模态领域的一个典型场景,VQA旨在结合视觉的信息来回答所提出的问题.从15年首次被提出[1]至今,其涉及的方法从最开始的联合编码,到双线性融合,注意力机制,组合模型,场景图,再到引入外部知识,进行知识推理,以及使用图网络,多模态预训练语言模型-近年来发展迅速. 传统的VQA仅凭借视觉与语言信息的组合来回答问题,而近年来许多研究者开始探索外部信息对于解决VQA任务的…