QA即图像问答:覆盖最全面的AI,ai完备性

动态模型:不同任务需要不同模型 or 不同细分任务需要不同模型参数

数据集:

1)VQA,显示图片+抽象场景;每个问题给10个不同答案;含有无图片答案(考察图片和问题的客观性)

为了降低语言偏置、不均衡(language priors)-》一个问题对应2个图片,予以场景相似但是答案不同 ~ 即有时候由于主观想法,对一场景的想法可能大多数都是yes,所以给出对立的图片可以降低偏置问题,只有一个人两个图片都能回答对才算正确,而不是蒙对的

2)Visual7W

图像问答模型:

基本模型结构--》

cnn提取图片特征~vgg倒数第二个全连接层4096输出

rnn提取问题特征~lstm最后一个时刻的隐含状态和记忆状态(一般的是只含记忆状态的)

文本特征embedding~onet-hot编码是高度稀疏的 ~矩阵乘映射,共享特征空间-》变为稠密的;全连接层降维

特征映射:2个1024维的全连接层

特征融合:点乘 2*1024-》1024,图片信息和文本信息融合

特征推理:1个全连接层,1个softmax层 ~1024-》1000,因为答案集是1000,比如频率低于多少的会被滤掉 ~拖尾效应都扔掉

QA的attention机制类似image caption即图像理解:

图像特征~vgg,问题特征~lstm

堆栈注意网络stacked attention network:查询语义相关区域,滤除噪声区域,多步推理,精华查询  ~ cnn/lstm提出问题特征之后,在“图像不同位置的特征中找相似,并赋予权重,拿到权重相加后的综合特征,并送到下一时刻得到增强特征,再送到下一网络做推断

模型增强之注意机制的基本模型结构--》

图片模型结构~vgg,输入488*488,输出最后一个池化层,14*14,特征维数512

图片特征embedding模块~单层神经网络,将图片特征映射到共享特征空间

问题模型结构~lstm,不同单词对应不同时刻,输出最后时刻的隐含状态

文本特征embedding模块,将one-hot编码映射到共享特征空间

堆栈注意网络~不断增强和答案相关区域的特征权重;部分二图片区域特征权重相加后得到”场景特征“;场景特征和问题特征相加后,得到增强特征;一般两步推断性能最好即first/second attention layer,如first关注谁带了帽子,second关注到带的什么帽子

模型增强之外部知识库knowledge base:

MCG算法拿到image的proposals,每个proposal区域拿到标签和属性概率-》max pooling->属性特征

属性特征-》lstm-》5个caption句子

属性特征+内部特征+知识特征,串接合并

官方实验:

vgg+lstm :是选择的baseline

lesson8-图像问答-小象cv的更多相关文章

  1. OpenCV探索之路(二十五):制作简易的图像标注小工具

    搞图像深度学习的童鞋一定碰过图像数据标注的东西,当我们训练网络时需要训练集数据,但在网上又没有找到自己想要的数据集,这时候就考虑自己制作自己的数据集了,这时就需要对图像进行标注.图像标注是件很枯燥又很 ...

  2. 第八讲_图像问答Image Question Answering

    第八讲_图像问答Image Question Answering 课程结构 图像问答的描述 具备一系列AI能力:细分识别,物体检测,动作识别,常识推理,知识库推理..... 先要根据问题,判断什么任务 ...

  3. 发现PDF Transformer+转换的图像字体小了如何处理

    ABBYY PDF Transformer+转换的原始图像字体太小怎么办?为了获得最佳文本识别效果,请用较高的分辨率扫描用极小字体打印的文档,否则很容易在转换识别时出错.下面小编就给大家讲讲该怎么解决 ...

  4. React问答小demo

    在学习react初期,看了一些视频和资料,react基础知识差不多学完,跟着网上的一个教程,做了一个小型的问答demo. 需求看图说: 1.点击"添加"按钮,显示问题输入表单,再次 ...

  5. lesson4-图像分类-小象cv

    CNN网络进化:AlexNet->VGG->GoogleNet->ResNet,深度8->19->22->152GoogleNet:Lsplit->trans ...

  6. Android 不规则图像填充 小玩着色游戏

    转载请标明出处: http://blog.csdn.net/lmj623565791/article/details/45788433: 本文出自:[张鸿洋的博客] 一.概述 近期群里偶然看到一哥们在 ...

  7. Python全栈问答小技巧_2

    Python全栈测试题(二) 作者:尹正杰 声明:答案如有偏差,欢迎指正!欢迎加入高级运维工程师之路:598432640 本文答题用的Python版本是:Python 3.5.2,请知晓! 1. 计算 ...

  8. 在windows中使用labelimg工具搭建图像标注小环境

    文章分成两个部分,第一部分,labelimg工具的安装:第二部分,labelimg工具的使用方法. 第一部分:工具安装 方法一:直接使用网上编译好的Labelimg可执行文件(12.6M),双击执行即 ...

  9. Python全栈问答小技巧_1

    Python全栈测试题 作者:尹正杰 声明:答案如有偏差,欢迎指正!欢迎加入高级运维工程师之路:598432640 本文答题用的Python版本是:Python 3.5.2,请知晓! 1.执行 Pyt ...

随机推荐

  1. 消费Restful的web服务(三)

    构架工程 创建一个springboot工程,去消费RESTFUL的服务.这个服务是 http:///gturnquist-quoters.cfapps.io/api/random ,它会随机返回Jso ...

  2. Python爬虫关于多层嵌套iframe的解决

    近期由于公司资源需要,我爬取了一个视频网站,结果以为一个很容易的小爬虫,却步步是坑啊,费了一天终于都解决了(太菜了!!!). 前面导航页的爬虫就不多说了,无非就是webdriver和PhantomJS ...

  3. js如何返回两个数的商的整数和余数部分?

    js中,如何返回两个数的商的整数和余数部分? 如: num1:100 ,num2:12 var num = parseFloat(100/12); //值: 8.333333333333334 那么如 ...

  4. Javaconfig形式配置Dubbo多注册中心

    多注册中心,一般用不到,但是某些情况下的确能解决不少问题,可以将某些dubbo服务注册到2套dubbo系统中,实现服务在2套系统间的共用. 网上的配置说明很多,但包括dubbo官方说明文档都是以xml ...

  5. Python自然语言处理---TF-IDF模型

    一. 信息检索技术简述 信息检索技术是当前比较热门的一项技术,我们通常意义上的论文检索,搜索引擎都属于信息检索的范畴.信息检索的问题可以抽象为:在文档集合D上,对于关键词w[1]…w[k]组成的查询串 ...

  6. Kafka.net使用编程入门(一)

    最近研究分布式消息队列,分享下! 首先zookeeper  和 kafka 压缩包 解压 并配置好! 我本机zookeeper环境配置如下: D:\Worksoftware\ApacheZookeep ...

  7. OO Summary Ⅳ

    测试与正确性论证的效果差异 测试,或者说用断言进行黑箱测试,用大量的数据进行“覆盖性测试”,目的是当分支覆盖率达到100%也就是理论上来说所有可能的输入都已经测试过了,而输出结果均是正确的,那么我们理 ...

  8. day16 初识面向对象

    今天主要学习内容: 1.初始面向对象 2 .类 ,对象 3,面向对象和面向过程的对比 4.面向对象的三大特征 1,初始面向对象 面向过程 : 一切以实物的发展流程为中心 面向对象: 一切以对象为中心, ...

  9. 根据题目完成以下50道SQL语句

    已知有如下4张表: 学生表:STUDENT(S#,SNAME,SAGE,SSEX) 课程表:COURSE(C#,CNAME,T#) 成绩表:SC(S#,C#,SCORE) 教师表:TEACHER(T# ...

  10. Instruments leak黑魔法定位内存泄漏

    leak是一款很赞的内存检查的工具,但在使用的过程中有点繁琐,至少有些底层的泄漏笔者还是不知道如何下手 下面介绍一下简单leak的使用: 首先你要确认你的target不会被拒绝,确保profile是d ...