lesson8-图像问答-小象cv
QA即图像问答:覆盖最全面的AI,ai完备性
动态模型:不同任务需要不同模型 or 不同细分任务需要不同模型参数
数据集:
1)VQA,显示图片+抽象场景;每个问题给10个不同答案;含有无图片答案(考察图片和问题的客观性)
为了降低语言偏置、不均衡(language priors)-》一个问题对应2个图片,予以场景相似但是答案不同 ~ 即有时候由于主观想法,对一场景的想法可能大多数都是yes,所以给出对立的图片可以降低偏置问题,只有一个人两个图片都能回答对才算正确,而不是蒙对的
2)Visual7W
图像问答模型:
基本模型结构--》
cnn提取图片特征~vgg倒数第二个全连接层4096输出
rnn提取问题特征~lstm最后一个时刻的隐含状态和记忆状态(一般的是只含记忆状态的)
文本特征embedding~onet-hot编码是高度稀疏的 ~矩阵乘映射,共享特征空间-》变为稠密的;全连接层降维
特征映射:2个1024维的全连接层
特征融合:点乘 2*1024-》1024,图片信息和文本信息融合
特征推理:1个全连接层,1个softmax层 ~1024-》1000,因为答案集是1000,比如频率低于多少的会被滤掉 ~拖尾效应都扔掉
QA的attention机制类似image caption即图像理解:
图像特征~vgg,问题特征~lstm
堆栈注意网络stacked attention network:查询语义相关区域,滤除噪声区域,多步推理,精华查询 ~ cnn/lstm提出问题特征之后,在“图像不同位置的特征中找相似,并赋予权重,拿到权重相加后的综合特征,并送到下一时刻得到增强特征,再送到下一网络做推断
模型增强之注意机制的基本模型结构--》
图片模型结构~vgg,输入488*488,输出最后一个池化层,14*14,特征维数512
图片特征embedding模块~单层神经网络,将图片特征映射到共享特征空间
问题模型结构~lstm,不同单词对应不同时刻,输出最后时刻的隐含状态
文本特征embedding模块,将one-hot编码映射到共享特征空间
堆栈注意网络~不断增强和答案相关区域的特征权重;部分二图片区域特征权重相加后得到”场景特征“;场景特征和问题特征相加后,得到增强特征;一般两步推断性能最好即first/second attention layer,如first关注谁带了帽子,second关注到带的什么帽子
模型增强之外部知识库knowledge base:
MCG算法拿到image的proposals,每个proposal区域拿到标签和属性概率-》max pooling->属性特征
属性特征-》lstm-》5个caption句子
属性特征+内部特征+知识特征,串接合并
官方实验:
vgg+lstm :是选择的baseline
lesson8-图像问答-小象cv的更多相关文章
- OpenCV探索之路(二十五):制作简易的图像标注小工具
搞图像深度学习的童鞋一定碰过图像数据标注的东西,当我们训练网络时需要训练集数据,但在网上又没有找到自己想要的数据集,这时候就考虑自己制作自己的数据集了,这时就需要对图像进行标注.图像标注是件很枯燥又很 ...
- 第八讲_图像问答Image Question Answering
第八讲_图像问答Image Question Answering 课程结构 图像问答的描述 具备一系列AI能力:细分识别,物体检测,动作识别,常识推理,知识库推理..... 先要根据问题,判断什么任务 ...
- 发现PDF Transformer+转换的图像字体小了如何处理
ABBYY PDF Transformer+转换的原始图像字体太小怎么办?为了获得最佳文本识别效果,请用较高的分辨率扫描用极小字体打印的文档,否则很容易在转换识别时出错.下面小编就给大家讲讲该怎么解决 ...
- React问答小demo
在学习react初期,看了一些视频和资料,react基础知识差不多学完,跟着网上的一个教程,做了一个小型的问答demo. 需求看图说: 1.点击"添加"按钮,显示问题输入表单,再次 ...
- lesson4-图像分类-小象cv
CNN网络进化:AlexNet->VGG->GoogleNet->ResNet,深度8->19->22->152GoogleNet:Lsplit->trans ...
- Android 不规则图像填充 小玩着色游戏
转载请标明出处: http://blog.csdn.net/lmj623565791/article/details/45788433: 本文出自:[张鸿洋的博客] 一.概述 近期群里偶然看到一哥们在 ...
- Python全栈问答小技巧_2
Python全栈测试题(二) 作者:尹正杰 声明:答案如有偏差,欢迎指正!欢迎加入高级运维工程师之路:598432640 本文答题用的Python版本是:Python 3.5.2,请知晓! 1. 计算 ...
- 在windows中使用labelimg工具搭建图像标注小环境
文章分成两个部分,第一部分,labelimg工具的安装:第二部分,labelimg工具的使用方法. 第一部分:工具安装 方法一:直接使用网上编译好的Labelimg可执行文件(12.6M),双击执行即 ...
- Python全栈问答小技巧_1
Python全栈测试题 作者:尹正杰 声明:答案如有偏差,欢迎指正!欢迎加入高级运维工程师之路:598432640 本文答题用的Python版本是:Python 3.5.2,请知晓! 1.执行 Pyt ...
随机推荐
- python3线程启动与停止
转自: https://blog.csdn.net/weixin_38125866/article/details/76795462 https://www.cnblogs.com/lcchuguo/ ...
- AMR文件结构
转自:http://blog.csdn.net/dinggo/article/details/1966444 https://blog.csdn.net/wlsfling/article/detail ...
- (路-莫)-Python基础一
一,Python介绍 1,python的出生与应用 python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,吉多·范罗苏姆(中文名字:龟叔)为了在阿姆斯特丹打 ...
- java 实现简单的顺序队列
package com.my; import java.util.Arrays; /** * 顺序队列 * @author wanjn * */ public class ArrayQueue { p ...
- js onclick函数中传字符串参数的问题
规则: 外变是“”,里面就是‘’外边是‘’,里边就是“” 示例: var a="111"; var html="<a onclick='selecthoods( ...
- Mysql中contact、group_concat、concat_ws、repeat
一.CONCAT(str1,str2,…) 返回结果为连接参数产生的字符串.如有任何一个参数为NULL ,则返回值为 NULL. mysql> select concat('11','22',' ...
- 第三组 通信一班 030 IPv6 RIPng (PT)
实验拓扑 地址规划 设备 接口 IPV6 地址/掩码 PC0 / 2001:DB8:30:2:201:42FF:FE8A:7688/64 PC1 / 2001:DB8:30:1:230:A3FF:F ...
- 谈谈你对Java多线程的理解以及多线程的实现方式
说线程之前先说进程,何为进程?进程就是正在进行中的程序.比如电脑同时在运行QQ进程.cmd进程.wps进程.飞秋进程等.在某一时刻,CPU只能执行一个程序,只是在做快速切换,我们肉眼看不出来. 比如: ...
- 第三节 java 函数
1.函数的定义 1.方法就是一段可重复调用的代码段 2.方法的格式1: 访问修饰符 返回值类型 方法名(参数类型 参数1,参数类型 参数2){ //权限访问修饰符 : public protected ...
- vim 使用和配置
vim 启动的时候,默认加载用户目录下.vimrc的配置文件,如果不存在,则会加载系统配置文件/etc/vim/vimrc ~/.vimrc文件配置 #避免中文乱码set fileencodings= ...