【论文阅读】Beyond OCR + VQA: 将OCR融入TextVQA的执行流程中形成更鲁棒更准确的模型

论文题目：Beyond OCR + VQA: Involving OCR into the Flow for Robust and Accurate TextVQA

论文链接：https://dl.acm.org/doi/abs/10.1145/3474085.3475606

一、任务概述

视觉问答任务(VQA)：将图像和关于图像的自然语言问题作为输入，并生成自然语言答案作为输出。
文本视觉问答任务(TextVQA)：面向文字识别的问答任务。

二、Baseline

2.1 Baseline 1： Look, Read, Reason & Answer (LoRRA)：

2019年提出，推出标准数据集，原文地址：https://arxiv.org/abs/1904.08920v2
典型的TextVQA：将问题回答建模为分类任务，需要给定答案空间。

多模态嵌入：问题embedding、图像中的物体进行embedding、OCR的结果进行embedding(FastText做pre-train)
嵌入方式：
- 对问题进行GloVe Embedding，再通过LSTM得到问题嵌入 fQ(q)，用于后续对图片特征以及OCR样本进行注意力加权平均。
- 将图像进行特征提取，提取的特征fI(v)与fQ(q)一起经过注意力机制得到加权的空间注意力，得到的结果与fQ(q)进行组合。

- OCR模块基于预训练模型(Faster RCNN + CTC)进行识别，识别出的结果fO(s)与fQ(q)一起经过注意力机制得到加权的空间注意力，得到的结果与fQ(q)进行组合。

- contact一起之后过分类器(MLP)，分类的类别为问题空间a1……an 加上 OCR是识别出的词

2.2 Baseline 2：M4C

主贡献：提出了迭代预测的解码方式，但我们更关注特征表示的部分

Question embedding：BERT-base模型的encoder，但只用前3层，得到矩阵shape=(K, d)
Detected object embedding：Faster-RCNN + Position，shape=(M, d)
融合方式：Linear + LayerNorm

OCR token embedding 由四部分组成：
- $x_n^{ft}$ : 300维的FastText文本特征
- $x_n^{fr}$ : Faster RCNN特征，和detected object的获取方式一样
- $x_n^{p}$ : 604维的Pyramidal Histogram of Characters（PHOC）特征
- $x_n^{b}$ : 4维的位置特征，计算方式和detected object一样
- 融合方式：前三个特征过linear后做layernorm，position单独融合，再加起来

三、Motivation

OCR的错误识别会较大程度影响多模态信息之间的交互(即fA的过程)
因为在表征空间中需要copy OCR识别的token，OCR的错误会较严重的影响解码器的性能（哪怕另两个分支完全准确也没法正确的输出）

四、Method

4.1 Contribution

增强特征表示的鲁棒性：减小OCR错误和物体识别错误对推理的影响
增强解码器的鲁棒性：在答案预测模块提出一个上下文感知的答案修正模块（CRM）对“复制”的答案词进行校正。

4.2 Architectural Details—— 视觉增强的文字表征模块 TVS (OCR增强)

method：
- 文字图像矫正模块
- 编码模块：45层ResNet+ 2层Bi-LSTM
- 解码模块：单层注意力机制的GRU
- 中间语义模块：根据文字视觉信息预测语义信息
train：利用外部数据集训练(SynthText + Synth90K)
loss： OCR识别损失+语义损失
- 语义损失由真实和预测的语义特征向量间的余弦距离计算得到
优势：
- 通过语义损失的监督，编码模块能产生与文字解码更相关的视觉特征
- TVS为直接由文字图像的视觉特性获得语义表示提供可能。

整网中推理，OCR token details(n个文本框)：

- $x_n^{v}$ : TVS的视觉特征
- $x_n^{ft}$ : FastText文本特征
- $x_n^{fr}$ : Faster RCNN特征
- $x_n^{p}$ : Pyramidal Histogram of Characters（PHOC）特征
- $x_n^{b}$ : 4维的位置bounding box特征
- 融合方式：

4.3 Architectural Details—— 语义导向的物体表征 SEO-FRCN（Visual增强）

method：传统的Faster RCNN，在解码环节增加一个分支来预测物体类别的embedding
- 物体类别embedding的gt 时物体类别名称的语义特征。
train：使用Visual Genome数据集，backbone resnet101 预训练，新分支fine tune
loss：RPN loss + 四分支loss

优势：能够拉近相似物体的图像相似度(例如 traffic light和traffic sign)
整网中推理，Visual token details(m个物体)：
- $x_m^{fr}$ ：视觉特征
- $x_m^{fr}$ ：位置特征
- $x_m^{fr}$ ：预测的物体类别嵌入向量
- 特征融合：

4.3 Architectural Details——上下文感知的答案修正 CRM (解码结果增强)

method：在推理阶段，对于”直接复制OCR结果”进行改进。
- 如果解码的输出指向图像中的文字，则将它视作一个候选词，利用输入的问题、其他文字信息和相关物体信息进行文字修正。
- 使用多个OCR模块输出多个预测结果作为候选集，选出得分最高的结果作为最后的输出。
- 组成：Transformer进行上下文信息融合 + linear&sigmoid 二分类器
training：如果候选集的结果与gt相同则为1，不同则为0，构建训练数据。二分类预测一个相关分数，最小化交叉熵损失进行训练。

五、Experiment

六、结论

将OCR融入TextVQA的前向处理流程，构建了一个鲁棒且准确的TextVQA模型

参考博客

[1] https://zhuanlan.zhihu.com/p/250951251

[2] https://mp.weixin.qq.com/s/s7EP8ZiB_0UAv0M4VDhNGA

【论文阅读】Beyond OCR + VQA: 将OCR融入TextVQA的执行流程中形成更鲁棒更准确的模型的更多相关文章

论文阅读：Face Recognition: From Traditional to Deep Learning Methods 《人脸识别综述：从传统方法到深度学习》
论文阅读:Face Recognition: From Traditional to Deep Learning Methods <人脸识别综述:从传统方法到深度学习> 一.引 ...
论文阅读（Xiang Bai——【CVPR2015】Symmetry-Based Text Line Detection in Natural Scenes）
Xiang Bai--[CVPR2015]Symmetry-Based Text Line Detection in Natural Scenes 目录作者和相关链接方法概括创新点和贡献方法细 ...
论文阅读笔记四十七：Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression(CVPR2019)
论文原址:https://arxiv.org/pdf/1902.09630.pdf github:https://github.com/generalized-iou 摘要在目标检测的评测体系中,I ...
【论文阅读】Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification
转载请注明出处:https://www.cnblogs.com/White-xzx/ 原文地址:https://arxiv.org/abs/1702.05891 Caffe-code:https:// ...
【论文阅读】Deep Mutual Learning
文章:Deep Mutual Learning 出自CVPR2017(18年最佳学生论文) 文章链接:https://arxiv.org/abs/1706.00384 代码链接:https://git ...
【阅读SpringMVC源码】手把手带你debug验证SpringMVC执行流程
✿ 阅读源码思路: 先跳过非重点,深入每个方法,进入的时候可以把整个可以理一下方法的执行步骤理一下,也可以,理到某一步,继续深入,回来后,接着理清除下面的步骤. ✿ 阅读本文的准备工作,预习一下Spr ...
论文阅读（Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences）
Weilin Huang--[AAAI2016]Reading Scene Text in Deep Convolutional Sequences 目录作者和相关链接方法概括创新点和贡献方法 ...
论文阅读（Xiang Bai——【TIP2014】A Unified Framework for Multi-Oriented Text Detection and Recognition）
Xiang Bai--[TIP2014]A Unified Framework for Multi-Oriented Text Detection and Recognition 目录作者和相关链接 ...
[论文阅读笔记] Fast Network Embedding Enhancement via High Order Proximity Approximati
[论文阅读笔记] Fast Network Embedding Enhancement via High Order Proximity Approximation 本文结构解决问题主要贡献主要 ...

随机推荐

Java初步学习——2021.09.23每日报告，第三周周四
(1)今天做了什么: (2)明天准备做什么? (3)遇到的问题,如何解决? 学习数组,编写了一个随机选牌的代码.自己最开始一直想只设置一个字符串数组,利用随机数来输出,但那样对字符串赋值会比较麻烦.可 ...
题解 [ZJOI2019]语言
题目传送门题目大意给出一个 $n$ 个点的树,现在有 $m$ 次操作,每次可以选择一个链 $s,t$,,然后这条链上每个点都会增加一个相同属性,问对于每一个点有与它相同属性的有多少个点 ...
centos无法建立ssl连接
在centos下使用wget安装mysql5.7时,提示无法建立ssl连接查阅资料,在命令wget后加上 --no-check-certificate也还是无法建立SSL连接. 后来,觉得可能是由于 ...
云原生的弹性 AI 训练系列之三：借助弹性伸缩的 Jupyter Notebook，大幅提高 GPU 利用率
Jupyter Notebooks 在 Kubernetes 上部署往往需要绑定一张 GPU,而大多数时候 GPU 并没有被使用,因此利用率低下.为了解决这一问题,我们开源了 elastic-jupy ...
关于 WinDoAdmin
WinDoAdmin(有温度,更有深度) an amazing winform admin 框架描述最新基于Winform实现的Web样式中后台解决方案,大型企业级开发框架. 如果你要使用Winfo ...
NX屏蔽窗口的按钮
有时候在激活一个命令按钮的时候,需要同时禁止掉另外一个或多个命令按钮 ''' <summary> ''' 取按钮是否敏感 ''' </summary> ''' <para ...
[软工顶级理解组] Beta阶段测试报告
在测试过程中发现了多少Bug? 测试阶段发现并已修复的bug: 尚且存在,但是难以解决或者不影响使用的bug: 计算重修课程的时候,如果重修课程的课程号和原课程号不同,则GPA计算会出现误差.但我们无 ...
[Beta]the Agiles Scrum Meeting 4
会议时间:2020.5.15 21:00 1.每个人的工作今天已完成的工作成员已完成的工作 yjy 增加教学计划面板,修复bug tq 实现查看.删除测试点功能 wjx 实现批量创建结对项目功能 ...
2021.7.28考试总结[NOIP模拟26]
罕见的又改完了. T1 神炎皇吸取昨天三个出规律的教训,开场打完T2 20pts直接大力打表1h. 但怎么说呢,我不懂欧拉函数.(其实exgcd都忘了于是只看出最大平方因子,不得不线性筛,爆拿60 ...
WPF PropertyChanged实现子属性通知
今天用WPF的View绑定了ViewModel的一个属性类,结果在属性类的子属性修改时,没有通知到UI. 如有要显示一个学生信息,采用WPF MVVM的模式,则前端代码 <StackPanel& ...

【论文阅读】Beyond OCR + VQA: 将OCR融入TextVQA的执行流程中形成更鲁棒更准确的模型

一、任务概述

二、Baseline

2.1 Baseline 1： Look, Read, Reason & Answer (LoRRA)：

2.2 Baseline 2：M4C

三、Motivation

四、Method

4.1 Contribution

4.2 Architectural Details—— 视觉增强的文字表征模块 TVS (OCR增强)

4.3 Architectural Details—— 语义导向的物体表征 SEO-FRCN（Visual增强）

4.3 Architectural Details——上下文感知的答案修正 CRM (解码结果增强)

五、Experiment

六、结论

参考博客

【论文阅读】Beyond OCR + VQA: 将OCR融入TextVQA的执行流程中形成更鲁棒更准确的模型的更多相关文章

随机推荐

热门专题