论文题目:Beyond OCR + VQA: Involving OCR into the Flow for Robust and Accurate TextVQA 论文链接:https://dl.acm.org/doi/abs/10.1145/3474085.3475606 一.任务概述 视觉问答任务(VQA):将图像和关于图像的自然语言问题作为输入,并生成自然语言答案作为输出. 文本视觉问答任务(TextVQA):面向文字识别的问答任务. 二.Baseline 2.1 Baseline 1
原文链接:http://arxiv.org/abs/2004.10934 整体框架 Bag of Freebies(BoF) & Bag of Specials (BoS) Bag of Freebies(BoF) 指那些能够提高精度而不增加推断时间的技术.比如数据增广的方法图像几何变换.CutOut.grid mask等,网络正则化的方法DropOut.DropBlock等,类别不平衡的处理方法.难例挖掘方法.损失函数的设计等. Bag of Specials (BoS)是