QA即图像问答:覆盖最全面的AI,ai完备性 动态模型:不同任务需要不同模型 or 不同细分任务需要不同模型参数 数据集: 1)VQA,显示图片+抽象场景:每个问题给10个不同答案:含有无图片答案(考察图片和问题的客观性) 为了降低语言偏置.不均衡(language priors)->一个问题对应2个图片,予以场景相似但是答案不同 ~ 即有时候由于主观想法,对一场景的想法可能大多数都是yes,所以给出对立的图片可以降低偏置问题,只有一个人两个图片都能回答对才算正确,而不是蒙对的 2)Visual…