细粒度识别一般需要模型识别非常精细的子类别,它基本上就是同时使用图像全局信息和局部信息的分类任务。在本论文中,研究者们提出了一种新型层次语义框架,其自顶向下地由全局图像关注局部特征或更具判别性的区域。

人类在识别物体类别时,往往不仅仅根据其外观信息,还依赖于在日常生活以及专业学习过程中获取的先验知识。如何有效利用这些先验知识引导和约束网络学习是目前一个重要的研究难点。针对于精细化物体识别,其类别可以按照不同程度进行概念抽象,并形成了层次化的分类结构。这种结构是层级间丰富语义知识的集中体现,如层级间的关联系,它可以作为先验知识规范化语义空间,有效引导和约束深度网络的学习。近日,中山大学、华南农业大学、电子科技大学以及桂林电子大学联合研究团队提出层次化语义嵌入模型,有效利用层次化的分类结构引导网络特征学习以及约束其预测空间,在细粒度图像识别问题上取得最优的性能。

论文地址:https://arxiv.org/pdf/1808.04505.pdf

模型介绍

一般来说,物体的类别可以按照不同程度进行概念抽象,由此形成了层次化的分类结构。例如,鸟类 (鸟纲) 可以按照目、科、属、种四个层级分类。这种层次化信息编码了不同层级的类别之间的关联关系,可以作为一种先验信息有效的规范语义空间。比如说,若要识别给定物体的细粒度类别 (例如,鸟「种」的类别),作者可能先识别出它的超类 (例如,鸟「属」的类别)。然后,作者会更倾向于专注在那些属于这个超类的细粒度类别,进而专注于可以为区分这些细粒度类别提供更多判别信息的物体区域。然而,目前的方法仅仅着眼于单个层级的类别,却忽略了丰富的结构化信息。

在本论文的工作中,作者同时预测了分类层次结构中各层级的类别,并将这种结构化关联信息集成到深层神经网络中,以逐步约束标签预测和指导特征表达学习。为此,作者提出了一种新的层次语义嵌入框架(Hierarchical Semantic Embedding,简称 HSE),它可以自顶向下地逐层预测每个层级的类别的分数向量。在预测每个层级的类别时,HSE 框架将上一层级预测所得的得分向量作为先验信息嵌入网络,以学习更细致的图像特征表达。在此,作者引入一种新的语义引导的视觉注意力机制来实现,这使得 HSE 框架可以定位到更具有判别性的区域以更好的识别物体。在训练过程中,对于每一层级,作者还利用其上一层级预测所得的得分向量作为软目标,去约束该层级的标签预测,从而使该层级的预测结果与其上一层级的预测结果符合层次结构的关联规则。方法的整体框架图如图 1 所示。

图 1. 层次语义知识嵌入框架整体示意图

数据集介绍

为了评估提出的框架其有效性,作者扩展了 Caltech-UCSD birds 数据集 (Extended CUB),将其组织成具有目、科、属、种四个层级分类结构。同时,作者还构建一个大规模的蝴蝶数据集 (Butterfly-200),其类别标注同样覆盖了四个层级。

Butterfly-200 数据集涵盖 200 种常见的蝴蝶,并根据生物学分类原理进一步的聚成 116 个属,23 个亚科,5 个科。Butterfly200 共收纳了超过了 25,279 张蝴蝶图片,主要包括从互联网利用关键词检索得到的自然图片,以及从实验室拍摄的到的标准图片。为了数据集的精确性和可靠性,这些图片由华南农业大学昆虫学系的四位专家进行二次甄别。

Caltech-UCSD birds 数据集是目前精细化图像分类最常用的评测基准数据集,该数据集包括涵盖 200 类鸟的 11,788 张图像。该论文根据生物学分类原理进一步把这 200 类聚成 13 个目,37 个科,122 个属。

图 2 展示来自这两个数据集的一些样本以及对应层次化标注。

图 2. 来自 Extended CUB(第 1,2 行) 和 Butterfly-200(第 3,4 行) 的样本以及对应层次化标注。

实验结果

该论文在 Extended CUB,butterfly-200,以及最新发布的 VegFru 上进行实验。

组件分析

作者首先设计两个没有引入语义嵌入的基准模型 (baseline 和 baseline+backtrack),如表 1,在 Extended CUB 和 Butterfly-200 的数据集上,HSE 框架在两个数据集上的性能始终优于两组对比的基准方法。

表 1. HSE 框架与其它引入额外信息的算法在 CUB 数据集上的首位识别准确率对比。

HSE 框架与两种基准方法的比较证明了它作为一个整体的有效性。实际上,HSE 框架从两个方面整合了语义相关信息,即:语义嵌入表示学习 (Semantic Embedding Representation Learning,简称 SERL) 和语义引导标签正规化 (Semantic Guided Label Regularization,简称 SGLR)。作者同样评估这两部分的实际贡献。作者分别去掉 SERL(Ours w/o SERL) 和 SGLR(Ours w/o SGLR) 模块进行组件分析,如表 2 所示,去掉任一模块都会在两个数据集上的所有级别上的性能明显下降。

物体精细化识别性能对比

作者在 CUB 和 VegFru 两个数据集上和目前最先进的方法进行比较,结果如表 2 和表 3 所示。在两个数据集上,HSE 框架均取得了优于当前最先进方法的性能。

表 2. HSE 框架与其它最先进的算法在 CUB 数据集上的首位识别准确率对比。

表 3. HSE 框架与其它先进方法在 Vegfru 数据集上的性能比较。

代码,模型和数据链接:https://github.com/HCPLab-SYSU/HSE

引用:

[1] Tianshui Chen, Wenxi Wu, Yuefang Gao, Le Dong, Liang Lin, Fine-Grained Representation Learning and Recognition by Exploiting Hierarchical Semantic Embedding, in ACM MM, 2018.

[2] Catherine Wah, Steve Branson, Peter Welinder, Pietro Perona, and Serge Belongie. The caltech-ucsd birds-200-2011 dataset. California Institute of Technology, 2011.

[3] Saihui Hou, Yushan Feng, and Zilei Wang. VegFru: A Domain-Specific Dataset for Fine-grained Visual Categorization. In ICCV, 2017.

中山大学人机物体智能融合实验室有着深厚的学术底蕴和强大的人才支持,指导学生在 PAMI,IJCV,CVPR,ICCV 等国际顶级的期刊、会议上发表多篇论文,论文具有国际影响力;在 ImageNet、全国研究生智慧城市技术与创意设计大赛、全国并行应用挑战赛等顶尖赛事中屡获殊荣。多年来,实验室多名优秀学子纷纷走向了国际顶级学府和知名 AI 企业。

ACM MM | 中山大学等提出HSE:基于层次语义嵌入模型的精细化物体分类的更多相关文章

  1. CVPR2020:基于层次折叠的跳跃式注意网络点云完成

    CVPR2020:基于层次折叠的跳跃式注意网络点云完成 Point Cloud Completion by Skip-Attention Network With Hierarchical Foldi ...

  2. 谷歌大脑提出:基于NAS的目标检测模型NAS-FPN,超越Mask R-CNN

    谷歌大脑提出:基于NAS的目标检测模型NAS-FPN,超越Mask R-CNN 朱晓霞发表于目标检测和深度学习订阅 235 广告关闭 11.11 智慧上云 云服务器企业新用户优先购,享双11同等价格 ...

  3. 论文学习——《Learning to Compose with Professional Photographs on the Web》 (ACM MM 2017)

    总结 1.这篇论文的思路基于一个简单的假设:专业摄影师拍出来的图片一般具备比较好的构图,而如果从他们的图片中随机抠出一块,那抠出的图片大概率就毁了.也就是说,原图在构图方面的分数应该高于抠出来的图片. ...

  4. 基于SMB协议的共享文件读写 博客分类: Java

    基于SMB协议的共享文件读写 博客分类: Java   一.SMB协议 SMB协议是基于TCP-NETBIOS下的,一般端口使用为139,445. 服务器信息块(SMB)协议是一种IBM协议,用于在计 ...

  5. FaceRank-人脸打分基于 TensorFlow 的 CNN 模型

    FaceRank-人脸打分基于 TensorFlow 的 CNN 模型 隐私 因为隐私问题,训练图片集并不提供,稍微可能会放一些卡通图片. 数据集 130张 128*128 张网络图片,图片名: 1- ...

  6. 基于PaddlePaddle的语义匹配模型DAM,让聊天机器人实现完美回复 |

    来源商业新知网,原标题:让聊天机器人完美回复 | 基于PaddlePaddle的语义匹配模型DAM 语义匹配 语义匹配是NLP的一项重要应用.无论是问答系统.对话系统还是智能客服,都可以认为是问题和回 ...

  7. DNS通道检测 国内学术界研究情况——研究方法:基于特征或者流量,使用机器学习决策树分类算法居多

    http://xuewen.cnki.net/DownloadArticle.aspx?filename=BMKJ201104017&dbtype=CJFD<浅析基于DNS协议的隐蔽通道 ...

  8. 基于Text-CNN模型的中文文本分类实战 流川枫 发表于AI星球订阅

    Text-CNN 1.文本分类 转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结. 本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于T ...

  9. 基于Text-CNN模型的中文文本分类实战

    Text-CNN 1.文本分类 转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结. 本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于T ...

随机推荐

  1. NBUT 1223 Friends number 2010辽宁省赛

    Time limit  1000 ms Memory limit   131072 kB Paula and Tai are couple. There are many stories betwee ...

  2. 步步入佳境---UI入门(2)

    一,刚开始练习UI的时候,一般是在- (void)viewDidLoad方法中写代码测试,例如:- (void)viewDidLoad{    CGRect rect=CGRectMake(0, 0, ...

  3. 【转】游戏buff设计参见

    其实这类帖子并没有多少的设计理论,对于策划的提升和帮助也并不大,原因其实在于其适用性太窄,当我要设计XX象棋的时候,它就滚一边去了. 废话不多说切入正题: 游戏中的BUFF/DEBUFF我们见过很多, ...

  4. Excel 设置下拉列表

    1. 把列表的候选值写到一块区域, 可以说同Sheet也可以是另一个Sheet中. 2. 选中要设置的列, 选择 Data > Data Validation 3. 在Data Validati ...

  5. 关于CGI和FastCGI的理解

    在搭建 LAMP/LNMP 服务器时,会经常遇到 PHP-FPM.FastCGI和CGI 这几个概念.如果对它们一知半解,很难搭建出高性能的服务器. 0.CGI的引入 在网站的整体架构中,Web Se ...

  6. UNIMRCP 代码走读

    基于UNIMRCP1.5.0的代码走读 与 填坑记录 1. server启动配置加载 入口:unimrcp_server.c static apt_bool_t unimrcp_server_load ...

  7. CF1096. G. Lucky Tickets(快速幂NTT)

    All bus tickets in Berland have their numbers. A number consists of n digits (n is even). Only k dec ...

  8. LightOJ 1355 :Game of CS(树上green博弈)

    Jolly and Emily are two bees studying in Computer Science. Unlike other bees they are fond of playin ...

  9. FZU OJ 1056 :扫雷游戏

    Problem 1056 扫雷游戏 Accept: 2624    Submit: 6903Time Limit: 1000 mSec    Memory Limit : 32768 KB  Prob ...

  10. (3)什么是函数(函数的定义、形参、实参、默认形参、可变长函数args|kwargs)

    什么是函数 函数是指将一组语句的集合通过一个名字(函数名)封装起来,想要执行这个函数,只需调用其函数名即可 1.减少重复代码 2.使程序变的可扩展 3.使程序变得易维护 定义函数的语法 形参 主要的作 ...