ACM MM | 中山大学等提出HSE：基于层次语义嵌入模型的精细化物体分类

细粒度识别一般需要模型识别非常精细的子类别，它基本上就是同时使用图像全局信息和局部信息的分类任务。在本论文中，研究者们提出了一种新型层次语义框架，其自顶向下地由全局图像关注局部特征或更具判别性的区域。

人类在识别物体类别时，往往不仅仅根据其外观信息，还依赖于在日常生活以及专业学习过程中获取的先验知识。如何有效利用这些先验知识引导和约束网络学习是目前一个重要的研究难点。针对于精细化物体识别，其类别可以按照不同程度进行概念抽象，并形成了层次化的分类结构。这种结构是层级间丰富语义知识的集中体现，如层级间的关联系，它可以作为先验知识规范化语义空间，有效引导和约束深度网络的学习。近日，中山大学、华南农业大学、电子科技大学以及桂林电子大学联合研究团队提出层次化语义嵌入模型，有效利用层次化的分类结构引导网络特征学习以及约束其预测空间，在细粒度图像识别问题上取得最优的性能。

论文地址：https://arxiv.org/pdf/1808.04505.pdf

模型介绍

一般来说，物体的类别可以按照不同程度进行概念抽象，由此形成了层次化的分类结构。例如，鸟类 (鸟纲) 可以按照目、科、属、种四个层级分类。这种层次化信息编码了不同层级的类别之间的关联关系，可以作为一种先验信息有效的规范语义空间。比如说，若要识别给定物体的细粒度类别 (例如，鸟「种」的类别)，作者可能先识别出它的超类 (例如，鸟「属」的类别)。然后，作者会更倾向于专注在那些属于这个超类的细粒度类别，进而专注于可以为区分这些细粒度类别提供更多判别信息的物体区域。然而，目前的方法仅仅着眼于单个层级的类别，却忽略了丰富的结构化信息。

在本论文的工作中，作者同时预测了分类层次结构中各层级的类别，并将这种结构化关联信息集成到深层神经网络中，以逐步约束标签预测和指导特征表达学习。为此，作者提出了一种新的层次语义嵌入框架（Hierarchical Semantic Embedding，简称 HSE），它可以自顶向下地逐层预测每个层级的类别的分数向量。在预测每个层级的类别时，HSE 框架将上一层级预测所得的得分向量作为先验信息嵌入网络，以学习更细致的图像特征表达。在此，作者引入一种新的语义引导的视觉注意力机制来实现，这使得 HSE 框架可以定位到更具有判别性的区域以更好的识别物体。在训练过程中，对于每一层级，作者还利用其上一层级预测所得的得分向量作为软目标，去约束该层级的标签预测，从而使该层级的预测结果与其上一层级的预测结果符合层次结构的关联规则。方法的整体框架图如图 1 所示。

图 1. 层次语义知识嵌入框架整体示意图

数据集介绍

为了评估提出的框架其有效性，作者扩展了 Caltech-UCSD birds 数据集 (Extended CUB)，将其组织成具有目、科、属、种四个层级分类结构。同时，作者还构建一个大规模的蝴蝶数据集 (Butterfly-200)，其类别标注同样覆盖了四个层级。

Butterfly-200 数据集涵盖 200 种常见的蝴蝶，并根据生物学分类原理进一步的聚成 116 个属，23 个亚科，5 个科。Butterfly200 共收纳了超过了 25,279 张蝴蝶图片，主要包括从互联网利用关键词检索得到的自然图片，以及从实验室拍摄的到的标准图片。为了数据集的精确性和可靠性，这些图片由华南农业大学昆虫学系的四位专家进行二次甄别。

Caltech-UCSD birds 数据集是目前精细化图像分类最常用的评测基准数据集，该数据集包括涵盖 200 类鸟的 11,788 张图像。该论文根据生物学分类原理进一步把这 200 类聚成 13 个目，37 个科，122 个属。

图 2 展示来自这两个数据集的一些样本以及对应层次化标注。

图 2. 来自 Extended CUB(第 1，2 行) 和 Butterfly-200(第 3，4 行) 的样本以及对应层次化标注。

实验结果

该论文在 Extended CUB，butterfly-200，以及最新发布的 VegFru 上进行实验。

组件分析

作者首先设计两个没有引入语义嵌入的基准模型 (baseline 和 baseline+backtrack)，如表 1，在 Extended CUB 和 Butterfly-200 的数据集上，HSE 框架在两个数据集上的性能始终优于两组对比的基准方法。

表 1. HSE 框架与其它引入额外信息的算法在 CUB 数据集上的首位识别准确率对比。

HSE 框架与两种基准方法的比较证明了它作为一个整体的有效性。实际上，HSE 框架从两个方面整合了语义相关信息，即：语义嵌入表示学习 (Semantic Embedding Representation Learning，简称 SERL) 和语义引导标签正规化 (Semantic Guided Label Regularization，简称 SGLR)。作者同样评估这两部分的实际贡献。作者分别去掉 SERL(Ours w/o SERL) 和 SGLR(Ours w/o SGLR) 模块进行组件分析，如表 2 所示，去掉任一模块都会在两个数据集上的所有级别上的性能明显下降。

物体精细化识别性能对比

作者在 CUB 和 VegFru 两个数据集上和目前最先进的方法进行比较，结果如表 2 和表 3 所示。在两个数据集上，HSE 框架均取得了优于当前最先进方法的性能。

表 2. HSE 框架与其它最先进的算法在 CUB 数据集上的首位识别准确率对比。

表 3. HSE 框架与其它先进方法在 Vegfru 数据集上的性能比较。

代码，模型和数据链接：https://github.com/HCPLab-SYSU/HSE

引用：

[1] Tianshui Chen, Wenxi Wu, Yuefang Gao, Le Dong, Liang Lin, Fine-Grained Representation Learning and Recognition by Exploiting Hierarchical Semantic Embedding, in ACM MM, 2018.

[2] Catherine Wah, Steve Branson, Peter Welinder, Pietro Perona, and Serge Belongie. The caltech-ucsd birds-200-2011 dataset. California Institute of Technology, 2011.

[3] Saihui Hou, Yushan Feng, and Zilei Wang. VegFru: A Domain-Specific Dataset for Fine-grained Visual Categorization. In ICCV, 2017.

中山大学人机物体智能融合实验室有着深厚的学术底蕴和强大的人才支持，指导学生在 PAMI，IJCV，CVPR，ICCV 等国际顶级的期刊、会议上发表多篇论文，论文具有国际影响力；在 ImageNet、全国研究生智慧城市技术与创意设计大赛、全国并行应用挑战赛等顶尖赛事中屡获殊荣。多年来，实验室多名优秀学子纷纷走向了国际顶级学府和知名 AI 企业。

ACM MM | 中山大学等提出HSE：基于层次语义嵌入模型的精细化物体分类的更多相关文章

CVPR2020：基于层次折叠的跳跃式注意网络点云完成
CVPR2020:基于层次折叠的跳跃式注意网络点云完成 Point Cloud Completion by Skip-Attention Network With Hierarchical Foldi ...
谷歌大脑提出：基于NAS的目标检测模型NAS-FPN，超越Mask R-CNN
谷歌大脑提出:基于NAS的目标检测模型NAS-FPN,超越Mask R-CNN 朱晓霞发表于目标检测和深度学习订阅 235 广告关闭 11.11 智慧上云云服务器企业新用户优先购,享双11同等价格 ...
论文学习——《Learning to Compose with Professional Photographs on the Web》 (ACM MM 2017)
总结 1.这篇论文的思路基于一个简单的假设:专业摄影师拍出来的图片一般具备比较好的构图,而如果从他们的图片中随机抠出一块,那抠出的图片大概率就毁了.也就是说,原图在构图方面的分数应该高于抠出来的图片. ...
基于SMB协议的共享文件读写博客分类： Java
基于SMB协议的共享文件读写博客分类: Java 一.SMB协议 SMB协议是基于TCP-NETBIOS下的,一般端口使用为139,445. 服务器信息块(SMB)协议是一种IBM协议,用于在计 ...
FaceRank-人脸打分基于 TensorFlow 的 CNN 模型
FaceRank-人脸打分基于 TensorFlow 的 CNN 模型隐私因为隐私问题,训练图片集并不提供,稍微可能会放一些卡通图片. 数据集 130张 128*128 张网络图片,图片名: 1- ...
基于PaddlePaddle的语义匹配模型DAM，让聊天机器人实现完美回复 |
来源商业新知网,原标题:让聊天机器人完美回复 | 基于PaddlePaddle的语义匹配模型DAM 语义匹配语义匹配是NLP的一项重要应用.无论是问答系统.对话系统还是智能客服,都可以认为是问题和回 ...
DNS通道检测国内学术界研究情况——研究方法：基于特征或者流量，使用机器学习决策树分类算法居多
http://xuewen.cnki.net/DownloadArticle.aspx?filename=BMKJ201104017&dbtype=CJFD<浅析基于DNS协议的隐蔽通道 ...
基于Text-CNN模型的中文文本分类实战流川枫发表于AI星球订阅
Text-CNN 1.文本分类转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结. 本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于T ...
基于Text-CNN模型的中文文本分类实战
Text-CNN 1.文本分类转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结. 本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于T ...

随机推荐

Appium 并发测试基于unitest
前言: 在回归测试阶段,UI测试,兼容测试是测试的必要步骤.UI自动化的本身是比较冗余的测试,但是换个角度思考,UI自动化同时连接多台设备,那么在回归测试时,在同一个脚本下产生的测试结果是非常有价值的 ...
TJU Problem 1090 City hall
注:对于每一横行的数据读取,一定小心不要用int型,而应该是char型或string型. 原题: 1090. City hall Time Limit: 1.0 Seconds Memory ...
HTML结构组成
1. 文档的类型声明 <!doctype html> h5的声明方式作用 : 告诉浏览器当前使用的HTML版本,以便浏览器能正确解析HTML标签和渲染样式书写位置 : 文档最开始位置 ...
多名历年高考状元最终选择做中国顶尖黑客 - imsoft.cnblogs
原标题:揭秘中国顶尖黑客:二分之一是历年高考[微博]状元 “二分之一是各地的历年高考状元,二分之一是数学专业,二分之一来自微软.” Keen这样的团队是坚决与黑产划清界限的,这也是圈内的“道德洁癖”, ...
（1）什么是socket（套接字）
什么是套接字socket socket把传输层以下的协议都封装成了简单的接口,我编写基于网络通信的软件只需要调用这些接口即可,写出的程序自然是遵循tcp/udp协议的.... 什么是互联网互联网=物 ...
vector容器的用法以及动态数组
vector容器不必去管大小 string申明的数组已经是动态的了若是int类型的话,需要 cin>>N: int a[N]会出错 ,必须是int *p = new int[N] 然后再 ...
USB速率识别
低速设备D-上有一个1.5k欧的上拉电阻.高速和全速设别在D+上有一1.5k欧上拉电阻.连接后通过检测电压变化来了解设备是否为低速设别. 低速下:D+为“0”,D-为“1”是为“J”状态,“K”状态相 ...
Vault 0.10包含了web ui
Vault 是一个很不错的访问控制,secret api key 管理工具新的0.10 有好多新的功能的添加,最棒的是有一个web ui 了包含的新特性如下: K/V Secrets Engine ...
silverlight 进行本地串口调用的一种可行的解决方法之silverlight端代码
接上边的文章. 在javascript暴露操作activex 串口接收之后,就是silverlight端进行串口数据的显示,我们的显示方式比较简单,只是为了演示,我们每隔1秒进行数据的获取并显示, 为 ...
ereg()替换为preg_match()，ereg_repalce替换为preg_replace得加斜杠
PHP 5.3 ereg() 无法正常使用,提示“Function ereg() is deprecated Error”是因为它长ereg 函数进行了升级处理,需要像preg_match使用/ /来 ...

ACM MM | 中山大学等提出HSE：基于层次语义嵌入模型的精细化物体分类

ACM MM | 中山大学等提出HSE：基于层次语义嵌入模型的精细化物体分类的更多相关文章

随机推荐

热门专题