CVPR2015一些文章整理
简单看了一部分CVPR2015的文章。整理了一下。
当中我决定把精彩的文章加粗。
主要是认为有些文章仅仅读了一遍,没有发现非常多非常有道理的point(虽然我承认他们的工作都花了非常大的功夫。可是没有激起太大的兴趣去follow。或许有机会读第二遍的时候会再highlight)。另外MIT的博士生Zoya Bylinskii也总结了一个list,大家能够看看这里:http://web.mit.edu/zoya/www/CVPR2015brief.pdf
假设有不同看法的我们能够在评论区里讨论。
CNN结构的:
--- Fisher Vectors Meet Neural Networks: A Hybrid Classification Architecture,Florent Perronnin and Diane Larlus
相比于标准的CNN,变化是将卷积层所有变成标准的FV,全连接层的部分做分类层保持不变。比起标准的FV,无疑是把分类器变成了MLP。ACC相比标准的CNN下降。相比标准的FV提高。这样的从标准CNN入手,把前面的卷积和后面的全连通隔裂开对待/优化的文章还有arxiv上He Kaiming 的 Object Detection Networks on Convolutional Feature Maps。
---- Recurrent Convolutional Neural Network for Object Recognition
Weichen师兄在讨论班上的推荐。
把层次空间想象成序列空间,套上RNN,目的是为了使同一层的节点相互联系从而建模context。这个想法挺有脑洞。可是感觉非常不自然(为什么不直接建模相邻节点的依赖关系)。相比之下ION net建模context的方法更直接,以后有机会会讲讲ION。
物体检測与切割:
---- Learning to Propose Object, Philipp Krähenbühl, Vladlen Koltun
---- Improving Object Proposals with Multi-Thresholding Straddling Expansion, Xiaozhi Chen, Huimin Ma, Xiang Wang, Zhichen Zhao
---- Hypercolumns for Object Segmentation and Fine-Grained Localization。 Bharath Hariharan, Pablo Arbeláez, Ross Girshick, Jitendra Malik
这个比較有意思了,明确说CNN每一层都是实用处的。Holistically-Nested Edge Detection的模型跟这个模型有类似的味道。
---- Taking a Deeper Look at Pedestrians
这文章在方法上有啥创新点?好像就是把Cifar-net和Alexnet用在对行人的建模上。
---- A Convolutional Neural Network Cascade for Face Detection,Haoxiang Li。Gang Hua
CNN + Cascade,Calibration层有点意思,模型里还引入了multi-scale。
---- Deeply learned face representations are sparse, selective, and robust, Yi Sun, Xiaogang Wang, Xiaoou Tang
DeepID系列之DeepID2+。在DeepID2之上的改进是添加了网络的规模(feature map数目),另外每一层都接入一个全连通层加supervision。最精彩的地方应该是后面对神经元性能的分析。发现了三个特点:1.中度稀疏最大化了区分性。并适合二值化。2.身份和attribute选择性;3.对遮挡的鲁棒性。这三个特点在模型训练时都没有显示或隐含地强加了约束,都是CNN自己学的。
已经迫不及待要看DeepID3了。
---- DeepID3: Face Recognition with Very Deep Neural Networks (顺带提一下吧)
DeepID3似乎是封山之作,结论是太Deep了在现有数据集上也没什么提升了。反正作者也毕业了。
CSDN有一篇对作者的专訪,见:http://www.csdn.net/article/2015-11-18/2826241
---- Hypercolumns for Object Segmentation and Fine-Grained Localization。 Bharath Hariharan, Pablo Arbeláez, Ross Girshick, Jitendra Malik
这个比較有意思了,明确说CNN每一层都是实用处的。
Holistically-Nested Edge Detection的模型跟这个模型有类似的味道。
---- Fully Convolutional Networks for Semantic Segmentation (Best Paper Honorable Mention), Jonathan Long, Evan Shelhamer, Trevor Darrell
文章把全连接层当做卷积层。也用来输出feature map。这样相比于Hypercolumns/HED 这样的模型,可迁移的模型层数(指VGG16/Alexnet等)就很多其它了。可是从文章来看。由于纯卷积嘛。所以feature map的每一个点之间没有位置信息的区分。
相较于Hypercolumns的claim,鼻子的点出如今图像的上半部分能够划分为pedestrian类的像素,可是假设出如今下方就应该划分为背景。所以位置信息应该是挺重要须要考虑的。这或许是速度与性能的trade-off?
----- Is object localization for free - Weakly-supervised learning with convolutional neural networks
弱监督做object detection的文章。首先fc layer当做conv layer与上面这篇文章思想一致。
同一时候把最后max pooling之前的feature map看做包括class localization的信息,仅仅只是从第五章“Does adding object-level supervision help classification”的结果看。效果虽好,可是这一物理解释可能不够完好。
(PS. arxiv上有三篇借助CNN做一般物体检測的:
---- DeepBox: Learning Objectness with Convolutional Networks,Weicheng Kuo。Bharath Hariharan。Jitendra Malik
没太大意思,就是把CNN用在所有物体类的训练上。另外证明学到的模型是generic的时候用了IOU-0.5的准确率而不是0.8或者AR是没有非常高信服度的。(ICCV2015接收)
---- Boosting Convolutional Features for Robust Object Proposals, Nikolaos Karianakis
把VGG第一层输出当做feature channel然后接boosting做分类。
并没有证明算法的一般性。
---- Learning to Segment Object Candidates, Pedro O. Pinheiro, Ronan Collobert, Piotr Dollar (NIPS2015接收)
文章好像没讲明确score那个分支训练集是怎样做出标注的(@8.7又读了一遍,怎样标注就靠正样本选取时的constraints。自己第一遍的时候没弄明确)。
segment相比bounding box在速度上也有点吃亏,所以5秒一个图算慢的(事实上5秒就能过一个图还是非常快的啊,用的是VGG16的网络)。但比起MCG这速度还是快多了。
另外Microsoft COCO今年被用起来了。Microsoft COCO也做成竞赛了。好像Detection Task今年在ICCV15要和ILSVR合办workshop。)
CNN做边缘轮廓检測:
---- DeepContour: A Deep Convolutional Feature Learned by Positive-sharing Loss for Contour Detection
二分类变多分类。有点joint learning的意思。
---- DeepEdge A Multi-Scale Bifurcated Deep Network for Top-Down Contour Detection
相当于一种multi-clues做二分类问题。文章里的multi-scale和上面CNN+Cascade那篇文章模型里用到的multi-scale不是同一个东西,用DSP-SIFT一文的总结就是,本文说的multi-scale仅仅是在size-space中选了多个size,并非CNN+Cascade一文中在scale-space中选择了多个scale。multi-scale是解决真正的不同尺度的多样性,而multi-size更像是引入不同的context以及克服occlusion。个人理解这两点的目标差别于此。
PS. 上面两篇相比传统方法提高并不明显。看来在比較底层的问题上人工特征与end-to-end学习模型相比没有在high-level计算机视觉任务上差距的大。
arxiv上Tu Zhuowen有一篇性能更高的。优势还是非常明显的(由于逐像素检測相比全图检測,失去了全局信息。这也隐含了R-CNN的缺点吧):
---- Holistically-Nested Edge Detection
分析了各种multi-scale model,Wang Naiyan在VALSE的tutorial上也用了这个论文的插图。
这个模型非常复杂了。除了讨论multi-scale以外。还叠加了cnn multi-layer的区分性,有点Hypercolumns的味道。
(ICCV2015接收)
利用CNN的局部性解决计算机视觉问题:
---- A Discriminative CNN Video Representation for Event Detection,Zhongwen Xu, Yi Yang, Alex G. Hauptmann
CNN conv5输出能够作为concept detector。valse上的ppt:这里。
---- Exploiting Local Features from Deep Networks for Image Retrieval
Workshop paper,与上文的思路如出一辙,只是证明了在检索过程中concept概念越抽象不一定越好--由于搜索毕竟是instance-level的,不是class-level的。
图像检索的:
---- Query-Adaptive Late Fusion for Image Search and Person Re-Identification
郑博每年都有CVPR。恭喜。在valse上的ppt:这里。
我们在Trecvid2015的竞赛中用了这种方法。非常多人当时也认为这项工作非常有意义。
---- Early Burst Detection for Memory-Efficient Image Retrieval。 Miaojing Shi, Yannis Avrithis, Hervé Jégou
Hervé Jégou也添加FAIR了
---- Pairwise Geometric Matching for Large-scale Object Retrieval
利用Geometry information做 verification的。速度还挺快。
Eye-fixation:
---- Predicting Eye Fixations Using Convolutional Neural Networks, Nian Liu, Junwei Han, Dingwen Zhang, Shifeng Wen, Tianming Liu
之前没太关注eye-tracking data。这篇文章就是用预測eye fixation的,跟显著性有比較大的联系。
这篇文章中利用的multi-resolution的模型。在看过其它文章之后不会认为有特别特殊的地方。可是从一个contrast导致saliency的角度去结束这里用到的multi-resolution模型,还有点意思。(add@Nov/09/2015: 事实上在Naiyan Wang在VALSE上的总结,Saliency和Edge Detection、Segmentation类似。都是做pixel-wise labeling。所以这几个问题都是同质的。所以用类似的模型去解决全然合理。
)
---- Eye Tracking Assisted Extraction of Attentionally Important Objects From Videos, Karthikeyan Shanmuga Vadivel, Thuyen Ngo, Miguel Eckstein, B.S. Manjunath
Manj组今年唯一的CVPR论文了,用eye-tracking数据辅助其它(指除了saliency)computer vision task。这里做的是video里的objectness。
---- Salient Object Subitizing
数图像中显著物体的个数。优点是有的图像没有显著物体,而一般的Salient Object Detection方法仍然会检測出几个object。所以事前预计图像显著物体的数目能够作为一个有效的先验(比方没有显著物体的图像就不做检測了)。
模型放在caffe的model zoo里了。
---- SALICON: Saliency in Context
一个新库,拿MsCOCO标注的。
理由是eye-tracking data的採集须要专门设备,不便于众包。所以她们组用鼠标轨迹取代eye-tracking data採集了human gaze的数据,并且证明了这样的採集方法替代eye-tracking非常合理。并且她们开放了一个新的竞赛就叫SALICON。还有兴许的论文在ICCV2015上,以后专门讲ICCV15的论文时候再说。
附arxiv上最近放出的论文:
---- DeepSaliency:Multi-task deep neural network model for salient object detection
这里的multi-task是指semantic segmentation + salient object segmentation。不同于joint learning(如DeepID2和Fast RCNN),这里的两个task仅仅是共享了conv layers,输入的训练样本是不一样的。训练的时候两个任务迭代地更新网络的參数。
---- DeepFix:A Fully Convolutional Neural Network for predicting Human Eye Fixations
在MIT的saliency库上排在第二名。非常有意思的文章。考虑了Fixation Prediction的Center Bias问题(就是人眼显著性判决时会倾向于图像中心。FCN这类模型由于没有全连接层了,所以输出每一个像素的预測值是与位置无关的)。至于怎么解决的。请大家自行去看。
其它不好分类:
---- MatchNet Unifying Feature and Metric Learning for Patch-Based Matching, Xufeng Han。 Thomas Leung, Yangqing Jia。 Rahul Sukthankar,Alexander C. Berg
wide-baseline matching。相比与arxiv14年的Descriptor Matching with Convolutional Neural Networks a Comparison to SIFT,这篇文章是监督的。上篇文章是无监督的。patch matching事实上和face verification、再辨识的关联挺大的。文中有说到測试的时候採用两步測试的方法:第一步是特征提取(过一个Tower即可)。第二步是matching(把两个Tower的特征比較起来),这样先把第一步做完。特征保存起来。做第二步就easy了。
联想道Valse上王晓刚老师将NIPS14那篇Joint identification and verification一文,王老师说verification那个网络的时候提到的缺点,不就能够用这个两步測试的方法来解决吗?
---- Domain-Size Pooling in Local Descriptors: DSP-SIFT , Jingming Dong。Stefano Soatto
wide-baseline matching,相比前面的MatchNet,这篇文章是无监督的。
这篇文章Figure8解释了scale-space和size-space的概念。解释的非常好。可是DoG为什么归为size-space?我仍然认为DoG是属于scale-space的。
---- Deep Neural Networks are Easily Fooled (深度学习对抗样本)
---- Age and Gender Classification using Convolutional Neural Networks
CNN做性别和年龄判决的。
年龄判决不是用回归。而是把年龄分组,然后用分类的方法做。有点简单。并且Age和Gender分了两个网络分别做,居然没有联合起来做。
还在看,慢慢整理吧。
另外这里有其它大神做的CVPR2015年的整理和总结:
CVPR 2015 之深度学习篇(3贴):
http://deepnn.net/viewtopic.php?
f=6&t=31
http://deepnn.net/viewtopic.php?f=6&t=32
http://deepnn.net/viewtopic.php?f=6&t=38
武汉大学张觅博士生(原创):CVPR 2015会议总结报告:
http://valseonline.org/thread-334-1-1.html
(知乎)CVPR 2015 有什么值得关注的亮点?
http://www.zhihu.com/question/31300014
Deep down the rabbit hole: CVPR 2015 and beyond:
http://www.computervisionblog.com/2015/06/deep-down-rabbit-hole-cvpr-2015-and.html
-------
jiang1st
CVPR2015一些文章整理的更多相关文章
- R语言中文社区历史文章整理(类型篇)
R语言中文社区历史文章整理(类型篇) R包: R语言交互式绘制杭州市地图:leafletCN包简介 clickpaste包介绍 igraph包快速上手 jiebaR,从入门到喜欢 Catterpl ...
- 深度学习2015年文章整理(CVPR2015)
国内外从事计算机视觉和图像处理相关领域的著名学者都以在三大顶级会议(ICCV.CVPR和ECCV)上发表论文为荣,其影响力远胜于一般SCI期刊论文.这三大顶级学术会议论文也引领着未来的研究趋势.CVP ...
- docker相关操作文章整理
docker整理: 菜鸟教程的nginx操作链接(docker安装完毕安装nginx启动错误,可以看下面的文章) CSDN基于 Docker 安装 Nginx docker 部署springboot
- JUC之文章整理以及汇总
JUC文章汇总 JUC部分将学习<JUC并发编程的艺术>和<尚硅谷-大厂必备技术之JUC并发编程>进行博客的整理,各文章中也会不断的完善和丰富. JUC概述 JUC的视频学习和 ...
- Docker | 专栏文章整理🎉🎉
Docker Docker系列文章基本已经更新完毕,这是我从去年的学习笔记中整理出来的. 笔记稍微有点杂乱.随意,把它们整理成文章花费了不少力气.整理的过程也是我的一个再次学习的过程,同时也是为了方便 ...
- C#.NET微信公众账号接口开发系列文章整理--微信接口开发目录,方便需要的博友查询
前言: 涉及微信接口开发比较早也做的挺多的,有时间的时候整理了开发过程中一些思路案例,供刚学习微信开发的朋友参考.其实微信接口开发还是比较简单的,但是由于调试比较麻烦,加上微信偶尔也会给开发者挖坑,并 ...
- jvm经典文章整理
Java中JVM虚拟机详解 Java GC的那些事(上)(博主还有很多文章都很经典) CMS垃圾收集器介绍
- 微信公众号【阿里技术(ali_tech)】历史文章整理
简介 来自微信公众号: ali_tech 阿里巴巴官方技术号,关于阿里的技术创新均呈现于此. 本内容来自微信公众号的分享,最后更新时间2019-10-26,请关注对应公众号接收最新分享,定期同步地址: ...
- php openssl 生成公私钥,根据网上文章整理的
linux下没有问题,win下有报错 <?php$configargs = array("config" => "/usr/local/php/ext/ope ...
随机推荐
- C++(Typedef声明)
typedef 声明: 使用 typedef 为一个已有的类型取一个新的名字.下面是使用 typedef 定义一个新类型的语法: typedef type newname; 例如,下面的语句会告诉编译 ...
- Navicat Premium 12 破解方法
基本安装下一步下一步,破解方法参考:地址
- 'dict' object is not callable
今天学py的map函数时,由于在上面定义了一个dict类型的变量(取的名是map),所以编译后报了这么一个错,哎,以后学py命名要小心了
- HTML5定制全选列头
随着HTML5产品分支的不断深入使用,HTML5的需求也是越来越多,表格组件的使用也不例外,什么排序,分页,自动列宽等.最近有客户提出了如果让表格的列头加上全选的功能.细细分析其实就是两部分,表格的b ...
- NOIP 2006 金明的预算方案(洛谷P1064,动态规划递推,01背包变形,滚动数组)
一.题目链接:P1064 金明的预算方案 二.思路 1.一共只有五种情况 @1.不买 @2.只买主件 @3.买主件和附件1(如果不存在附件也要运算,只是这时附件的数据是0,也就是算了对标准的结果也没影 ...
- (C/C++学习)21.C++中返回引用和返回对象以及传引用和传对象问题
说明:在学习和编写C++代码时,经常会遇到这样的问题:一个带返回值的函数,到底应该返回值呢,还是应该返回引用呢:在传递参数的时候,是应该传递参数的引用呢,还是应该传值呢?请看下面代码: void my ...
- UVA - 1620 Lazy Susan(逆序数)
题目: 把1~n(n≤500)放到一个圆盘里,每个数恰好出现一次.每次可以选4个连续的数字翻转顺序.问能不能变成1.2.3....n的顺序. 思路: 这样的题的规律真的是一点都不好推,看了网上的博客知 ...
- 迷宫问题 POJ - 3984 (搜索输出路径)
题目大意 题目不需要大意,poj居然还有中文题 鸣谢 特别鸣谢ljc大佬提供的方法!!! 解法 我们可能输出个最短路径的长度比较简单,但是输出最短路径真的是没有做过,这里有一种简单的方法 因为我们的d ...
- ubuntu root用户登陆
sudo vi /etc/lightdm/lightdm.conf (如果没有该文件则创建,内容如下) [SeatDefaults] user-session=ubuntu greeter-ses ...
- BZOJ 4415 洛谷 3988 [Shoi2013]发牌
[题解] 权值线段树.查询当前牌堆顶的牌并且删掉就好了. #include<cstdio> #include<algorithm> #define N 3000010 #def ...