cv 论文(CNN相关)】的更多相关文章

上个博文我讲了一些CNN相关的论文,比较浅显都是入门知识,这节课来总结一些稀疏表示方面的文章.至于上个博文说到的要讲的sparse coding的知识,我将会放在Deep Learning的专题里面讲解.好了,闲话不多说,下面还是列出几篇我看过的sparse representation方面的论文. 第一篇:Robust Face Recognition via Sparse Representation,这是08年马毅等发表PAMI上的一篇文中,利用稀疏表达识别人脸,打开Google Scho…
转子http://blog.csdn.net/qianqing13579/article/details/71076261 前言 入职之后,逐渐转到深度学习方向.很早就打算写深度学习相关博客了,但是由于各种原因被搁置了. 这段时间刚好有空,就把以前的笔记整理总结了一下,温故而知新,以前有些不是特别清楚的概念,通过这次的复习豁然开朗了,也希望自己的分享能够帮助其他人更好地理解CNN. 目前的博客计划如下: LeNet论文翻译与解读 AlexNet论文翻译与解读 VGGNet,Inception,R…
最近发现很多以前看的论文都忘了,所以想写点东西来整理下之前的paper,paper主要是cv(computer vision)方向的. 第一篇:Gradient-based learning applied to document recognition.这是1998年Yann Lecun的一篇大作,是研究CNN必看的一篇文章.文中提出的Le-Net5模型很好的识别了Mnist的手写体,此模型也被用到了很多银行的钞票识别上.下面来研究这篇paper的成果.文章参考:http://blog.csd…
最近把以前的几篇关于Low-rank的文章重新看了一遍,由于之前的一些积累,重新看一遍感觉收获颇多.写这篇博文的时候也参考了一些网上的博客,其中数这篇博文最为经典http://blog.csdn.net/abcjennifer/article/details/8572994.Rachel-zhang这个博客牛人,相信搞CV的都不陌生吧,研究生期间能有这么多积累确实难得,能把自己所学一点一滴的记录下来,这就更不容易了.科研无止境,希望以后我的博客也能像各位前辈一样,越写越好.如有人读了我的博客感觉…
生成式对抗网络GAN 1.  基本GAN 在论文<Generative Adversarial Nets>提出的GAN是最原始的框架,可以看成极大极小博弈的过程,因此称为“对抗网络”.一般包含两个部分:生成器(Generator)和判别器(Discriminator).训练的过程是无监督学习. 先总结一下训练的过程.一般而言,输入是一个一维向量z,它从先验生成.假设现在Generator生成的是图像.我们知道,无监督学习目的是学习数据集中的特征(或者说分布),假设真实的分布为,而Generat…
初次接触Captioning的问题,第一印象就是Andrej Karpathy好聪明.主要从他的两篇文章开始入门,<Deep Fragment Embeddings for Bidirectional Image Sentence Mapping>和<Deep Visual-Semantic Alignments for Generating Image Descriptions>.基本上,第一篇文章看明白了,第二篇就容易了,研究思路其实是一样的.但确实,第二个模型的功能更强大一些…
论文的关注点在于如何提高bounding box的定位,使用的是概率的预测形式,模型的基础是region proposal.论文提出一个locNet的深度网络,不在依赖于回归方程.论文中提到locnet可以很容易与现有的detection系统结合,但我困惑的是(1)它们的训练的方法,这点论文中没有明确的提到,而仅仅说用迭代的方法进行(2)到底两者的融合后两个网络的结构是怎样呢?可以看做一个多任务的系统,还是存在两个网络呢? 检测方法 输入的候选bounding box(使用selective s…
论文的重点在于后面approximation部分. 在<Rank Pooling>的论文中提到,可以通过训练RankSVM获得参数向量d,来作为视频帧序列的representation.而在dynamic论文中发现,这样的参数向量d,事实上与image是同等大小的,也就是说,它本身是一张图片(假如map与image同大小而不是提取的特征向量),那么就可以把图片输入到CNN中进行计算了.如下图可以看到一些参数向量d pooling的样例 参数向量d的快速计算 把计算d的过程定义一个函数.一个近似…
论文的三个贡献 (1)提出了two-stream结构的CNN,由空间和时间两个维度的网络组成. (2)使用多帧的密集光流场作为训练输入,可以提取动作的信息. (3)利用了多任务训练的方法把两个数据集联合起来. Two stream结构 视屏可以分成空间与时间两个部分,空间部分指独立帧的表面信息,关于物体.场景等:而时间部分信息指帧间的光流,携带着帧之间的运动信息.相应的,所提出的网络结构由两个深度网络组成,分别处理时间与空间的维度. 可以看到,每个深度网络都会输出一个softmax层,最后会通过…
YOLO的一大特点就是快,在处理上可以达到完全的实时.原因在于它整个检测方法非常的简洁,使用回归的方法,直接在原图上进行目标检测与定位. 多任务检测: 网络把目标检测与定位统一到一个深度网络中,而且可以同时在原图上检测多个物体.步骤总结如下: (1)把图片分割成S*S个方格,假如某个物体的中点落在其中一个方格,那么这个方格就对这个物体负责.这里说的物体的中点应该是指ground truth box中的物体的中心. (2)对于每个格子,预测B个bounding box以及相应的confidence…