CNN for Visual Recognition (assignment1_Q1)】的更多相关文章

参考:http://cs231n.github.io/assignment1/ Q1: k-Nearest Neighbor classifier (30 points) import numpy as np from matplotlib.cbook import todate class KNearestNeighbor: """ a kNN classifier with L2 distance """ def __init__(self)…
CS231n: Convolutional Neural Networks for Visual Recognitionhttp://vision.stanford.edu/teaching/cs231n/syllabus.html 主要利用神经网络解决图像分类问题.…
图像分类 参考:http://cs231n.github.io/classification/ 图像分类(Image Classification),是给输入图像赋予一个已知类别标签.图像分类是计算机视觉(Computer Vision)问题中一个基本问题,也是很要的一个问题.诸如物体检测.图像分割等可以利用图像分类来解决. 图像分类问题的主要难点在以下几个方面: 视角差异(viewpoint variation):拍摄角度 比例差异(Scale variation):缩放比例 形变(Defor…
Bilinear CNN Models for Fine-grained Visual Recognition CVPR 2015 本文提出了一种双线性模型( bilinear models),一种识别结构,该结构由两个特征提取器产生,两个输出是图像每一个位置的外积(outer product),然后进行 pool,得到最终的图像描述算子.这种结构可以对局部 pairwise feature interactions 以平移不变的方式进行建模.而且,可以产生不同的无序的文字描述,像 Fisher…
Large Scale Visual Recognition Challenge 2015 (ILSVRC2015) Legend: Yellow background = winner in this task according to this metric; authors are willing to reveal the method White background = authors are willing to reveal the method Grey background…
导读: 本文为论文<Deep Mixture of Diverse Experts for Large-Scale Visual Recognition>的阅读总结.目的是做大规模图像分类(>1000类),方法是混合多个小深度网络实现更多类的分类.本文从以下五个方面来对论文做个简要整理: 背景:简要介绍与本文方法提出的背景和独特性. 方法:介绍论文使用的大体方法. 细节:介绍论文中方法涉及到的问题及解决方案. 实验:实验结果和简要分析. 总结:论文主要特色和个人体会. 一.背景 1.目标…
Spatial pyramid pooling in deep convolutional networks for visual recognition 作者: Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun 引用: He, Kaiming, et al. "Spatial pyramid pooling in deep convolutional networks for visual recognition." IEEE…
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun  The 13th European Conference on Computer Vision (ECCV), 2014 声明:本文所有图片均来自原始文章,自己的理解也未必正确,请查看原图并拍砖 本文的两个亮点: 1. 多尺度训练CN…
Introduction 这是斯坦福计算机视觉大牛李菲菲最新开设的一门关于deep learning在计算机视觉领域的相关应用的课程.这个课程重点介绍了deep learning里的一种比较流行的模型:Convolutional Neural Networks,简称CNN,主要利用CNN来做visual recognition,或者说是image classification,object recognition等.我自己在学习的过程中,一边翻译一边总结,整理出这些中文版的lecture not…
论文的关注点在于如何提高bounding box的定位,使用的是概率的预测形式,模型的基础是region proposal.论文提出一个locNet的深度网络,不在依赖于回归方程.论文中提到locnet可以很容易与现有的detection系统结合,但我困惑的是(1)它们的训练的方法,这点论文中没有明确的提到,而仅仅说用迭代的方法进行(2)到底两者的融合后两个网络的结构是怎样呢?可以看做一个多任务的系统,还是存在两个网络呢? 检测方法 输入的候选bounding box(使用selective s…
http://www.dengfanxin.cn/?p=403 原文地址 我对物体检测的一篇重要著作SPPNet的论文的主要部分进行了翻译工作.SPPNet的初衷非常明晰,就是希望网络对输入的尺寸更加灵活,分析到卷积网络对尺寸并没有要求,固定尺寸的要求完全来源于全连接层部分,因而借助空间金字塔池化的方法来衔接两者,SPPNet在检测领域的重要贡献是避免了R-CNN的变形.重复计算等问题,在效果不衰减的情况下,大幅提高了识别速度.   用于视觉识别的深度卷积网络空间金字塔池化方法 Spatial…
论文标题:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 标题翻译:用于视觉识别的深度卷积神经网络中的空间金字塔池 论文作者:Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun 论文地址:https://arxiv.org/pdf/1406.4729.pdf SPP的GitHub地址:https://github.com/yueruc…
论文题目:<Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition> 论文作者:Qibin Hou, Zihang Jiang, Li Yuan et al. 论文发表年份:2022.2 模型简称:ViP 发表期刊: IEEE Transactions on Pattern Analysis and Machine Intelligence Abstract 在本文中,我们提出了一种概念简单.数据…
http://rogerioferis.com/VisualRecognitionAndSearch2014/Resources.html Source Code Non-exhaustive list of state-of-the-art implementations related to visual recognition and search. There is no warranty for the source code links below – use them at you…
这篇是10年ICML的论文,但是它是从原理上来分析池化的原因,因为池化的好坏的确会影响到结果,比如有除了最大池化和均值池化,还有随机池化等等,在eccv14中海油在顶层加个空间金字塔池化的方法.可谓多种多样.本文主要研究了最大池化和均值池化本文的翻译还是烂尾,后面没动力了. A Theoretical Analysis of Feature Pooling in Visual Recognition Y-lan Boureau,Jean  ponce, yann LeCun 摘要:许多当前的视觉…
BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition 目录 BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition 概 主要内容 采样方式 权重 Inference phase 代码 Zhu B., Cui Q., Wei X. and Chen Z…
Link of the Paper: https://arxiv.org/abs/1411.4389 Main Points: A novel Recurrent Convolutional Architecture ( CNN + LSTM ): both Spatially and Temporally Deep. The recurrent long-term models are directly connected to modern visual convnet models and…
论文源址:https://arxiv.org/abs/1406.4729 tensorflow相关代码:https://github.com/peace195/sppnet 摘要 深度卷积网络需要输入固定尺寸大小的图片(224x224),这引入了大量的手工因素,同时,一定程度上,对于任意尺寸的图片或者子图会降低识别的准确率.SPP-net对于任意大小的图片,可以生成固定长度的特征表述.SPP-net对于变形的图片仍有一定的鲁棒性.基于上述优点,SPP-net会提高基于CNN的图像分类的效果. S…
http://cs231n.github.io/   里面有很多相当好的文章 http://cs231n.github.io/convolutional-networks/ Table of Contents: Architecture Overview ConvNet Layers Convolutional Layer Pooling Layer Normalization Layer Fully-Connected Layer Converting Fully-Connected Laye…
论文地址:https://arxiv.org/pdf/1406.4729.pdf 论文翻译请移步:http://www.dengfanxin.cn/?p=403 一.背景: 传统的CNN要求输入图像尺寸是固定的(因为全连接网络要求输入大小是固定的) crop处理,可能不包含整个物体,还会丢失上下文信息 warping处理,会导致图像变形 以上都会导致CNN对不同scale/size泛化能力不强   于是SPP做了如下改进,即将SPP层加在最后一个卷积层后面,然后再送入FC网络.  优点 不管输入…
Table of Contents: Architecture Overview ConvNet Layers Convolutional Layer Pooling Layer Normalization Layer Fully-Connected Layer Converting Fully-Connected Layers to Convolutional Layers ConvNet Architectures Layer Patterns Layer Sizing Patterns C…
Convolutional Neural Networks (CNNs / ConvNets) 前面做了如此漫长的铺垫,现在终于来到了课程的重点.Convolutional Neural Networks, 简称CNN,与之前介绍的一般的神经网络类似,CNN同样是由可以学习的权值与偏移量构成,每一个神经元接收一些输入,做点积运算加上偏移量,然后选择性的通过一些非线性函数,整个网络最终还是表示成一个可导的loss function,网络的起始端是输入图像,网络的终端是每一类的预测值,通过一个ful…
Linear Classification 在上一讲里,我们介绍了图像分类问题以及一个简单的分类模型K-NN模型,我们已经知道K-NN的模型有几个严重的缺陷,第一就是要保存训练集里的所有样本,这个比较消耗存储空间:第二就是要遍历所有的训练样本,这种逐一比较的方式比较耗时而低效. 现在,我们要介绍一种更加强大的图像分类模型,这个模型会很自然地引申出神经网络和Convolutional Neural Networks(CNN),这个模型有两个重要的组成部分,一个是score function,将原始…
1. 生物学家做实验发现脑皮层对简单的结构比如角.边有反应,而通过复杂的神经元传递,这些简单的结构最终帮助生物体有了更复杂的视觉系统.1970年David Marr提出的视觉处理流程遵循这样的原则,拿到图像后,先提取角.边.曲线等等简单的几何元素,然后再用深度信息.表面信息等更高层的复杂信息,最后是更高层的更抽象的表达. 深度学习也是遵循这样的基本思想,从最简单的特征出发,通过多层函数传递,实现复杂的功能. 2. Image-Net比赛,2012年突破性的变化,AlexNet用卷积神经网络大幅提…
网易云课堂上有汉化的视频:http://study.163.com/course/courseLearn.htm?courseId=1003223001#/learn/video?lessonId=1003705493&courseId=1003223001 笔记:http://weibo.com/1402400261/C0fOrnof0?u=2097796245&m=3935460336857237&cu=2097796245&ru=1402400261&rm=3…
https://zhuanlan.zhihu.com/p/28522637 https://zhuanlan.zhihu.com/p/21930884 mark…
Two Simple Examples softmax classifier 后,我们介绍两个简单的例子,一个是线性分类器,一个是神经网络.由于网上的讲义给出的都是代码,我们这里用公式来进行推导.首先看softmax classifier 的例子.给定输入X∈RN×D,权值W∈RD×K,偏移量b∈R1×K,我们可以得到分类器对每个样本的预测分数:f=XW+b,我们可以用softmax 函数将预测分数转为概率:pi=efi∑jefj,pi 表示样本属于第i类的概率,fi,fj表示线性函数对样本属于…
-###Learning 前面,我们介绍了神经网络的构成,数据的预处理,权值的初始化等等.这一讲,我们将要介绍神经网络参数学习的过程. Gradient Checks 梯度的运算,在理论上是简单的,但是在实际的应用中,却非常容易出错,梯度的运算常见的有如下两种形式: 形式一: df(x)dx=f(x+h)−f(x)h h是一个很小的常数,实际运算的时候,h大概等于1e−5,但我们通常会用下面这种形式计算梯度: 形式二: df(x)dx=f(x+h)−f(x−h)2h 利用这个表达式,需要我们对l…
Setting up the data and the model 前面我们介绍了一个神经元的模型,通过一个激励函数将高维的输入域权值的点积转化为一个单一的输出,而神经网络就是将神经元排列到每一层,形成一个网络结构,这种结构与我们之前介绍的线性模型不太一样,因此score function也需要重新定义,神经网络实现了一系列的线性映射与非线性映射,这一讲,我们主要介绍神经网络的数据预处理以及score function的定义. data processing 给定一个训练集,S={xi∈RD|i…
Modeling one neuron 下面我们开始介绍神经网络,我们先从最简单的一个神经元的情况开始,一个简单的神经元包括输入,激励函数以及输出.如下图所示: 一个神经元类似一个线性分类器,如果激励函数是sigmoid 函数(σ(x)=1/(1+e−x)),那么σ(∑iwixi+b)相当于是求该输入所对应的输出为1的概率,P(y=1|xi;w),那么该输入所对应的输出为0的概率为 P(y=0|xi;w)=1−P(y=1|xi;w).在神经网络中,常用的激励函数一个是sigmoid函数,另一个是…