Convolutional Neural Networks for Visual Recognition 1
Introduction
这是斯坦福计算机视觉大牛李菲菲最新开设的一门关于deep learning在计算机视觉领域的相关应用的课程。这个课程重点介绍了deep learning里的一种比较流行的模型:Convolutional Neural Networks,简称CNN,主要利用CNN来做visual recognition,或者说是image classification,object recognition等。我自己在学习的过程中,一边翻译一边总结,整理出这些中文版的lecture notes,英文好的同学可以直接看原文,课程的网址是:
学习这门课程,需要一定的数学基础,包括线性代数,概率论,统计等,还要对传统的机器学习有一定的了解,可以参考斯坦福大学机器学习大牛Anderw的课程,另外一个前提条件是编程,这门课程没有用matlab,而是用了当下比较流行的一种语言python,课程中所有的程序都是用python写成的,所以还要学习python编程,这门课程对python有简单的介绍,并且还推荐了相应的python版本及编译器,这些信息都可以在课程网站上找到。
我在这里转译的中文lecture notes,认为大家都已经搞定了上述所需的前提条件,就是有一定的数学基础,也了解机器学习,并且安装了相应的python和IDE(推荐Eclipse+Pydev),能够利用python进行编程。所以没有这些基础知识。下面是正式的课程内容。
Image Classification
首先介绍的是计算机视觉领域一个重要而基础的问题:图像分类。简单来说,就是将一幅图像赋以一个语义标签,对这幅图像进行标识,如下图所示:
图像分类的任务就是将一个给定的图像赋予一个或者一组语义标签。
我们看到的是一只猫,但是对于计算机来说,看到的只是一个三维的数组,这个图像是248个像素宽,400像素高,而且有R,G,B三个通道,所以是一个248×400×3的数组,一共有296700个像素,每个像素的值在0-255的范围内,图像分类的任务就行将这所有的像素用一个语义标签进行标识,比如“cat”。
一般来说,对于visual recognition,我们需要解决以下一些困难或挑战:
Viewpoint variation:一个物体由于照相机拍摄的视角不同,会呈现不同的方向。
Scale variation: 尺度的变化,这是比较常见的一个问题。
Deformation: 有些物体可能会发现形变。
Occlusion: 物体的局部有可能被遮挡。
Illumination conditions:光照条件的变化有可能改变图像的像素值的分布。
Background clutter: 背景纹理与物体的纹理相似的话,会对识别造成很大影响。
Intra-class variation: 即使属于同一类的物体,也有可能呈现不同的形状,比如椅子,杯子等。
一个好的图像分类模型,应该能够很好地处理这些问题。
我们如何写一个算法来做这项工作呢,这个不像排序那么简单,因为我们不能直接写一个算法来确定图像里的物体。因此,一般来说,我们会先给计算机一些样本,通过这些样本让计算机了解每一类物体的性质,这种方法称为data-driven(数据驱动),因为这类方法要依赖于事先收集的一些训练数据。下图给出了一些训练数据的示例:
在实际的应用中,可能会有几千个类别而每一类可能会有成千上万个样本。一个完整的图像分类模型包含以下几个步骤:
Input:我们的输入包括N张图像,每张图像都有相应的标签,这些标签属于K个不同的类别,这组图像称为训练集。
Learning: 我们的任务是通过训练集让计算机知道每一类的性质,这个过程称为训练阶段或者学习阶段。
Evaluation: 最后,我们要用训练好的模型来评估一些从未见过的图像,对这些图像进行分类,并将预测标签与该图像的真实标签比较。
Nearest Neighbor Classifier
我们先介绍一种很简单的分类模型:最近邻分类器,这个模型与我们将要介绍的CNN没有什么关系,而且在实际应用中,也很少用到这个模型,但是可以用这个模型来了解图像分类的处理流程。
这里我们要用到的数据库是:\textbf{CIFAR-10},这是一个非常流行的用于图像分类的数据库,这个数据库包含10类图像,一共含有60000张图,每张图的宽和高都是32,每张图都有一个类标签,这60000万张图分成两部分,其中50000张图作为训练集,剩下的10000张图作为测试集。下图给出了该训练集的一些样图:
左图:训练集里的一些样图。右图:第一列是测试图,其它图是与该测试图最相似的训练图。
现在,假设我们有这样一个数据库,包含属于10个类别的共50000个训练样本,每个类别有5000张图,最近邻分类器拿到一张测试图,会将该测试图与训练集的每一个
样本进行比较,挑出离该测试图最近的训练样本,并且将该训练样本的类标签赋给该测试图,换句话说,离该测试图最近的样本是什么类,那么该测试图就属于该类,
我们可以看到,利用这个分类器,上面右边的10个测试样本只有三个赋予了正确的类标签,其它7个样本都错了,比如第8个样本是一个马的头,但是离它最近的训练样本
是汽车,这样这个马头的图像就被赋予汽车的标签了。
现在我们来定义Nearest Neighbor Classifier,最简单的一种定义就是像素级的比较,我们将一张32×32×3的图看成一个高维的向量,两张图的差距
定义为L1距离:
还有一种常用的度量,是L2距离:
实验证明,利用L1,L2度量的效果并不理想,只有30%多一点,一种比较常见的改进是K-NN,我们不能只参考离测试样本最近的一个样本,我们要参考离测试样本最近的K个样本,然后利用投票策略,即,这K个样本中,哪一类的样本最多,我们就认为测试样本属于这一类。但是K-NN中的K到底要取多大?这个K可以称为hyperparameters,在机器学习中,如何选择参数也是一个需要仔细考虑的问题,一般来说test set只能用来做最后的评估,而且只能用一次,不能用test set来选择最佳的hyperparameters,一个可行的方案是将训练集分成两部分,我们将拥有绝大多数训练样本的那部分用来训练,称为training set,而只有很少一部分训练样本的那部分用来评估不同的参数对模型的影响,这部分称为validation set。
当样本总数很少的时候,我们一般会采取另外一种策略称为cross validation,将样本分为相同规模的几份,比如5份或者10份,然后,挑出一份做validation,剩下的做训练,这样循环一遍,以保证每一份都能被评估,这种策略相对来说比较耗时,因为需要循环地做训练和测试。
Pros and Cons of Nearest Neighbor classifier
接下来,我们要总结一下Nearest Neighbor classifier的优缺点,很显然,这种分类器的优点就是简单,易懂,而且不需要训练,但是它的缺点也很明显,一个是效率太低,测试的时候非常耗时,因为要和训练集
的样本逐个比较,在实际应用中,我们比较关心测试阶段的效率,因为训练可以提前做好,所以最近邻分类器不能满足实时检测,在实际应用中,很少用到这种分类器。最近邻分类器另外一个缺点是对像素亮度值的变化非常敏感,因为这个是基于像素值的比较,所以同一个物体,在不同光照,或者有遮挡的情况下,会出现很大的差距,更加合理的度量应该基于物体的语义及结构信息。如下图所示:
图像的偏移,部分遮挡,光照变化会使距离度量相差很大。
最后做一点总结:
我们介绍了图像分类的概念,并且介绍了一种很简单的分类器:最近邻分类器,而且我们也介绍了如何利用validation set或者cross validation来调整hyperparameters,我们也看到最近邻分类器的效果并不是很理想,最后我们探讨了L1,L2度量的缺陷,就是对像素值的变化比较敏感,而没有基于物体的语义及结构信息来进行度量。
声明:lecture notes里的图片都来源于该课程的网站,只能用于学习,请勿作其它用途,如需转载,请说明该课程为引用来源。
课程网站 http://cs231n.stanford.edu/
Convolutional Neural Networks for Visual Recognition 1的更多相关文章
- Convolutional Neural Networks for Visual Recognition
http://cs231n.github.io/ 里面有很多相当好的文章 http://cs231n.github.io/convolutional-networks/ Table of Cont ...
- 卷积神经网络用于视觉识别Convolutional Neural Networks for Visual Recognition
Table of Contents: Architecture Overview ConvNet Layers Convolutional Layer Pooling Layer Normalizat ...
- Convolutional Neural Networks for Visual Recognition 8
Convolutional Neural Networks (CNNs / ConvNets) 前面做了如此漫长的铺垫,现在终于来到了课程的重点.Convolutional Neural Networ ...
- Convolutional Neural Networks for Visual Recognition 5
Setting up the data and the model 前面我们介绍了一个神经元的模型,通过一个激励函数将高维的输入域权值的点积转化为一个单一的输出,而神经网络就是将神经元排列到每一层,形 ...
- Convolutional Neural Networks for Visual Recognition 2
Linear Classification 在上一讲里,我们介绍了图像分类问题以及一个简单的分类模型K-NN模型,我们已经知道K-NN的模型有几个严重的缺陷,第一就是要保存训练集里的所有样本,这个比较 ...
- Convolutional Neural Networks for Visual Recognition 7
Two Simple Examples softmax classifier 后,我们介绍两个简单的例子,一个是线性分类器,一个是神经网络.由于网上的讲义给出的都是代码,我们这里用公式来进行推导.首先 ...
- Convolutional Neural Networks for Visual Recognition 4
Modeling one neuron 下面我们开始介绍神经网络,我们先从最简单的一个神经元的情况开始,一个简单的神经元包括输入,激励函数以及输出.如下图所示: 一个神经元类似一个线性分类器,如果激励 ...
- cs231n spring 2017 lecture1 Introduction to Convolutional Neural Networks for Visual Recognition 听课笔记
1. 生物学家做实验发现脑皮层对简单的结构比如角.边有反应,而通过复杂的神经元传递,这些简单的结构最终帮助生物体有了更复杂的视觉系统.1970年David Marr提出的视觉处理流程遵循这样的原则,拿 ...
- Stanford CS231n - Convolutional Neural Networks for Visual Recognition
网易云课堂上有汉化的视频:http://study.163.com/course/courseLearn.htm?courseId=1003223001#/learn/video?lessonId=1 ...
随机推荐
- mysql 存储过程初探
使用存储过程好处在于: 1.隐藏敏感的算法,避免被正常的开发人员看到,把业务逻辑隐藏在数据库中,而非程序代码里 2.简化应用代码程序,放到数据库里肯定就对程序代码简化有好处了 3.不同的开发语言都可以 ...
- 解决ubuntu中文乱码问题
方法一: Ubuntu默认的中文字符编码为zh_CN.UTF-8,这个可以在 /etc/environment中看到:sudo gedit /etc/environment可以看到如下内容:PATH= ...
- SVM支持向量机
支持向量机(Support Vector Machine,SVM)是效果最好的分类算法之中的一个. 一.线性分类器: 一个线性分类器就是要在n维的数据空间中找到一个超平面,通过这个超平面能够把两类数据 ...
- 2820: YY的GCD
2820: YY的GCD Time Limit: 10 Sec Memory Limit: 512 MBSubmit: 1693 Solved: 901[Submit][Status][Discu ...
- Python菜鸟之路:Python基础
一.Python版本升级至3.0的必然性 In November 2014, it was announced that Python 2.7 would be supported until 202 ...
- 【译】StackOverflow——Java 中的 finally 代码块是否总会被执行?
问题 有一个 try/catch 代码块,其中包含一个打印语句.finally代码块总会被调用么? 示例: try { something(); return success; } catch (Ex ...
- R语言图形base系统(一)
一般R作图有三大绘图系统:base系统.ggplot2绘图系统.lattice绘图系统. 本篇主要介绍base系统绘图时的图形参数.一般用plot()函数来完成.在R中,若 ...
- 【leetcode刷题笔记】Word Search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from l ...
- 【leetcode刷题笔记】Distinct Subsequences
Given a string S and a string T, count the number of distinct subsequences of T in S. A subsequence ...
- django配置文件环境分离后celery的启动方式整理
django项目中,当配置文件分离时: 启动方式1: 硬编码写死在manage.py中: os.environ.setdefault("DJANGO_SETTINGS_MODULE" ...