cs231n spring 2017 lecture3 Loss Functions and Optimization

1. Loss function是用来量化评估当前预测的好坏，loss function越小表明预测越好。

几种典型的loss function：

1）Multiclass SVM loss：一般的SVM是针对0、1两类标签，现在是把它拓展到n类标签。它的物理意义是：现在要预测一个样本的标签，根据之前训练出的权重求出这个样本在所有标签的得分，正确的标签的得分如果大于其他标签的得分（往往还会加一个safety margin，就是要求要足够大），则loss function不增加；否则loss function就会增加其他标签的得分超过正确标签的得分的差值。这种loss function的取值从0到无穷大。在初始化训练的时候，权重W往往被设计成很小的随机数，所以计算出的每个标签的得分都接近0，在这种情况下，如果标签数为n，正确的标签和其他标签比较了n-1次，每次比较的得分差值都小于safety margin（假设safety margin是1），则loss function的值为n-1，

2） Softmax (cross-entropy) loss ：在深度学习里很常用。把计算出的分数带入到softmax函数里，这个描述了“概率”，最终的loss function就是对softmax函数取负log。这里的概率加了引号是因为这只是一种对0~1之间取值且累加和为1的变量的诠释。事实上，当正则化项的权重增加时，优化出的W会变小，对于每个类别softmax loss会更接近。所以softmax loss对不同类别的排序才重要，具体数值并不重要。

两种loss funciton的实际表现差不多，不同的人有不同偏好。这两种loss function的差别，对于SVM loss来说，标签贴对就可以了，继续增加得分并不会减小loss，因为反正都已经取0了；但对于Softmax loss来说，正确标签的得分越高越好，错误标签的得分越低越好。

2. 正则化（Regularization）。同样的loss值会对应很多组不同的权重W，正则化描述了对参数的某种偏好，例如奥卡姆剃刀原则。这时候Loss function = Data loss + Regularzation。可以这么理解正则化：比如用多项式拟合数据，有两种方式抑制过拟合，一种是直接限定多项式的次数，另一种是不限定次数，但是在loss function里增加跟次数相关的一项，它会使算法更倾向于找低次数的多项式。正则化就是后一种方式。正则化可以帮助解决过拟合的问题。一般正则化项只包含W，不包含b。

3. 优化的关键是求导，有两种方式求导，一是数值方法，二是解析方法。实际应用中，用解析的方式求导，用数值的方式验证求导是否正确。每一步的迭代距离（learning rate）是hyperparameter，需要提前设定，Justin Johson说他调参的时候永远是最先检查learning rate是否大体正确。

4. Stochastic Gradient Descent （SGD）：loss function是所有特征相加，当特征非常多的时候，计算就会很慢（比如图像，每个像素都是一个特征），这时候可以用一个子集（一般32/64/128个特征）来计算。

5. 图像特征：

1）Color Histogram，评估各种颜色在图像中的比重。

2）Histogram of Oriented Gradients (HoG)，把图像分成一个个小方格，在每个小方格内提取边，设定边有9种朝向，评估图像局部的边界特征。物体识别中很有用。

3）Bags of Words，把图像分成一个个小方格（或者提取特征点后在特征点附近取小方格），每个方格可以用一个编码来描述，编码需要自己设计，所有的编码组成一个词典。这是从自然语言处理中衍生过来的。

cs231n spring 2017 lecture3 Loss Functions and Optimization的更多相关文章

cs231n spring 2017 lecture3 Loss Functions and Optimization 听课笔记
1. Loss function是用来量化评估当前预测的好坏,loss function越小表明预测越好. 几种典型的loss function: 1)Multiclass SVM loss:一般的S ...
CS231n笔记 Lecture 3 Loss Functions and Optimization
这一讲总体上就是引入Loss Function的概念,以及让大家对优化有一个初步的认识,和其他课程里面说的内容大同小异. Loss function Multiclass svm loss multi ...
cs231n spring 2017 lecture13 Generative Models 听课笔记
1. 非监督学习监督学习有数据有标签,目的是学习数据和标签之间的映射关系.而无监督学习只有数据,没有标签,目的是学习数据额隐藏结构. 2. 生成模型(Generative Models) 已知训练数 ...
cs231n spring 2017 lecture11 Detection and Segmentation 听课笔记
1. Semantic Segmentation 把每个像素分类到某个语义. 为了减少运算量,会先降采样再升采样.降采样一般用池化层,升采样有各种"Unpooling"." ...
cs231n spring 2017 lecture7 Training Neural Networks II 听课笔记
1. 优化: 1.1 随机梯度下降法(Stochasitc Gradient Decent, SGD)的问题: 1)对于condition number(Hessian矩阵最大和最小的奇异值的比值)很 ...
cs231n spring 2017 lecture13 Generative Models
1. 非监督学习监督学习有数据有标签,目的是学习数据和标签之间的映射关系.而无监督学习只有数据,没有标签,目的是学习数据额隐藏结构. 2. 生成模型(Generative Models) 已知训练数 ...
cs231n spring 2017 lecture11 Detection and Segmentation
1. Semantic Segmentation 把每个像素分类到某个语义. 为了减少运算量,会先降采样再升采样.降采样一般用池化层,升采样有各种“Unpooling”.“Transpose Conv ...
cs231n spring 2017 lecture7 Training Neural Networks II
1. 优化: 1.1 随机梯度下降法(Stochasitc Gradient Decent, SGD)的问题: 1)对于condition number(Hessian矩阵最大和最小的奇异值的比值)很 ...
cs231n spring 2017 lecture9 CNN Architectures 听课笔记
参考<deeplearning.ai 卷积神经网络 Week 2 听课笔记>. 1. AlexNet(Krizhevsky et al. 2012),8层网络. 学会计算每一层的输出的sh ...

随机推荐

CVPR2019 | 超越Mask R-CNN！华科开源图像实例分割新方法MS R-CNN
安妮乾明发自凹非寺本文转载自量子位(QbitAI) 实习生又立功了! 这一次,亮出好成绩的实习生来自地平线,是一名华中科技大学的硕士生. 他作为第一作者完成的研究Mask Scoring R- ...
tomcat运行方式详解
tomcat的运行模式有3种一.bio(blocking I/O) 即阻塞式I/O操作,表示Tomcat使用的是传统的Java I/O操作(即java.io包及其子包).是基于JAVA的HTTP/1 ...
ServletContext实现网站计数器
在网站开发中,有很多功能需要使用ServletContext,比如: 1.网站计数器 2.网站在线用户的显示 3.简单的聊天系统总之,如果是涉及到不用用户共享数据,而这些数据量不大,同时又不希望写入 ...
springboot的http监控接口启动器的配置
基于SpringBoot框架企业级应用系统开发全面实战()->03.07_http监控_recv.mp4 监控接口启动器自定义监控接口启动器的配置 ====================== ...
Powershell 中的管道
管道上个命令中的输出,通过管道作为下个命令的输入.Linux中的管道传递的是text,但ps中传递的是object.但是命令究竟返回的是什么类型呢?以下命令回答了这个问题: get-service ...
Dinic学习笔记
网络流是啥不用我说了吧增广路定理不用我说了吧 Dinic就是分层然后只在层间转移,然后就特别快,\[O(N^2M)\] 伪代码: function dinic int flow = 0 ; whil ...
eureka学习之二：自我保护机制
提供者和消费者:消费者通过注册服务名称,找rpc远程地址,调用提供者的接口 Eureka的自我保护机制:
剑指offer【13】- 链表中倒数第k个结点
输入一个链表,输出该链表中倒数第k个结点. /* public class ListNode { int val; ListNode next = null; ListNode(int val) { ...
工作小结：Base64注意事项、标签for属性
Base64 场景1:后台保存的客户填写备注信息,前台无法正常展示原因:无法正常展示的备注信息为客户直接从黑屏复制过来的信息,信息中包含有不可见的控制字符,回传至前台的json数据,浏览器无法正常解 ...
多标签图像分类任务的评价方法-mAP
http://blog.sina.com.cn/s/blog_9db078090102whzw.html 多标签图像分类(Multi-label Image Classification)任务中图片的 ...

cs231n spring 2017 lecture3 Loss Functions and Optimization

cs231n spring 2017 lecture3 Loss Functions and Optimization的更多相关文章

随机推荐

热门专题