cs231n:线性svm与softmax

参数信息:

权重 W:(D,C)

训练集 X:(N,D),标签 y:(N,1)

偏置量bias b:(C,1)

N:训练样本数;   D:样本Xi 的特征维度,Xi = [ Xi1,Xi2,...,XiD];  C:类别数量


正则化系数 λ :控制正则化的强度

delta / Δ : 间隔


linear svm:

对训练样本(Xi,yi),其对应每个类别的得分为:

  score = W*Xi+ b

是长度为C的矢量,以s表示 score, s = [s1, s2, s3, ..., sC] = [W1*Xi,  W2*Xi, W3*Xi, ..., WC*Xi]

Xi对应的损失(hinge loss)

  loss[i] = ∑j≠yi max(0,s- syi + delta)

总的损失,加入正则化项 R(W):

   loss = (1/N)*ΣNi=1 loss[i] + R(W) = (1/N)*ΣNi=1 ∑j≠yi max(0,s- syi + delta)+  λ*ΣΣj Wi,j2



softmax:

对训练样本(Xi,yi), 利用 yi 构造长度为C的矢量 p = [0, 0, 0, ..., 1, ...],第 yi 位置为 1,其余为 0,

先计算每个类别的得分:

  score = W*Xi+ b ,与上同

但是softmax继续对得分进行 归一化处理,得到 Xi 在每个类别的概率:

  h = exp(s) / Σexp(s),

即有 h = [h1, h2, ..., hC],hj = exp(sj) / ΣCk=1 exp(sk)

Xi对应的损失(交叉熵损失 cross-entropy loss):

  loss[i] = -∑log( p*h) =  -∑Cj=1 log(pj*hj)= -log(hyi

总的损失,加入正则化项 R(W):

  loss =  (1/N)* ΣNi=1 loss[i]  + R(W)  =   -(1/N)*ΣNi=1 log{ exp(syi) / ΣNk=1 exp(sk) } +  λ*ΣΣj Wi,j2


softmax 梯度计算:

对 loss 关于 w 进行求导即可得到梯度∂L/∂wj ,w = [w1, w2, w3, ... , wC],wj 是 Dx1的列向量

∂L / ∂wj = -(1/N) * ΣNi=1 Xi*[ 1{yi=j} - hj ]

梯度方向即是,w沿着梯度变化时,loss值变化最快的方向。利用梯度对loss进行优化,

(求w)从而最小化    loss

利用SGD训练

W := W - ∂L / ∂wj

算法程序:

1. 随机初始化 w

2. 迭代( 一定次数 或者 前后两次迭代是 loss 差值小于阈值 )

repeat {

  2.1 计算 loss,计算梯度∂L / ∂wj

  2.2 更新w

    w := w - 2. 计算梯度∂L / ∂wj

}


讨论:

1. linear svm的关键在于将样本的正类别得分score[yi]与 负类别得分score[-]区分开,只要正、负类别得分的差值大于 delta,就认为样本的分类结果正确,分类损失loss = 0;

它并不关心正负类别得分的细节,比如,对于某三分类,正类别是 1 (delta = 1),在svm看来,得分s1 = [ 10, 9, 9]  与得分s2 = [10,  -10, -10] 结果是一样的,都能够得到正确分类结果,所以二者的损失都是 0;

2. softmax 不仅要求样本的正、负类别概率(其实是将类别得分score归一化后用概率表示)能够区分开,而且还想尽力使它们之间的差值越大越好;softmax即使对样本正确进行分类,其分类损失 loss 也 不为0,正、负类别的概率差值越大,其损失 loss就越小。比如,同样的三分类,正类别是 1,在softmax看来,得分s1 = [ 10, 9, 9]  与得分 s2 = [10,  -10, -10] 分类结果虽然是一样的,但是他们的损失却不一样,

loss[s1] =  -log( [1,0,0] * [0.57611688,  0.21194156,  0.21194156] )  =  0.5514,

loss[s2] =  -log( [1,0,0] * [ 0.999999996,   0.000000002,   0.000000002] ) = 0.000000004

所以softmax会认为s2比s1分类损失小。从而在分类中,softmax会尽力使正类概率大,而负类概率小

3. linear svm上述特性既是不足,也是优点,比如在分类时,在A类,B类已经有不同得分,可以分开的情况下,不必再花费精力尽力使A、B两类的得分差别变大。

cs231n --- 1:线性svm与softmax的更多相关文章

  1. 深度学习与计算机视觉系列(3)_线性SVM与SoftMax分类器

    作者: 寒小阳 &&龙心尘 时间:2015年11月. 出处: http://blog.csdn.net/han_xiaoyang/article/details/49949535 ht ...

  2. 线性SVM与Softmax分类器

    1 引入 上一篇介绍了图像分类问题.图像分类的任务,就是从已有的固定分类标签集合中选择一个并分配给一张图像.我们还介绍了k-Nearest Neighbor (k-NN)分类器,该分类器的基本思想是通 ...

  3. 线性SVM分类器实战

    1 概述 基础的理论知识参考线性SVM与Softmax分类器. 代码实现环境:python3 2 数据处理 2.1 加载数据集 将原始数据集放入"data/cifar10/"文件夹 ...

  4. cs231n线性分类器作业 svm代码 softmax

    CS231n之线性分类器 斯坦福CS231n项目实战(二):线性支持向量机SVM CS231n 2016 通关 第三章-SVM与Softmax cs231n:assignment1——Q3: Impl ...

  5. CS231n 2016 通关 第三章-SVM与Softmax

    1===本节课对应视频内容的第三讲,对应PPT是Lecture3 2===本节课的收获 ===熟悉SVM及其多分类问题 ===熟悉softmax分类问题 ===了解优化思想 由上节课即KNN的分析步骤 ...

  6. 【cs231n】线性分类笔记

    前言 首先声明,以下内容绝大部分转自知乎智能单元,他们将官方学习笔记进行了很专业的翻译,在此我会直接copy他们翻译的笔记,有些地方会用红字写自己的笔记,本文只是作为自己的学习笔记.本文内容官网链接: ...

  7. 线性SVM

    (本文内容和图片来自林轩田老师<机器学习技法>) 1. 线性SVM的推导 1.1 形象理解为什么要使用间隔最大化 容忍更多的测量误差,更加的robust.间隔越大,噪声容忍度越大: 1.2 ...

  8. SVM1 线性SVM

    一.Linear Support Vector Machine 接下来的讨论假设数据都是线性可分的. 1.1 SVM的引入:增大对测量误差的容忍度 假设有训练数据和分类曲线如下图所示: 很明显,三个分 ...

  9. 支持向量机(Support Vector Machine,SVM)—— 线性SVM

      支持向量机(Support Vector Machine,简称 SVM)于 1995 年正式发表,由于其在文本分类任务中的卓越性能,很快就成为机器学习的主流技术.尽管现在 Deep Learnin ...

随机推荐

  1. 数据库之Oracle——初级

    世上岂无千里马,人中难得九方皋: 酒船鱼网归来是,花落故溪深一篙. 关于数据库的第一篇博客,这是我的第二次,人生第二春,什么也不想说,静静的开始吧,至于为什么写唐诗,请看第一篇文章! Oracle 初 ...

  2. .net core 开发短网址平台的思路

    最近有个客户要求开发一套短网址网站,小编现在都使用.net core进行网站开发了,以是厘厘思路,想想使用.net core 的中间件应该很容易实现. 1. 构建一个中间件,监测网站的响应状态,代码如 ...

  3. linux操作系统基础篇(二)

    Linux用户.群组.权限 1.用户也是由一个个文件组成的下列文件都是存放用户信息的文件 useradd user1 /etc/passwd: 存放用户信息  /etc/shadow/ :存放用户密码 ...

  4. Android 安全加密

    Android 安全加密 引言     对称加密.非对称加密.消息摘要.数字签名等知识都是为了理解数字证书工作原理而作为一个预备知识.数字证书是密码学里的终极武器,是人类几千年历史总结的智慧的结晶,只 ...

  5. Python之程序执行时间计算

    import datetime starttime = datetime.datetime.now() #long running endtime = datetime.datetime.now() ...

  6. APP后台API文档管理对接(APP后台框架五)

    这一章还是总结点API管理工具,也大都是组件来的,关于spring-rest-doc 以为很不错,其实还是有点局限性的: 1,每一个接口文档,都要自己手动设置文档的展示: 2,每一个接口就独立一个文档 ...

  7. 【框架学习与探究之依赖注入--Autofac】

    声明 本文欢迎转载,原文地址:http://www.cnblogs.com/DjlNet/p/7603642.html 序 同样的又是一个双11如期而至,淘宝/天猫实时数据显示,开场3分钟总交易额突破 ...

  8. EDI数据导入的注意事项&常见异常处理

    EXCEL表格注意事项: •      编码是0开头的,格式必须是文本,否则前面请加字母: •      注意全角半角,中文标点英文标点: •      编号文字类开头和结尾不要有空格,姓名中间也不要 ...

  9. async await Task

    一.使用Task 引用命名空间 using System.Threading.Tasks; 1.工厂方式 Task.Factory.StartNew(() => {Console.WriteLi ...

  10. 数据结构与算法--Boyer-Moore和Rabin-Karp子字符串查找

    数据结构与算法--Boyer-Moore和Rabin-Karp子字符串查找 Boyer-Moore字符串查找算法 注意,<算法4>上将这个版本的实现称为Broyer-Moore算法,我看了 ...