白话machine learning之Loss Function

有关Loss Function（LF），只想说，终于写了

一、Loss Function

什么是Loss Function？wiki上有一句解释我觉得很到位，引用一下：The loss function quantifies the amount by which the prediction deviates from the actual values。Loss Function中文损失函数，适用于用于统计，经济，机器学习等领域，虽外表形式不一，但其本质作用应是唯一的，即用于衡量最优的策略。本章只从机器学习（ML）领域来对其进行阐述，机器学习其实是个不停的模拟现实的过程，比如无人驾驶车，语音识别，流感预测，天气预报，经济周期行为等众多领域，是互联网发展过程中“科学家”（暂且这么称呼吧）对于人类文明进步的另一个贡献，其本质就是要建立一个数学模型用于模拟现实，越接近真实越好，那么转化为数学语言即LF越小越好，因为LF值代表着现实与学习预测的差距，这个不停的缩小LF值的过程就称为优化，如果理解这些的话，就不难理解优化问题对于ML来说的重要性了，如水之于鱼，魂之于人！

二、几种Loss Function概述

如上一节所述，LF的概念来源于机器学习，同时我们也知道机器学习的应用范围相当广泛，几乎可以涵盖整个社会领域，那么自然不同的领域多少会有不同的做法，这里介绍在一般的机器学习算法中常见的几种，具有概括性

2.1 一般形式

J(w)=∑iL(mi(w))+λR(w)

LF分为两部分：L+R，L表示loss term，其中mi(w)=y(i)wTxi，y(i)∈{−1,1}，w表示学习出来的权重，该公式的作用很明显了，用来收集现实与学习结果的差距，是LF的核心部分，LF的不同大部分也是指的loss
term的不同；R表示范式，范式存在的意思是进行约束，以防止优化过偏。

2.2 一般的loss term有5种，分别用于5种常见的机器学习算法

Gold Standard（标准式）于理想sample，这种一般很少有实践场景，这个方法的作用更多的是用来衡量其他LF的效用；Hinge于soft-margin svm算法；log于LR算法（Logistric Regression）；squared loss于线性回归（Liner Regression）和Boosting。

1）Gold Standard loss，一般我们称这个LF为L01，从公式中可以看出该公式的主要职责是在统计多少个错误的case，很明显现实数据不允许如此简单的统计方式

从公式我们可以很清楚的看出，当m<0的时候L=1，m<0说明预测失败，那么Loss则加1，这样将错误累加上去，就是Gold Standard loss的核心思想。

2）hinge loss，常用于“maximum-margin”的算法，公式如下

l(y)=max(0,1−mi(w))

这个公式也很好理解，其中mi(w)在前面介绍过，表示样本i在模型下的预测值和样本i的类标记{-1,1}的乘积，这个乘积可以用来检验预测与真实结果是否一致来表示分类是否正确，当乘积大于0时表示分类正确，反之亦然。

3) log loss(一般又称为基于最大似然的负log loss)

likelihood=

l(y)=−likelihood

其中是log函数

最大似然思想指的是使得某种情况发生的概念最大的思想，根据LR的思想（参考这篇文章logistic回归深入篇（1）），我们知道g(w)对应的simod图，其将实域上的值映射到区间{0,1}，因此我们可以把g(w)看作事件A发生的概率，那么1-g(w)可以看作事件A不发生的概率，那么公式likelihood表达的含义就很明显了，y也是一个概率值，可以看做是对事件A与A逆的分量配额，当然我们的期望是A发生的可能越大越好，A逆发生的可能越小越好！因此likelihood是一个max的过程，而loss是一个min的过程，因此log
loss是负的likelihood。

4）square loss

这个loss很好理解，就是平方差，loss 一般也成为最小二乘法

5）boosting loss

这个loss主要是基于指数函数的loss function。

三、几种Loss Function的效果对比

上图是多LF的效果对比图，其中蓝色的是Gold loss，可以看作水平基线，其他的loss的效果可以基于与它的比较结果，首先，红色的是Hinge loss，黄色的是log loss，绿色的是boosting loss，黑色的是square loss，从上图可以看出以下结论： Hinge，log对于噪音函数不敏感，因为当m<0时，他们的反应不大，而黑线与绿线可能更爱憎分明，尤其是黑线，因此，在很多线性分类问题中，square loss也是很常见的LF之一。

白话machine learning之Loss Function的更多相关文章

Machine Learning/Introducing Logistic Function
Machine Learning/Introducing Logistic Function 打算写点关于Machine Learning的东西, 正好也在cnBlogs上新开了这个博客, 也就更新在 ...
[machine learning] Loss Function view
[machine learning] Loss Function view 有关Loss Function(LF),只想说,终于写了一.Loss Function 什么是Loss Function? ...
[Machine Learning] 浅谈LR算法的Cost Function
了解LR的同学们都知道,LR采用了最小化交叉熵或者最大化似然估计函数来作为Cost Function,那有个很有意思的问题来了,为什么我们不用更加简单熟悉的最小化平方误差函数(MSE)呢? 我个人理解 ...
machine learning(11) -- classification: advanced optimization 去求cost function最小值的方法
其它的比gradient descent快, 在某些场合得到广泛应用的求cost function的最小值的方法 when have a large machine learning problem, ...
《Machine Learning in Action》—— 白话贝叶斯，“恰瓜群众”应该恰好瓜还是恰坏瓜
<Machine Learning in Action>-- 白话贝叶斯,"恰瓜群众"应该恰好瓜还是恰坏瓜概率论,可以说是在机器学习当中扮演了一个非常重要的角色了.T ...
【机器学习Machine Learning】资料大全
昨天总结了深度学习的资料,今天把机器学习的资料也总结一下(友情提示:有些网站需要"科学上网"^_^) 推荐几本好书: 1.Pattern Recognition and Machi ...
损失函数(Loss Function) -1
http://www.ics.uci.edu/~dramanan/teaching/ics273a_winter08/lectures/lecture14.pdf Loss Function 损失函数 ...
Machine Learning Algorithms Study Notes(2)--Supervised Learning
Machine Learning Algorithms Study Notes 高雪松 @雪松Cedro Microsoft MVP 本系列文章是Andrew Ng 在斯坦福的机器学习课程 CS 22 ...
机器学习(Machine Learning)&深度学习(Deep Learning)资料
<Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.D ...

随机推荐

Mysql数据库实用语句集
mysql实用语句 (1).从第0行开始取,取3行(一般用于分页)select * from student limit 0,3 (2).查看当前数据库编码 show variables like ' ...
openstack dpdk
# ovs-vsctl showeef7cd95-0677-486c-b119-5d6ac8531c56 Manager "ptcp:6640:127.0.0.1" is_conn ...
分布式系统理论：一致性协议Paxos
Paxos算法是莱斯利·兰伯特(Leslie Lamport)于1990年提出的一种基于消息传递的一致性算法. Paxos 算法是一个解决分布式系统中,多个节点之间就某个值(注意是某一个值,不是一系列 ...
Java程序员怎么迈向架构师
怎样学习才能从一名Java初级程序员成长为一名合格的架构师,或者说一名合格的架构师应该有怎样的技术知识体系,这是不仅一个刚刚踏入职场的初级程序员也是工作三五年之后开始迷茫的老程序员经常会问到的问题. ...
Linux CentOS 7 安装字体库 & 中文字体
前言报表中发现有中文乱码和中文字体不整齐(重叠)的情况,首先考虑的就是操作系统是否有中文字体,在CentOS 7中发现输入命令查看字体列表是提示命令无效: 如上图可以看出,不仅没有中文字体,连字体库 ...
1029: [JSOI2007]建筑抢修贪心
https://www.lydsy.com/JudgeOnline/problem.php?id=1029 题意:n个建筑,每个有修复时间和爆炸时间,没有在爆炸时间内修复就会爆炸,问最多能修复的建筑 ...
ResultSet 结果集
转自:http://blog.csdn.net/z93971401/article/details/7469503 这篇文章并没有给出如何使用ResultSet的具体例子,只是从ResultSet的功 ...
各种数据库对应的jar包、驱动类名和URL格式
1.1. 各种数据库对应的jar包具体如下: 数据库类型对应的Jar文件 Oracle 8i classes12.zip 或 ojdbc14.jar Sybase jconn2.jar ...
CentOS6.6系统中安装配置Samba的教程
Samba是在Linux和UNIX系统上实现SMB协议的一个免费软件,由服务器及客户端程序构成.SMB(Server Messages Block,信息服务块)是一种在局域网上共享文件和打印机的一种通 ...
maven_00_资源帖
一.官方资料 Maven Getting Started Guide 二.精选资料 Maven for building Java applications - Tutorial Maven Tuto ...

白话machine learning之Loss Function

白话machine learning之Loss Function的更多相关文章

随机推荐

热门专题