Active Learning主动学习

Active Learning主动学习

我们使用一些传统的监督学习方法做分类的时候，往往是训练样本规模越大，分类的效果就越好。但是在现实生活的很多场景中，标记样本的获取是比较困难的，这需要领域内的专家来进行人工标注，所花费的时间成本和经济成本都是很大的。而且，如果训练样本的规模过于庞大，训练的时间花费也会比较多。那么有没有办法，用尽可能少的标注，获取尽可能好的训练结果？主动学习(Active Learning)为我们提供了这种可能。主动学习通过一定的算法查询最有用的未标记样本，并交由专家进行标记，然后用查询到的样本训练分类模型来提高模型的精确度。

定义：在某些情况下，没有类标签的数据相当丰富而有类标签的数据相当稀少，并且人工对数据进行标记的成本又相当高昂。在这种情况下，我们可以让学习算法主动地提出要对哪些数据进行标注，之后我们要将这些数据送到专家那里，让他们进行标注，再将这些数据加入到训练样本集中对算法进行训练。这一过程叫做主动学习。

由此我们可以看出，主动学习最主要的就是选择策略。

主动学习的模型如下:

A=(C,Q,S,L,U)，其中 C 为一组或者一个分类器，L是用于训练已标注的训练样本。Q 是查询函数，用于从未标注样本池U中查询信息量大的信息，S是督导者，可以为U中样本标注正确的标签.

最开始，先将样本分为少量的已标记样本L，和大量未标记样本U.学习者通过少量初始标记样本L开始学习，通过一定的查询函数Q选择出一个或一批最有用的样本（大多数算法都每次选择一批样本），专家标记，将标记后的样本从U中删除，加入L中，然后利用获得的新知识（所有L）来训练分类器和进行下一轮查询。主动学习是一个循环的过程，直至达到某一停止准则为止。

在各种主动学习方法中，查询函数的设计最常用的策略是：不确定性准则（uncertainty）和差异性准则（diversity）。

不确定性：我们可以借助信息熵的概念来进行理解。我们知道信息熵是衡量信息量的概念，也是衡量不确定性的概念。信息熵越大，就代表不确定性越大，包含的信息量也就越丰富。事实上，有些基于不确定性的主动学习查询函数就是使用了信息熵来设计的，比如熵值装袋查询（Entropy query-by-bagging）。所以，不确定性策略就是要想方设法地找出不确定性高的样本，因为这些样本所包含的丰富信息量，对我们训练模型来说就是有用的。

差异性：怎么来理解呢？之前说到或查询函数每次迭代中查询一个或者一批样本。我们当然希望所查询的样本提供的信息是全面的，各个样本提供的信息不重复不冗余，即样本之间具有一定的差异性。在每轮迭代抽取单个信息量最大的样本加入训练集的情况下，每一轮迭代中模型都被重新训练，以获得的知识去参与对样本不确定性的评估可以有效地避免数据冗余。但是如果每次迭代查询一批样本，那么就应该想办法来保证样本的差异性，避免数据冗余。

Active Learning主动学习的更多相关文章

Active Learning 主动学习
Active Learning 主动学习 2015年09月30日 14:49:29 qrlhl 阅读数 21374 文章标签: 算法机器学习更多分类专栏: 机器学习版权声明:本文为博主原创文 ...
[Active Learning] 01 A Brief Introduction to Active Learning 主动学习简介
目录什么是主动学习? 主动学习 vs. 被动学习为什么需要主动学习? 主动学习与监督学习.弱监督学习.半监督学习.无监督学习之间的关系主动学习的种类主动学习的一个例子主动学习工具包 ALiP ...
简要介绍Active Learning(主动学习)思想框架，以及从IF（isolation forest）衍生出来的算法：FBIF（Feedback-Guided Anomaly Discovery）
1. 引言本文所讨论的内容为笔者对外文文献的翻译,并加入了笔者自己的理解和总结,文中涉及到的原始外文论文和相关学习链接我会放在reference里,另外,推荐读者朋友购买 Stephen Boyd的 ...
Active Learning
怎么办?进行Active Learning主动学习 Active Learning是最近又流行起来了的概念,是一种半监督学习方法. 一种典型的例子是:在没有太多数据的情况下,算法通过不断给出在决策边界 ...
主动学习——active learning
阅读目录 1. 写在前面 2. 什么是active learning? 3. active learning的基本思想 4. active learning与半监督学习的不同 5. 参考文献 1. ...
【主动学习】Variational Adversarial Active Learning
本文记录了博主阅读ICCV2019一篇关于主动学习论文的笔记,第一篇博客,以后持续更新哈哈论文题目:<Variational AdVersarial Active Learning> 原 ...
主动学习(Active Learning)
主动学习简介在某些情况下,没有类标签的数据相当丰富而有类标签的数据相当稀少,并且人工对数据进行标记的成本又相当高昂.在这种情况下,我们可以让学习算法主动地提出要对哪些数据进行标注,之后我们要将这些数 ...
Recorder︱深度学习小数据集表现、优化（Active Learning）、标注集网络获取
一.深度学习在小数据集的表现深度学习在小数据集情况下获得好效果,可以从两个角度去解决: 1.降低偏差,图像平移等操作 2.降低方差,dropout.随机梯度下降先来看看深度学习在小数据集上表现的具 ...
[Machine Learning] Active Learning
1. 写在前面在机器学习(Machine learning)领域,监督学习(Supervised learning).非监督学习(Unsupervised learning)以及半监督学习(Semi ...

随机推荐

codeforces 371B - Fox Dividing Cheese
#include<stdio.h> int count; int gcd(int a,int b) { if(b==0) return a; return gcd(b,a%b); ...
【Tomcat】tomcat配置多域名和虚拟路径
当我们用浏览器在访问网页的时候,如访问www.baidu.com,一般都认为会在DNS服务器上找这个域名对应的IP,然后向这个IP发送请求并响应,其实在DNS服务器解析之前,本机会先在你的系统配置文 ...
建立DJANGO的自定义TAG
DJANGO的TAG分为三类: • simple_tag : Processes the data and returns a string• inclusion_tag : Processes th ...
poj—— 3037 Saving Beans
Saving Beans Time Limit: 6000/3000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Tot ...
洛谷 P1993 小K的农场
P1993 小K的农场题目描述小K在MC里面建立很多很多的农场,总共n个,以至于他自己都忘记了每个农场中种植作物的具体数量了,他只记得一些含糊的信息(共m个),以下列三种形式描述: 农场a比农场b ...
Spring MVC 4实现RESTFul WebServices的CRUD实例和使用RestTemplate进行请求（全注解形式配置Web和Filter）
在这篇文章中,我们将使用Spring4 MVC编写一个CRUD RESTful Web服务,写一个REST客户端RestTemplate来使用这些服务.我们也将利用外部客户端测试的服务. 下面将展示核 ...
一份关于jvm内存调优及原理的学习笔记(转)
JVM 一.虚拟机的基本结构 1.jvm整体架构类加载子系统:负责从文件系统或者网络中加载class信息,存入方法区中. 方法区(Perm):存放加载后的class信息,包括静态方法,jdk1.6以 ...
Windows 由于无法验证发布者，windows阻止控件安装怎么办
1 打开Internet选项 2 下载未签名的ACTIVEX控件-设为启动
AutoLayout初战----Masonry与FDTemplateLayoutCell实践
学iOS也有几个月了.一直都是纯代码开发,菜鸟入门,到今天还处在Frame时代.刚好近期项目在提审.有点时间能够学学传说中的AutoLayout.事实上.就是android的相对布局(Relative ...
CountDownTimer完整具体演示样例
MainActivity例如以下: package cc.cv; import android.os.Bundle; import android.os.CountDownTimer; import ...

Active Learning主动学习

Active Learning主动学习的更多相关文章

随机推荐

热门专题