A Convex Optimization Framework for Active Learning


Active learning is the problem of progressively selecting and annotating the most informative unlabeled samples, in order to obtain a high classification performance.
目前AL方法存在的问题有:
1.大部分AL算法在预训练分类器之前,都一次只选择一个样本;这就导致计算复杂且无法利用并行标注系统;
2.一次可以选择多个样本的算法,又可能存在着样本重叠覆盖的问题,或者是要求解非凸问题.
更重要的问题是,之前的AL算法是专门为特定的分类器而设计的,例如:SVM. 本文的算法可以用于任何分类器,应用范围更加广泛.

本文主要贡献:
本文在凸优化的基础上提出了一种AL框架,可以同时选择多个样本进行标注,可以和任何类型的分类器相结合,包括基于稀疏表示的分类器.利用分类器的不确定性和样本的多样性来引导选择最具有信息性的无标签数据,并且有最小的信息重叠.
文章的主要框架:

2. Dissimilarity-based Sparse Modeling Representative Selection (DSMRS)

3. Active Learning via Convex Programming

we use the two principles of classifier uncertainty and sample diversity to define confidence scores for unlabeled samples.

3.1. Classifier Uncertainty (分类器的不确定性)

Now, for a generic classifier, we define its confidence about the predicted label of an unlabeled sample. Consider data in L different classes. For an unlabeled sample i, we consider the probability vector p i = p i1 · · · p iL , where p ij denotes the probability that sample i belongs to class j. We define the classifier confidence score of point i as:   

其中delta>1,E(.)代表熵函数(Entropy function).

对于置信度较高的样本,分类器置信度得分最低,即为1; 
对于置信度较低的样本,分类器置信度得分最高,为delta.

该图片说明了选择低置信度样本的必要性和有效性.绿色的x表示标注的数据.

3.2.  Sample Diversity  样本的多样性;

More specifically, sample diversity states that informative points for classification are the ones that are sufficiently dissimilar from the labeled training samples (and from themselves in the batch mode setting).


该图说明了标注样本多样性的优势.

从左图可以看出,只标注离分界面最近的样本,仍然无法正确进行分类,但是选择那些跟训练样本不同的sample进行标注,则可以得到较好的分类效果.

为了结合多样性,已标注的训练结合L,对于未标注的结合u,我们定义多样性置信度得分为:

3.3. Selecting Informative Samples:

Recall that our goal is to have a batch mode active learning framework that selects multiple informative and diverse unlabled samples,with respect to
the labeled samples as well as each other, for annotation. 一个简答的算法只是选择具有最低置信度的样本,这种方法的缺点在于,当选择的未标注样本和已标注数据不同的时候,可能仍然具有很大的信息重合.这是因为置信度分数只反映了每一个未标注样本和
对应分类器及已标注数据之间的关系,而没有抓住未标注样本之间的联系. 为了选择一些具有多样性的未标注数据,且具有较低的置信度.我们利用DSMRS算法. 我们提出解决如下凸优化问题:


---------------------------------------理论部分完毕--------------------------------
												

论文阅读之 A Convex Optimization Framework for Active Learning的更多相关文章

  1. 论文阅读:Face Recognition: From Traditional to Deep Learning Methods 《人脸识别综述:从传统方法到深度学习》

     论文阅读:Face Recognition: From Traditional to Deep Learning Methods  <人脸识别综述:从传统方法到深度学习>     一.引 ...

  2. 论文阅读:CNN-RNN: A Unified Framework for Multi-label Image Classification

    CNN-RNN: A Unified Framework for Multi-label Image Classification Updated on 2018-08-07 22:30:41 Pap ...

  3. 论文阅读之: Hierarchical Object Detection with Deep Reinforcement Learning

    Hierarchical Object Detection with Deep Reinforcement Learning NIPS 2016 WorkShop  Paper : https://a ...

  4. 【论文阅读】DGCNN:Dynamic Graph CNN for Learning on Point Clouds

    毕设进了图网络的坑,感觉有点难,一点点慢慢学吧,本文方法是<Rethinking Table Recognition using Graph Neural Networks>中关系建模环节 ...

  5. 深度学*点云语义分割:CVPR2019论文阅读

    深度学*点云语义分割:CVPR2019论文阅读 Point Cloud Oversegmentation with Graph-Structured Deep Metric Learning 摘要 本 ...

  6. 【论文考古】分布式优化 Communication Complexity of Convex Optimization

    J. N. Tsitsiklis and Z.-Q. Luo, "Communication complexity of convex optimization," Journal ...

  7. 论文阅读笔记 - Mesos: A Platform for Fine-Grained ResourceSharing in the Data Center

    作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...

  8. 论文阅读:Review of Visual Saliency Detection with Comprehensive Information

    这篇文章目前发表在arxiv,日期:20180309. 这是一篇针对多种综合性信息的视觉显著性检测的综述文章. 注:有些名词直接贴原文,是因为不翻译更容易理解.也不会逐字逐句都翻译,重要的肯定不会错过 ...

  9. 《Learning to warm up cold Item Embeddings for Cold-start Recommendation with Meta Scaling and Shifting Networks》论文阅读

    <Learning to warm up cold Item Embeddings for Cold-start Recommendation with Meta Scaling and Shi ...

随机推荐

  1. (二)iOS如何把所有界面的状态栏的字体颜色都设置为白色

    第一步:在info.plist中添加一个字段:view controller -base status bar 设置为NO 第二步:在一个所有界面都继承的父类里添加: if (IOS7_OR_LATE ...

  2. SQL Server 2005使用作业设置定时任务(转)

    1.开启SQL Server Agent服务 使用作业需要SQL Agent服务的支持,并且需要设置为自动启动,否则你的作业不会被执行. 以下步骤开启服务:开始-->>>运行--&g ...

  3. MongoDB的安装、配置服务(转)

      一,简介  MongoDB是一个基于分布式文件存储的数据库.由C++语言编写.旨在为WEB应用提供可扩展的高性能数据存储解决方案.  MongoDB是一个高性能,开源,无模式的文档型数据库,是当前 ...

  4. HDU 4737 A Bit Fun

    题意:定义F(i,j)为数组a中从ai到aj的或运算,求使F(i,j)<m的对数. 思路:或运算具有单调性,也就是只增不减,如果某个时刻结果大于等于m了,那么再往后一定也大于等于m.所以可以用两 ...

  5. linux下的文件权限管理

    权限管理有两个层面 第一层区分用户:文件属主(u), 组用户(g), 其它(o) 第二层区分权限:读(r),写(w),可执行(x) 这两个层次构成文件权限管理的二维结构 u         g     ...

  6. 《View Programming Guide for iOS》之frame、bounds和center之间的关系

    The frame property contains the frame rectangle, which specifies the size and location of the view i ...

  7. 解决:Android4.3锁屏界面Emergency calls only - China Unicom与EMERGENCY CALL语义重复

    从图片中我们可以看到,这里在语义上有一定的重复,当然这是谷歌的原始设计.这个问题在博客上进行共享从表面上来看着实没有什么太大的意义,不过由于Android4.3在锁屏功能上比起老版本做了很大的改动,而 ...

  8. ACDream-C - Transformers' Mission(Dijastra最短路径)

    dijstra求最短路径:经典应用题目: 题意:给你一个带权值无向图,权值是A点到B点的时间,然后告诉你起点,一个人可以去炸掉一个结点或多个节点,也可以派多个人,最终这些人在终点集合,问最后一个到达终 ...

  9. bzoj4034 (树链剖分+线段树)

    Problem T2 (bzoj4034 HAOI2015) 题目大意 给定一颗树,1为根节点,要求支持三种操作. 操作 1 :把某个节点 x 的点权增加 a . 操作 2 :把某个节点 x 为根的子 ...

  10. 架设 OpenLDAP服务器(转)

    OpenLDAP是一个开放源代码的软件,可以免费获取使用,其主页地址是:http://www.openldap.org/.在RHEL 6上安装OpenLDAP还需要libtool-ltdl-2.2.6 ...