半监督学习方法(Semi-supervised Learning)的分类
根据模型的训练策略划分:
- 直推式学习(Transductive Semi-supervised Learning)
- 无标记数据就是最终要用来测试的数据,学习的目的就是在这些数据上取得最佳泛化能力。
- 归纳式学习(Inductive Semi-supervised Learning)
- 认为待识别样本不能是训练中所用的无标签数据,不能参与到训练过程。
- 直推式学习(Transductive Semi-supervised Learning)
这两者的区别在于:预测样本是不是在训练的时候已经见(用)过。通常直推式比归纳式的效果要好,因为归纳式还需要从训练泛化到测试。
根据无标签数据的使用方法划分:
- 被动学习
- 随机选取无标签样本并打标,侧重于学习探索无标注数据中的模型已知部分。
- 主动学习
- 对无标签数据筛选后打标,相比于被动学习,在获取相当性能的情况下只需要更少但更有信息量的标注样本;侧重尝试挖掘未知的富有信息量的数据。
- 被动学习
按照模型的训练方法划分:
Self-training methods(自训练方法)
训练过程:首先要用一个带有标签的小数据集训练分类器;然后使用分类器对未标记的数据进行分类; 之后将最可靠的未标记点与预测标记一起添加到训练集中, 分类器被重新训练。 重复此过程,直到程序满足终止条件为止, 然后在输出中给出最终的分类器。(自训练首先将原始标注数据作为训练集训练得到初步模型,再用该模型对无标注数据进行推断,将那些高置信度的预测样本作为伪真值(Pseudo Ground Truth)加入训练集,再重复训练,因此自训练也可叫做自我学习(Self teaching)或自助法(Bootstrapping)。)
存在的问题:错误标记的样本会传播到下一个迭代中,从而对结果产生很大影响。
解决方法:在每次迭代中都需要自训练程序来找到一个准则(度量)以选择一组高度可靠的预测 。如果预测的可靠性下降到阈值以下,则尝试通过“取消学习”未标记的点来避免标签不正确对分类结果的影响。
Co-training methods(协同训练方法)
- 该方法基于视图充分冗余和条件独立这两个假设。首先在有同一标记的样本的两个视图上训练不同的分类器(比如对于一个电影:有画面、声音、字幕三种属性集,对应的就有三个视图;对于图片,可以是两个角度拍摄出的同一个对象的不同照片),并利用这两个分类器进行未标记样本的标签预测;之后将其中置信值最高的样本加入到另一个分类器中交替进行训练(协同训练),并迭代进行下去。
- 协同训练可以很好地利用多视图的“相容互补性”。假设数据拥有两个充分且条件独立的视图(“充分”是指每个视图都包含足以产生最优学习器的信息,“条件独立”则是指在给的类别标记条件下两个视图相互独立), 在此情况下,可以用一个简单的办法来利用未标记数据:首先在每个视图上基于有标签样本分别训练出一个分类器,然后让每个分类器分别去挑选自己“最有把握的”未标记样本赋予伪标记,并将伪标记样本提供给另一个分类器作为新增的有标记样本用于训练更新…这个“互相学习、共同进步”的过程不断迭代进行,直到两个分类器都不再发生变化,或达到预先设定的迭代轮次为止。
- 协同训练(Co-training)基于三大假设:(1)特征可划分为两大子集;(2)每个特征子集足够训练好的分类器“3)给定类别前提下两个特征子集条件独立。协同训练通过引入无标注的数据来缩小变形空间从而达到提升半监督学习算法性能的目的。
Semi-supervised boosting(半监督提升)
- Boosting是一种框架算法,主要是通过对样本集的操作获得样本子集,然后用弱分类算法在样本子集上训练生成一系列的基分类器,使用基分类器生成强分类器。
- Semi-supervised on-line boosting for robust tracking
Generative methods(生成式方法)
- 生成式方法是一种基于统计学习的方法,它认为训练样本和对应的类别标签是由某个概率分布生成。已知类先验分布
半监督学习方法(Semi-supervised Learning)的分类的更多相关文章
- 详解使用EM算法的半监督学习方法应用于朴素贝叶斯文本分类
1.前言 对大量需要分类的文本数据进行标记是一项繁琐.耗时的任务,而真实世界中,如互联网上存在大量的未标注的数据,获取这些是容易和廉价的.在下面的内容中,我们介绍使用半监督学习和EM算法,充分结合大量 ...
- [论文][半监督语义分割]Adversarial Learning for Semi-Supervised Semantic Segmentation
Adversarial Learning for Semi-Supervised Semantic Segmentation 论文原文 摘要 创新点:我们提出了一种使用对抗网络进行半监督语义分割的方法 ...
- 数据量与半监督与监督学习 Data amount and semi-supervised and supervised learning
机器学习工程师最熟悉的设置之一是访问大量数据,但需要适度的资源来注释它.处于困境的每个人最终都会经历逻辑步骤,当他们拥有有限的监督数据时会问自己该做什么,但很多未标记的数据,以及文献似乎都有一个现成的 ...
- Machine Learning Algorithms Study Notes(2)--Supervised Learning
Machine Learning Algorithms Study Notes 高雪松 @雪松Cedro Microsoft MVP 本系列文章是Andrew Ng 在斯坦福的机器学习课程 CS 22 ...
- A brief introduction to weakly supervised learning(简要介绍弱监督学习)
by 南大周志华 摘要 监督学习技术通过学习大量训练数据来构建预测模型,其中每个训练样本都有其对应的真值输出.尽管现有的技术已经取得了巨大的成功,但值得注意的是,由于数据标注过程的高成本,很多任务很难 ...
- GAN实战笔记——第七章半监督生成对抗网络(SGAN)
半监督生成对抗网络 一.SGAN简介 半监督学习(semi-supervised learning)是GAN在实际应用中最有前途的领域之一,与监督学习(数据集中的每个样本有一个标签)和无监督学习(不使 ...
- 小样本利器2.文本对抗+半监督 FGSM & VAT & FGM代码实现
小样本利器2.文本对抗+半监督 FGSM & VAT & FGM代码实现 上一章我们聊了聊通过一致性正则的半监督方案,使用大量的未标注样本来提升小样本模型的泛化能力.这一章我们结合FG ...
- cips2016+学习笔记︱NLP中的消岐方法总结(词典、有监督、半监督)
歧义问题方面,笔者一直比较关注利用词向量解决歧义问题: 也许你寄希望于一个词向量能捕获所有的语义信息(例如run即是动车也是名词),但是什么样的词向量都不能很好地进行凸显. 这篇论文有一些利用词向量的 ...
- OSVOS 半监督视频分割入门论文(中文翻译)
摘要: 本文解决了半监督视频目标分割的问题.给定第一帧的mask,将目标从视频背景中分离出来.本文提出OSVOS,基于FCN框架的,可以连续依次地将在IMAGENET上学到的信息转移到通用语义信息,实 ...
随机推荐
- Raspberry Pi 电路图模拟器
Raspberry Pi 电路图模拟器 Circuit Diagram / Circuit Graph https://fritzing.org/learning/tutorials/building ...
- How to create a folder symbol link in macOS
How to create a folder symbol link in macOS macOS 创建文件夹链接 Make AliasMake Alias Symbolic Links 符号链接 $ ...
- PIP & Python packages management
PIP & Python packages management $ python3 --version # OR $ python3 -V # Python 3.7.3 $ pip --ve ...
- taro table component
taro table component https://juejin.im/post/5d901696f265da5b926bbcaa https://taro-ext.jd.com/search? ...
- Flutter: 粘贴板
文档 import 'package:flutter/services.dart'; /// 把文本复制进入粘贴板 Clipboard.setData(ClipboardData(text: &quo ...
- Flutter: debounce 避免高频率事件
原文 函数 import 'dart:async'; Function debounce(Function fn, [int t = 30]) { Timer _debounce; return () ...
- 「NGK每日快讯」12.4日NGK公链第31期官方快讯!
- 关于PCA主成分分析的一点理解
PCA 即主成分分析技术,旨在利用降维的思想,把多指标转化为少数几个综合指标. 假设目前我们的数据特征为3,即数据维度为三,现在我们想将数据降维为二维,一维: 我们之前的数据其实就是三维空间中的一个个 ...
- 运用Spock编写高质量单元测试
单元测试作为提升代码质量的有效方法,目前在国内各大互联网公司的开发团队中,尤其是业务团队中却鲜少被使用.这主要由于大家对于单元测试有一些认知错误,或者没有正确的打开方式.至今我们团队在小剧场.零代码运 ...
- 如何把数据放到C#的心里之 DB2实例
平时偶尔因为工作需要得自己写一些小工具去操作数据库,因为只是需要实现一些小的功能,也不涉及多类型的数据库,也许就是一次性的使用.所以此时那些大而全的数据库操作框架,也就不再那么适合我了.而本篇博文主要 ...
- 详解使用EM算法的半监督学习方法应用于朴素贝叶斯文本分类
- 生成式方法是一种基于统计学习的方法,它认为训练样本和对应的类别标签是由某个概率分布生成。已知类先验分布