这个系列我们用现实中经常碰到的小样本问题来串联半监督,文本对抗,文本增强等模型优化方案.小样本的核心在于如何在有限的标注样本上,最大化模型的泛化能力,让模型对unseen的样本拥有很好的预测效果.之前在NER系列中我们已经介绍过Data Augmentation,不熟悉的童鞋看过来 中文NER的那些事儿4. 数据增强在NER的尝试.样本增强是通过提高标注样本的丰富度来提升模型泛化性,另一个方向半监督方案则是通过利用大量的相同领域未标注数据来提升模型的样本外预测能力.这一章我们来聊聊半监督方案中的…
在前两章中我们已经聊过对抗学习FGM,一致性正则Temporal等方案,主要通过约束模型对细微的样本扰动给出一致性的预测,推动决策边界更加平滑.这一章我们主要针对低密度分离假设,聊聊如何使用未标注数据来推动决策边界向低密度区移动,相关代码实现详见ClassicSolution/enhancement 半监督领域有几个相互关联的基础假设 Smoothness平滑度假设:两个样本在高密度空间特征相近,则他们的label大概率相同,宏毅老师美其名曰近朱者赤近墨者黑.这里的高密度比较难理解,感觉可以近似…
小样本利器2.文本对抗+半监督 FGSM & VAT & FGM代码实现 上一章我们聊了聊通过一致性正则的半监督方案,使用大量的未标注样本来提升小样本模型的泛化能力.这一章我们结合FGSM,FGM,VAT看下如何使用对抗训练,以及对抗训练结合半监督来提升模型的鲁棒性.本章我们会混着CV和NLP一起来说,VAT的两篇是CV领域的论文,而FGM是CV迁移到NLP的实现方案,一作都是同一位作者大大.FGM的tensorflow实现详见Github-SimpleClassification 我们会…
前三章我们陆续介绍了半监督和对抗训练的方案来提高模型在样本外的泛化能力,这一章我们介绍一种嵌入模型的数据增强方案.之前没太重视这种方案,实在是方法过于朴实...不过在最近用的几个数据集上mixup的表现都比较哇塞,所以我们再来聊聊~ Mixup paper: mixup: Beyond Empirical Risk Minimization TF源码:https://github.com/facebookresearch/mixup-cifar10 torch复现:ClassicSolution…
摘要: 本文解决了半监督视频目标分割的问题.给定第一帧的mask,将目标从视频背景中分离出来.本文提出OSVOS,基于FCN框架的,可以连续依次地将在IMAGENET上学到的信息转移到通用语义信息,实现前景分割的目的,之后学习单个标注物体的外形.尽管所有的帧序列都是独立处理的,但结果却是时序相关的,连续稳定的.我们在两个标注的视频数据集上进行了测试,结果显示OSVOS是非常快的,同时较当前流行的最好算法强一大截. 介绍: CNN网络划时代的改变了计算机视觉领域.极大的提升了图像分类,目标检测的准…
根据模型的训练策略划分: 直推式学习(Transductive Semi-supervised Learning) 无标记数据就是最终要用来测试的数据,学习的目的就是在这些数据上取得最佳泛化能力. 归纳式学习(Inductive Semi-supervised Learning) 认为待识别样本不能是训练中所用的无标签数据,不能参与到训练过程. ​ 这两者的区别在于:预测样本是不是在训练的时候已经见(用)过.通常直推式比归纳式的效果要好,因为归纳式还需要从训练泛化到测试. 根据无标签数据的使用方…
半监督生成对抗网络 一.SGAN简介 半监督学习(semi-supervised learning)是GAN在实际应用中最有前途的领域之一,与监督学习(数据集中的每个样本有一个标签)和无监督学习(不使用任何标签)不同,半监督学习只为训练数据集的一小部分提供类别标签.通过内化数据中的隐藏结构,半监督学习努力从标注数据点的小子集中归纳,以有效地对从未见过的新样本进行分类,要使半监督学习有效,标签数据和无标签数据必须来自相同的基本分布. 缺少标签数据集是机器学习研究和实际应用中的主要瓶颈之一,尽管无标…
经典以及最新的半监督方法 (SSL) 代码总结 最近因为做实验需要,收集了一些半监督方法的代码,列出了一个清单: 1. NIPS 2015 Semi-Supervised Learning with Ladder Networks https://github.com/CuriousAI/ladder 2. NIPS 2014 Semi-supervised-Learning-with-Deep-Generative-Models https://github.com/wangxiao57915…
歧义问题方面,笔者一直比较关注利用词向量解决歧义问题: 也许你寄希望于一个词向量能捕获所有的语义信息(例如run即是动车也是名词),但是什么样的词向量都不能很好地进行凸显. 这篇论文有一些利用词向量的办法:Improving Word Representations Via Global Context And Multiple Word Prototypes(Huang et al. 2012) 解决思路:对词窗口进行聚类,并对每个单词词保留聚类标签,例如bank1, bank2等 来源于笔者…
1.前言 对大量需要分类的文本数据进行标记是一项繁琐.耗时的任务,而真实世界中,如互联网上存在大量的未标注的数据,获取这些是容易和廉价的.在下面的内容中,我们介绍使用半监督学习和EM算法,充分结合大量未标记的样本,以期获得文本分类更高的准确率.本文使用的是多项式朴素贝叶斯作为分类器,通过EM算法进行训练,使用有标记数据以及未标记的数据.研究了多类分类准确率与训练集中未标记数据的比例之间的关系.并探索方法来降低EM过程的计算代价来加速训练.结果显示,半监督EM-NB分类器可以在只给2%标记数据情况…