Notes on Noise Contrastive Estimation and Negative Sampling

## 生成负样本

在常见的关系抽取应用中，我们经常需要生成负样本来训练一个好的系统。如果没有负样本，系统会趋向于把所有的变量分类成正类。但是，在关系抽取中，并不容易找到足够的高质量的负样本（ground truth）。这种情况下，我们通常需要使用distant supervision来生成负样本。

负样本的生成多少可看成是一种艺术。以下讨论了几种常用的方法，还有些方法没有列出。
- random sampling
- incompatible relations
- domain-specific knowledge

## 随机抽样 Random samples
另一种产生负面证据的方法是在所有变量中随机抽取一小部分(people mention pairs in our spouse example),并将其标记为负面证据。
这可能会产生一些错误的负面例子，但是如果统计变量更有可能是错误的，那么随机抽样就会起作用。
例如，大多数人在句子中提到成对，但他们不是配偶，我们就可以在提及成对的人群中，随机抽取一小部分的，并把它们标记为错误的配偶关系的例子。

## 不相容关系
不相容关系总是或常常是与我们想要抽取的关系冲突的。比如我们有2个实体，x & y. 我们想抽取A关系，而B是与A不相容关系，我们有：
>> B(x,y) => not A(x,y)
比如，我们要为"spouse"（配偶）关系生成负样本，我们可以使用非配偶关系来作为与之不相容的关系，比如parents, children, or siblings: 如果 x 是 y 的父母，那么x和y不能是夫妻。

## 特定领域规则
有时，我们可以利用其他领域特定的知识来生成负样本。这些规则的设计很大程度上依赖于应用场景。例如，对于配偶关系，一个使用时间信息的领域特定规则是“不同时活着的人不可能是配偶”。Specifically, if a person x has birth_date later than y's death_date, then x and y cannot be spouses.

This is the video of Negative Sampling in Natural Language Process Course in Coursea.com:
https://www.coursera.org/learn/nlp-sequence-models/lecture/Iwx0e/negative-sampling

Related Papers

[Noise-Contrastive Estimation of Unnormalized Statistical Models with Applications to Natural Image Statistics]

[Word2vec Parameter Learning Explained]

[Efficient Estimation of Word Representation in Vector Space]

[Distributed Representations of Words and Phrases and their Compositionality]

[Notes on Noise Contrastive Estimation and Negative Sampling]

Notes on Noise Contrastive Estimation and Negative Sampling的更多相关文章

Noise Contrastive Estimation
Notes from Notes on Noise Contrastive Estimation and Negative Sampling one sample: \[x_i \to [y_i^0, ...
DL4NLP——词表示模型（三）word2vec（CBOW/Skip-gram）的加速：Hierarchical Softmax与Negative Sampling
上篇博文提到,原始的CBOW / Skip-gram模型虽然去掉了NPLM中的隐藏层从而减少了耗时,但由于输出层仍然是softmax(),所以实际上依然“impractical”.所以接下来就介绍一下 ...
论文解读（SelfGNN）《Self-supervised Graph Neural Networks without explicit negative sampling》
论文信息论文标题:Self-supervised Graph Neural Networks without explicit negative sampling论文作者:Zekarias T. K ...
word2vec 中的数学原理具体解释（五）基于 Negative Sampling 的模型
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单.高效,因此引起了非常多人的关注. 因为 word2vec 的作者 Tomas ...
word2vec原理(三) 基于Negative Sampling的模型
word2vec原理(一) CBOW与Skip-Gram模型基础 word2vec原理(二) 基于Hierarchical Softmax的模型 word2vec原理(三) 基于Negative Sa ...
[DeeplearningAI笔记]序列模型2.7负采样Negative sampling
5.2自然语言处理觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.7 负采样 Negative sampling Mikolov T, Sutskever I, Chen K, et a ...
word2vec改进之Negative Sampling
训练网络时往往会对全部的神经元参数进行微调,从而让训练结果更加准确.但在这个网络中,训练参数很多,每次微调上百万的数据是很浪费计算资源的.那么Negative Sampling方法可以通过每次调整很小 ...
词表征 2：word2vec、CBoW、Skip-Gram、Negative Sampling、Hierarchical Softmax
原文地址:https://www.jianshu.com/p/5a896955abf0 2)基于迭代的方法直接学相较于基于SVD的方法直接捕获所有共现值的做法,基于迭代的方法一次只捕获一个窗口内的词 ...
【计算语言学实验】基于 Skip-Gram with Negative Sampling (SGNS) 的汉语词向量学习和评估
一.概述训练语料来源:维基媒体 https://dumps.wikimedia.org/backup-index.html 汉语数据用word2vec训练词向量,并用所学得的词向量,计算 pku_ ...

随机推荐

信号滤波模块verilog代码---UNLOCK，LOCK状态机方式
信号滤波模块verilog代码 `timescale 1ns / 1ps /////////////////////////////////////////////////////////////// ...
webservice的model层命名空间不同的问题
[XmlType(Namespace = "http://tempuri.org/MyClass4")] [XmlRoot(Namespace = "ht ...
VS正则msdn地址
https://msdn.microsoft.com/zh-cn/library/2k3te2cs(v=vs.100).aspx 备查.vs里正则有很多特殊的规则.
Java 中统计文件中出现单词的次数练习
统计英文article.txt文件中出现hello这个单词的次数这个是article.txt文件内容 { hello The Royal Navy is trying hello to play h ...
关于JSON 与对象、集合之间的转换
在开发过程中,经常需要和别的系统交换数据,数据交换的格式有XML.JSON等,JSON作为一个轻量级的数据格式比xml效率要高,XML需要很多的标签,这无疑占据了网络流量,JSON在这方面则做的很好, ...
WPF系列学习
1:WPF最小化到系统托盘 2:WPF程序单例运行 3:WPF中三种异常捕获:UI线程异常.非UI线程异常.Task线程异常在窗体放一个按钮在单击事件执行如下代码来模拟. private void ...
csv文件操作
1.python2中: import csv infos = [ ['peter','male'], ['marry','female'], ['johon','male'], ['rose','fe ...
PAT 乙级 1008 数组元素循环右移问题 (20) C++版
1008. 数组元素循环右移问题 (20) 时间限制 400 ms 内存限制 65536 kB 代码长度限制 8000 B 判题程序 Standard 一个数组A中存有N(N>0)个整数,在不允 ...
QLExpress 规则引擎使用介绍
一个轻量级的类java语法规则引擎,作为一个嵌入式规则引擎在业务系统中使用.让业务规则定义简便而不失灵活.让业务人员就可以定义业务规则.支持标准的JAVA语法,还可以支持自定义操作符号.操作符号重载. ...
[ZZ]知名互联网公司Python的16道经典面试题及答案
知名互联网公司Python的16道经典面试题及答案 https://mp.weixin.qq.com/s/To0kYQk6ivYL1Lr8aGlEUw 知名互联网公司Python的16道经典面试题及答 ...

Notes on Noise Contrastive Estimation and Negative Sampling

Related Papers

Notes on Noise Contrastive Estimation and Negative Sampling的更多相关文章

随机推荐

热门专题