Notes from Notes on Noise Contrastive Estimation and Negative Sampling one sample: \[x_i \to [y_i^0,\cdots,y_{i}^{k}]\] where \(y_i^0\) are true labeled words , and \(y_i^1,\cdots,y_i^{k}\) are noise samples word index, which is generated by unigram…
Notes on Noise Contrastive Estimation and Negative Sampling ## 生成负样本 在常见的关系抽取应用中,我们经常需要生成负样本来训练一个好的系统.如果没有负样本,系统会趋向于把所有的变量分类成正类.但是,在关系抽取中,并不容易找到足够的高质量的负样本(ground truth).这种情况下,我们通常需要使用distant supervision来生成负样本. 负样本的生成多少可看成是一种艺术.以下讨论了几种常用的方法,还有些方法没有列出.…
1.算法概述 假设X是从真实的数据(或语料库)中抽取的样本,其服从一个相对可参考的概率密度函数P(d),噪音样本Y服从概率密度函数为P(n),噪音对比估计(NCE)就是通过学习一个分类器把这两类样本区别开来,并能从模型中学到数据的属性. 模型原始论文:Noise-contrastive estimation: A new estimation principle for unnormalized statistical models tensorflow引用:Candidate Sampling…
本文首发于微信公众号「对白的算法屋」,来一起学AI叭 一.Word2vec CBOW(Continuous Bag-of-Words):每个词的含义都由相邻词决定. Skip-gram:依据分布的相似性,一个词的含义可以通过上下文获得. 注:Skip-gram 是预测一个词的上下文,而 CBOW 是用上下文预测这个词 1.1 CBOW (one-word context): 1.2 CBOW (Multi-word context): 1.3 Skip-gram: 二.计算效率优化技术 2.1 …
损失函数(Loss function)是用来估量你模型的预测值 f(x) 与真实值 Y 的不一致程度,它是一个非负实值函数,通常用 L(Y,f(x)) 来表示.损失函数越小,模型的鲁棒性就越好. 损失函数分为经验风险损失函数和结构风险损失函数.经验风险损失函数指预测结果和实际结果的差别,结构风险损失函数是指经验风险损失函数加上正则项.通常表示为如下:(整个式子表示的意思是找到使目标函数最小时的θ值.) 常见的损失误差有6种: 铰链损失(Hinge Loss):主要用于支持向量机(SVM) 中:…
论文原址:https://arxiv.org/abs/1708.02002 github代码:https://github.com/fizyr/keras-retinanet 摘要 目前,具有较高准确率的检测器基于双阶段的目标检测算法实现,单阶段通过对可能存在的位置进行密集的采样操作,一定程度上要比双阶段的方法要更简单快速,但是准确率会有所损失.在进行训练时,前景与背景二者之间较大的类别不平衡是产生上述问题的原因.针对上述问题,本文对常规的损失函数进行修改,降低易分类样本产生的损失的贡献度.本文…
写在前面 原始视频(30fps) 补帧后的视频(240fps) 本文是博主在做实验的过程中使用到的方法,刚好也做为了本科毕设的翻译文章,现在把它搬运到博客上来,因为觉得这篇文章的思路真的不错. 这篇文章的简要思路:整个网络由两个U-Net构成,第一个U-Net负责计算光流,第二个U-Net负责矫正光流(有点借鉴了残差的意思),从而对视频进行补帧. 参考资料: 原文: Super SloMo: High Quality Estimation of Multiple Intermediate Fra…
什么是loss?   loss: loss是我们用来对模型满意程度的指标.loss设计的原则是:模型越好loss越低,模型越差loss越高,但也有过拟合的情况.   loss function: 在分类问题中,输入样本经过含权重矩阵θ的模型后会得出关于各个类别的分值,如何通过分值与样本的标签来得到我们对模型的满意程度就是Loss function的主要工作了.训练过程中通过调整参数矩阵θ来降低loss,使用模型更优.多分类问题中常用Softmax分类器与多类SVM分类器. Softmax分类器…
https://github.com/kjw0612/awesome-rnn Faster Recurrent Neural Network Language Modeling Toolkit with Noise Contrastive Estimation and Hierarchical Softmax…
作者:桂. 时间:2017-06-08  08:01:41 链接:http://www.cnblogs.com/xingshansi/p/6957027.html 原文链接:http://pan.baidu.com/s/1nvp1bJF 前言 理论上借助VAD可以实现噪声估计,但这是远远不够的,例如在low-SNR场景下,甚至Noise是non-staitonary,原文交代了噪声估计的重要性: The majority of the VAD algorithms encounter probl…
1. 损失函数 损失函数(Loss function)是用来估量你模型的预测值 f(x) 与真实值 Y 的不一致程度,它是一个非负实值函数,通常用 L(Y,f(x)) 来表示. 损失函数越小,模型的鲁棒性就越好. 损失函数是经验风险函数的核心部分,也是结构风险函数的重要组成部分.模型的风险结构包括了风险项和正则项,通常如下所示: 其中,前面的均值函数表示的是经验风险函数,L代表的是损失函数,后面的 Φ 是正则化项(regularizer)或者叫惩罚项(penalty term), 它可以是L1,…
1. tf.matmul(X, w) # 进行点乘操作 参数说明:X,w都表示输入的数据, 2.tf.equal(x, y) # 比较两个数据对应位置的数是否相等,返回值为True,或者False 参数说明:x,y表示需要比较的两组数 3.tf.cast(y, 'float') # 将布尔类型转换为数字类型 参数说明:y表示输入的数据,‘float’表示转换的数据类型 4.tf.argmax(y, 1) # 返回每一行的最大值的索引 参数说明:y表示输入数据,1表示每一行的最大值的索引,0表示每…
https://blog.csdn.net/u010976453/article/details/78488279 1. 损失函数 损失函数(Loss function)是用来估量你模型的预测值 f(x)f(x) 与真实值 YY 的不一致程度,它是一个非负实值函数,通常用 L(Y,f(x))L(Y,f(x)) 来表示.损失函数越小,模型的鲁棒性就越好.损失函数是经验风险函数的核心部分,也是结构风险函数的重要组成部分.模型的风险结构包括了风险项和正则项,通常如下所示:   θ∗=argminθ1N…
转载:https://mp.weixin.qq.com/s/Xbi5iOh3xoBIK5kVmqbKYA https://baijiahao.baidu.com/s?id=1611951775526158371&wfr=spider&for=pc 无论在机器学习还是深度领域中,损失函数都是一个非常重要的知识点.损失函数(Loss Function)是用来估量模型的预测值 f(x) 与真实值 y 的不一致程度.我们的目标就是最小化损失函数,让 f(x) 与 y 尽量接近.通常可以使用梯度下降…
0 前言 Focal Loss是为了处理样本不平衡问题而提出的,经时间验证,在多种任务上,效果还是不错的.在理解Focal Loss前,需要先深刻理一下交叉熵损失,和带权重的交叉熵损失.然后我们从样本权利的角度出发,理解Focal Loss是如何分配样本权重的.Focal是动词Focus的形容词形式,那么它究竟Focus在什么地方呢? 1 交叉熵 1.1 交叉熵损失(Cross Entropy Loss) 有\(N\)个样本,输入一个\(C\)分类器,得到的输出为\(X\in \mathcal{…
loss是训练集的损失值,val_loss是测试集的损失值 以下是loss与val_loss的变化反映出训练走向的规律总结: train loss 不断下降,test loss不断下降,说明网络仍在学习;(最好的) train loss 不断下降,test loss趋于不变,说明网络过拟合;(max pool或者正则化) train loss 趋于不变,test loss不断下降,说明数据集100%有问题;(检查dataset) train loss 趋于不变,test loss趋于不变,说明学…
文章来自公众号[机器学习炼丹术] 1 focal loss的概述 焦点损失函数 Focal Loss(2017年何凯明大佬的论文)被提出用于密集物体检测任务. 当然,在目标检测中,可能待检测物体有1000个类别,然而你想要识别出来的物体,只是其中的某一个类别,这样其实就是一个样本非常不均衡的一个分类问题. 而Focal Loss简单的说,就是解决样本数量极度不平衡的问题的. 说到样本不平衡的解决方案,相比大家是知道一个混淆矩阵的f1-score的,但是这个好像不能用在训练中当成损失.而Focal…
目录 概 相关工作 主要内容 引理1 定理1 定理2 A Deep Neural Network's Loss Surface Contains Every Low-dimensional Pattern 概 作者关于Loss Surface的情况做了一个理论分析, 即证明足够大的神经网络能够逼近所有的低维损失patterns. 相关工作 loss landscape 的提及. 文中多处用到了universal approximators. 主要内容 引理1 \(\mathcal{F}\)定义了…
作者简介: 吴天龙  香侬科技researcher 公众号(suanfarensheng) 导言 图(graph)是一个非常常用的数据结构,现实世界中很多很多任务可以描述为图问题,比如社交网络,蛋白体结构,交通路网数据,以及很火的知识图谱等,甚至规则网格结构数据(如图像,视频等)也是图数据的一种特殊形式,因此图是一个很值得研究的领域. 针对graph的研究可以分为三类: 1.经典的graph算法,如生成树算法,最短路径算法,复杂一点的二分图匹配,费用流问题等等: 2.概率图模型,将条件概率表达为…
在NLP任务中,训练数据一般是一句话(中文或英文),输入序列数据的每一步是一个字母.我们需要对数据进行的预处理是:先对这些字母使用独热编码再把它输入到RNN中,如字母a表示为(1, 0, 0, 0, …,0),字母b表示为(0, 1, 0, 0, …, 0).如果只考虑小写字母a~z,那么每一步输入的向量的长度是26.如果一句话有1000个单词,我们需要使用 (1000, ) 维度的独热编码表示每一个单词. 缺点: 每一步输入的向量维数会非常大 在独热表示中,所有的单词之间都是平等的,单词间的依…
卷积神经网络发展趋势.Perceptron(感知机),1957年,Frank Resenblatt提出,始祖.Neocognitron(神经认知机),多层级神经网络,日本科学家Kunihiko fukushima,20世纪80年代提出,一定程度视觉认知功能,启发卷积神经网络.LeNet-5,CNN之父,Yann LeCun,1997年提出,首次多层级联卷积结构,手写数字有效识别.2012年,Hinton学生Alex,8层卷积神经网络,ILSVRC 2012比赛冠军.AlexNet 成功应用ReL…
From: https://www.youtube.com/watch?v=pw187aaz49o Ref: http://blog.csdn.net/abcjennifer/article/details/46397829 Ref: Word2Vec (Part 1): NLP With Deep Learning with Tensorflow (Skip-gram) [Nice!] Ref: Word2Vec (Part 2): NLP With Deep Learning with Te…
导读 本文简单的介绍了Google 于 2013 年开源推出的一个用于获取 word vector 的工具包(word2vec),并且简单的介绍了其中的两个训练模型(Skip-gram,CBOW),以及两种加速的方法(Hierarchical Softmax,Negative Sampling). 一 .word2vec word2vec最初是由Tomas Mikolov 2013年在ICLR发表的一篇文章[Efficient Estimation of Word Representations…
Lecture note 5: word2vec + manage experiments Word2vec Most of you are probably already familiar with word embedding and understand the importance of a model like word2vec. For those who aren't, Stanford CS 224N's lecture on word vectors is a great r…
基本信息 文献:Predict Anchor Links across Social Networks via an Embedding Approach 时间:2016 期刊:IJCAI 引言 预测跨社交网络的锚链接对于一系列应用具有重要意义,包括跨网络信息扩散和跨域推荐.一个具有挑战性的问题是:如果只有网络的结构信息可用,我们是否能够以及在多大程度上解决锚链预测问题. 有关锚链接的信息通常在实际情况下不可用,因为大多数用户没有动机或不愿意在不同的在线社交网络中明确关联他们的身份.这就引出了锚…
使用TensorFlow v2.0实现Word2Vec算法计算单词的向量表示,这个例子是使用一小部分维基百科文章来训练的. 更多信息请查看论文: Mikolov, Tomas et al. "Efficient Estimation of Word Representations in Vector Space.", 20131 from __future__ import division, print_function, absolute_import import collect…
word2vec是google 2013年提出的,从大规模语料中训练词向量的模型,在许多场景中都有应用,信息提取相似度计算等等.也是从word2vec开始,embedding在各个领域的应用开始流行,所以拿word2vec来作为开篇再合适不过了.本文希望可以较全面的给出Word2vec从模型结构概述,推导,训练,和基于tf.estimator实现的具体细节.完整代码戳这里https://github.com/DSXiangLi/Embedding 模型概述 word2vec模型结构比较简单,是为…
Paper Information 论文作者:Zhen Peng.Wenbing Huang.Minnan Luo.Q. Zheng.Yu Rong.Tingyang Xu.Junzhou Huang论文来源:WWW 2020论文地址:download代码地址:download 前言 1.自监督学习(Self-supervised):属于无监督学习,其核心是自动为数据打标签(伪标签或其他角度的可信标签,包括图像的旋转.分块等等),通过让网络按照既定的规则,对数据打出正确的标签来更好地进行特征表示…
Paper Information 论文作者:Zhen Peng.Wenbing Huang.Minnan Luo.Q. Zheng.Yu Rong.Tingyang Xu.Junzhou Huang论文来源:WWW 2020论文地址:download代码地址:download 前言 1.自监督学习(Self-supervised):属于无监督学习,其核心是自动为数据打标签(伪标签或其他角度的可信标签,包括图像的旋转.分块等等),通过让网络按照既定的规则,对数据打出正确的标签来更好地进行特征表示…
This article come from HEREARS-L1: Learning Tuesday 10:30–12:30; Oral Session; Room: Leonard de Vinci 10:30  ARS-L1.1—GROUP STRUCTURED DIRTY DICTIONARY LEARNING FOR CLASSIFICATION Yuanming Suo, Minh Dao, Trac Tran, Johns Hopkins University, USA; Hojj…