Unsupervised Sentence Representation via Contrastive Learning with Mixing Negatives 论文地址:https://www.aaai.org/AAAI22Papers/AAAI-8081.ZhangY.pdf 代码地址:https://github.com/BDBC-KG-NLP/MixCSE_AAAI2022 动机:困难样本挖掘对训练过程中维持强梯度信号是至关重要的,同时,随机采样负样本对于句子表示是无效的. 为什么…
1,概述 在NLP中孪生网络基本是用来计算句子间的语义相似度的.其结构如下 在计算句子语义相似度的时候,都是以句子对的形式输入到网络中,孪生网络就是定义两个网络结构分别来表征句子对中的句子,然后通过曼哈顿距离,欧式距离,余弦相似度等来度量两个句子之间的空间相似度. 孪生网络又可以分为孪生网络和伪孪生网络,这两者的定义: 孪生网络:两个网络结构相同且共享参数,当两个句子来自统一领域且在结构上有很大的相似度时选择该模型: 伪孪生网络:两个网络结构相同但不共享参数,或者两个网络结构不同,当两个句子结构…
目录 0,可视化的重要性: 1,特征图(feture map) 2,卷积核权重 3,卷积核最匹配样本 4,类别激活图(Class Activation Map/CAM) 5,网络结构的可视化 0,可视化的重要性: 深度学习很多方向所谓改进模型.改进网络都是在按照人的主观思想在改进,常常在说模型的本质是提取特征,但并不知道它提取了什么特征.哪些区域对于识别真正起作用.也不知道网络是根据什么得出了分类结果.为了增强结果的可解释性,需要给出模型的一些可视化图来证明模型或新methods对于任务的作用,…
Libliner 中的-s 参数选择:primal 和dual LIBLINEAR的优化算法主要分为两大类,即求解原问题(primal problem)和对偶问题(dual problem).求解原问题使用的是TRON的优化算法,对偶问题使用的是Coordinate Descent优化算法.总的来说,两个算法的优化效率都较高,但还是有各自更加擅长的场景.对于样本量不大,但是维度特别高的场景,如文本分类,更适合对偶问题求解,因为由于样本量小,计算出来的Kernel Matrix也不大,后面的优化也…
1. 偏差与方差 - 机器学习算法泛化性能分析 在一个项目中,我们通过设计和训练得到了一个model,该model的泛化可能很好,也可能不尽如人意,其背后的决定因素是什么呢?或者说我们可以从哪些方面去改进从而使下次得到的model更加令人满意呢? ”偏差-方差分解(bias-variance decomposition)“是解释学习算法泛化能力性能的一种重要工具.偏差-方差分解试图对学习算法的期望泛化错误率进行拆解. 假设测试样本为x,yd 为 x 在数据集中的标记(注意,有可能出现噪声使得 y…
文章下载地址:A Surface Defect Detection Method Based on Positive Samples 第一部分  论文中文翻译 摘要:基于机器视觉的表面缺陷检测和分类可以大大提高工业生产的效率.利用足够的已标记图像,基于卷积神经网络的缺陷检测方法已经实现了现有技术的检测效果. 然而在实际应用中,缺陷样本或负样本通常难以预先收集,并且手动标记需要耗费大量时间.本文提出了一种仅基于正样本训练的新型缺陷检测框架. 其检测原理是建立一个重建网络,如果它们存在,可以修复样本…
完整代码实现及训练与测试数据:click me 一.任务描述         自然语言通顺与否的判定,即给定一个句子,要求判定所给的句子是否通顺. 二.问题探索与分析         拿到这个问题便开始思索用什么方法来解决比较合适.在看了一些错误的句子之后,给我的第一直觉就是某些类型的词不应该拼接在一起,比如动词接动词(e.g.我打开听见)这种情况基本不会出现在我们的用语中.于是就有了第一个idea基于规则来解决这个问题.但是发现很难建立完善的语言规则也缺乏相关的语言学知识,实现这么完整的一套规…
人脸识别中Softmax-based Loss的演化史  旷视科技 近期,人脸识别研究领域的主要进展之一集中在了 Softmax Loss 的改进之上:在本文中,旷视研究院(上海)(MEGVII Research Shanghai)从两种主要的改进方式——做归一化以及增加类间 margin——展开梳理,介绍了近年来基于 Softmax 的 Loss 的研究进展. 引言 Softmax简介 归一化(Normalization) Weight Normalization Feature Normal…
之前我写过一篇文章,利用bert来生成token级向量(对于中文语料来说就是字级别向量),参考我的文章:<使用BERT模型生成token级向量>.但是这样做有一个致命的缺点就是字符序列长度最长为512(包含[cls]和[sep]).其实对于大多数语料来说已经够了,但是对于有些语料库中样本的字符序列长度都比较长的情况,这就有些不够用了,比如我做一个法院文书领域预测任务,里面的事实部分许多都大于1000字,我做TextCharCNN的时候定义的最大长度为1500(能够涵盖百分之95以上的样本).…
序言: 对于小目标图像分割任务,一副图画中往往只有一两个目标,这样会加大网络训练难度,一般有三种方法解决: 1.选择合适的loss,对网络进行合理优化,关注较小的目标. 2.改变网络结构,使用attention机制. 3.类属attention机制,即先检测目标区域,裁剪后再分割训练. 场景: 现在以U-net网络为基础,使用keras进行实现小目标的分割. Loss函数: 1.Log loss 对于二分类任务,log loss如下: 其中,yi为输入实例xixi​的真实类别, pi为预测输入实…