sklearn—无监督最近邻】的更多相关文章

无监督最近邻 NearestNeighbors (最近邻)实现了 unsupervised nearest neighbors learning(无监督的最近邻学习). 它为三种不同的最近邻算法提供统一的接口:BallTree, KDTree, 还有基于 sklearn.metrics.pairwise 的 brute-force 算法.算法的选择可通过关键字 'algorithm' 来控制, 并必须是 ['auto', 'ball_tree', 'kd_tree', 'brute'] 其中的一…
OneClassSVM两个功能:异常值检测.解决极度不平衡数据 因为之前一直在做非平衡样本分类的问题,其中如果有一类比例严重失调,就可以直接用这个方式来做:OneClassSVM:OneClassSVM还有一个功能就是异常值检测. 其他我的相关博客: 1.机器学习︱非平衡数据处理方式与评估 2.RFM模型+SOM聚类︱离群值筛选问题 3.R语言︱异常值检验.离群点分析.异常值处理 台湾大学林智仁所设计和实现的库LibSVM(地址:http://www.csie.ntu.edu.tw/~cjlin…
原文链接:http://m.blog.csdn.net/article/details?id=49591213 1. 前言 在学习深度学习的过程中,主要参考了四份资料: 台湾大学的机器学习技法公开课: Andrew NG的深度学习教程: Li feifei的CNN教程: caffe官网的教程: 对比过这几份资料,突然间产生一个困惑:台大和Andrew的教程中用了很大的篇幅介绍了无监督的自编码神经网络,但在Li feifei的教程和caffe的实现中几乎没有涉及.当时一直搞不清这种现象的原因,直到…
词义消歧,句子.篇章语义理解基础,必须解决.语言都有大量多种含义词汇.词义消歧,可通过机器学习方法解决.词义消歧有监督机器学习分类算法,判断词义所属分类.词义消歧无监督机器学习聚类算法,把词义聚成多类,每一类一种含义. 有监督词义消歧方法.基于互信息词义消歧方法,两种语言对照,基于大量中英文对照语料库训练模型可词义消歧.来源信息论,一个随机变量中包含另一个随机变量信息量(英文信息中包含中文信息信息量),假设两个随机变量X.Y的概率分别是p(x), p(y),联合分布概率是p(x,y),互信息计算…
使用google翻译自:https://software.seek.intel.com/dealing-with-outliers 数据分析中的一项具有挑战性但非常重要的任务是处理异常值.我们通常将异常值定义为与其余数据群1不一致的样本或事件.异常值通常包含有关影响数据生成过程2的系统和实体的异常特征的有用信息. 异常检测算法的常见应用包括: 入侵检测系统信用卡诈骗有趣的传感器事件医学诊断在本文中,我们将重点介绍异常检测 - 信用卡欺诈的最常见应用之一.通过一些简单的离群值检测方法,可以在真实世…
1. 引言 word embedding技术如word2vec,glove等已经广泛应用于NLP,极大地推动了NLP的发展.既然词可以embedding,句子也应该可以(其实,万物皆可embedding,Embedding is All You Need ^_^).近年来(2014-2018),许多研究者在研究如何进行句子表示学习,从而获得质量较高的句子向量(sentence embedding).事实上,sentence embedding在信息检索,句子匹配,句子分类等任务上均有广泛应用,并…
http://m.blog.csdn.net/article/details?id=49591213 1. 前言 在学习深度学习的过程中,主要参考了四份资料: 台湾大学的机器学习技法公开课: Andrew NG的深度学习教程: Li feifei的CNN教程: caffe官网的教程: 对比过这几份资料,突然间产生一个困惑:台大和Andrew的教程中用了很大的篇幅介绍了无监督的自编码神经网络,但在Li feifei的教程和caffe的实现中几乎没有涉及.当时一直搞不清这种现象的原因,直到翻阅了深度…
实验了效果,下面的还是图像的异常检测居多. https://github.com/LeeDoYup/AnoGAN https://github.com/tkwoo/anogan-keras 看了下,本质上是半监督学习,一开始是有分类模型的.代码如下,生产模型和判别模型: ### generator model define def generator_model(): inputs = Input((10,)) fc1 = Dense(input_dim=10, units=128*7*7)(i…
UFLDL深度学习笔记 (三)无监督特征学习 1. 主题思路 "UFLDL 无监督特征学习"本节全称为自我学习与无监督特征学习,和前一节softmax回归很类似,所以本篇笔记会比较简化,主题思路和步骤如下: 把有标签数据分为两份,先对一份原始数据做无监督的稀疏自编码训练,获得输入层到隐藏层的最优化权值参数\(W, b\): 把另一份数据分成分成训练集与测试集,都送入该参数对应的第一层网络(去掉输出层的稀疏自编码网络): 用训练集输出的特征作为输入,训练softmax分类器: 再用此参数…
參考:http://scikit-learn.org/stable/modules/clustering.html 在实际项目中,我们真的非常少用到那些简单的模型,比方LR.kNN.NB等.尽管经典,但在project中确实不有用. 今天我们不关注详细的模型,而关注无监督的聚类方法. 之所以关注无监督聚类方法.是由于.在实际项目中,我们除了使用PCA等方法降维外.有时候我们也会考虑使用聚类的方法降维特征. Overview of clustering methods: A comparison…
自动编码器是一种有三层的神经网络:输入层.隐藏层(编码层)和解码层.该网络的目的是重构其输入,使其隐藏层学习到该输入的良好表征. 自动编码器神经网络是一种无监督机器学习算法,其应用了反向传播,可将目标值设置成与输入值相等.自动编码器的训练目标是将输入复制到输出.在内部,它有一个描述用于表征其输入的代码的隐藏层. 自动编码器的目标是学习函数 h(x)≍x.换句话说,它要学习一个近似的恒等函数,使得输出 x^ 近似等于输入 x.自动编码器属于神经网络家族,但它们也和 PCA(主成分分析)紧密相关.…
对比一 : 有标签 vs 无标签 有监督机器学习又被称为“有老师的学习”,所谓的老师就是标签.有监督的过程为先通过已知的训练样本(如已知输入和对应的输出)来训练,从而得到一个最优模型,再将这个模型应用在新的数据上,映射为输出结果.再经过这样的过程后,模型就有了预知能力. 而无监督机器学习被称为“没有老师的学习”,无监督相比于有监督,没有训练的过程,而是直接拿数据进行建模分析,意味着这些都是要通过机器学习自行学习探索.这听起来似乎有点不可思议,但是在我们自身认识世界的过程中也会用到无监督学习.比如…
斯坦福Jure Leskovec图表示学习:无监督和有监督方法(附PPT下载) 2017 年 12 月 18 日  专知 专知内容组(编) 不要讲得太清楚 [导读]现实生活中的很多关系都是通过图的形式来表达的,针对图结构数据的分析的一个关键问题就是如何合理的表示图结构的低维特征表示,也即是图表示学习.斯坦福大学的Jure Leskovec是图表示学习方法node2vec和GraphSAGE作者之一,在这次演讲中他分别以这两种方法为例,详细讲解无监督和监督方法的图表示学习. ▌相关论文和代码 论文…
尝试用卷积AE和卷积VAE做无监督检测,思路如下: 1.先用正常样本训练AE或VAE 2.输入测试集给AE或VAE,获得重构的测试集数据. 3.计算重构的数据和原始数据的误差,如果误差大于某一个阈值,则此测试样本为一样. 对于数据集的描述如下: 本数据集一共有10100个样本,每个样本是1行48列的向量,为了让它变成矩阵,自己在末尾补了一个0,将其转变成7*7的矩阵.前8000个是正常样本.后2100个中,前300个是正常样本,之后的1800个中包括6种异常时间序列,每种异常时间序列包括300个…
[导读]今天,DeepMind爆出一篇重磅论文,引发学术圈热烈反响:基于最强图像生成器BigGAN,打造了BigBiGAN,在无监督表示学习和图像生成方面均实现了最先进的性能!Ian Goodfellow也称赞"太酷了!" GAN在图像合成方面一次次让人们惊叹不已! 例如,被称为史上最强图像生成器的BigGAN--许多人看到BigGAN生成的图像都要感叹"太逼真了!DeepMind太秀了吧!" BigGAN生成的逼真图像 这不是最秀的.今天,DeepMind的一篇新…
2017 年,Geoffrey Hinton 在论文<Dynamic Routing Between Capsules>中提出 CapsNet 引起了极大的关注,同时也提供了一个全新的研究的方向.今日,CapsNet 的作者 Sara Sabour.Hinton 老爷子联合牛津大学的研究者提出了胶囊网络的改进版本--堆栈式胶囊自编码器.这种胶囊自编码器可以无监督地学习图像中的特征,并在无监督分类任务取得最佳或接近最佳的表现.这也是胶囊网络第一次在无监督领域取得新的突破. 一个目标可以被看做是一…
   \(LDA\)是一种比较常见的有监督分类方法,常用于降维和分类任务中:而\(PCA\)是一种无监督降维技术:\(k\)-means则是一种在聚类任务中应用非常广泛的数据预处理方法.    本文的主要写作出发点是:探讨无监督情况下,\(LDA\)的类内散度矩阵和类间散度矩阵与\(PCA\)和\(k\)-means之间的联系. 1.常规有监督\(LDA\)的基本原理:   (1) \(LDA\)的目标函数:    关于\(LDA\)的产生及理论推导,大家参考:"线性判别分析LDA原理总结&qu…
原文链接 小样本学习与智能前沿 . 在这个公众号后台回复"200708",即可获得课件电子资源. 为了减轻噪音伪标签的影响,文章提出了一种无监督的MMT(Mutual Mean-Teaching)方法,通过在迭代训练的方式中使用离线精炼硬伪标签和在线精炼软伪标签,来学习更佳的目标域中的特征.同时,还提出了可以让Traplet loss支持软标签的soft softmax-triplet loss". 该方法在域自适应任务方面明显优于所有现有的Person re-ID方法,改进…
文章转自:同作者微信公主号[机器学习炼丹术].欢迎交流,共同进步. 论文名称:SER-FIQ: Unsupervised Estimation of Face Image Quality Based on Stochastic Embedding Robustness 论文链接:https://arxiv.org/abs/2003.09373 0 综述 这可能是我看CVPR论文中,唯一一个5分钟就看完原理的论文了,简单有趣.这一篇文章是CVPR2020的与图像质量评估相关的文章,整体思想比较新颖…
AUSUM: approach for unsupervised bug report summarization 1. Abstract 解决的bug被归类以便未来参考 缺点是还是需要手动的去细读很多的推荐的关于bug的内容 Automatic summarization of bug reports 自动汇总bug报告 之前的研究是基于学习的方法去做bug summarization 需要大量的训练集 倾向于获得模型所产生的数据 运用四种无监督的bug摘要技巧 industrial bug…
无监督域对抗算法:ICCV2019论文解析 Drop to Adapt: Learning Discriminative Features for Unsupervised Domain Adaptation 论文链接: http://openaccess.thecvf.com/content_ICCV_2019/papers/Lee_Drop_to_Adapt_Learning_Discriminative_Features_for_Unsupervised_Domain_Adaptation…
白*衡(Color Constancy,无监督AWB):CVPR2019论文解析 Quasi-Unsupervised Color Constancy 论文链接: http://openaccess.thecvf.com/content_CVPR_2019/papers/Bianco_Quasi-Unsupervised_Color_Constancy_CVPR_2019_paper.pdf 摘要 本文提出了一种计算颜色恒常性的方法,即训练一个深卷积神经网络来检测彩色图像中转换成灰度后的消色差像…
CVPR2020:三维点云无监督表示学习的全局局部双向推理 Global-Local Bidirectional Reasoning for Unsupervised Representation Learning of 3D Point Clouds 论文地址: https://openaccess.thecvf.com/content_CVPR_2020/papers/Rao_Global-Local_Bidirectional_Reasoning_for_Unsupervised_Repr…
LUSE: 无监督数据预训练短文本编码模型 1 前言 本博文本应写之前立的Flag:基于加密技术编译一个自己的Python解释器,经过半个多月尝试已经成功,但考虑到安全性问题就不公开了,有兴趣的朋友私聊讨论吧. 从本篇博客开始,本人将转化写作模式,由话痨模式转为极简模式,力求三言两语让各位看的明白. 2 工作简介 受到MOCO和SimCSE的启发, 基于自监督,使用海量无监督数据(nlp_chinese_corpus),预训练了一个专门用于短文本表征的编码器.该编码器在分类任务尤其是短文本相似度…
摘要:本文提出了两个用于无监督的具备可解释性和鲁棒性时间序列离群点检测的自动编码器框架. 本文分享自华为云社区<解读ICDE'22论文:基于鲁棒和可解释自编码器的无监督时间序列离群点检测算法>,作者:云数据库创新Lab . 导读 本文(Robust and Explainable Autoencoders for Unsupervised Time Series Outlier Detection)是由华为云数据库创新Lab联合丹麦Aalborg University与电子科技大学发表在顶会I…
来源:http://blog.csdn.net/abcjennifer/article/details/7804962 无监督学习近年来很热,先后应用于computer vision, audio classification和 NLP等问题,通过机器进行无监督学习feature得到的结果,其accuracy大多明显优于其他方法进行training.本文将主要针对Andrew的unsupervised learning,结合他的视频:unsupervised feature learning b…
http://blog.csdn.net/abcjennifer/article/details/7804962 无监督学习近年来很热,先后应用于computer vision, audio classification和 NLP等问题,通过机器进行无监督学习feature得到的结果,其accuracy大多明显优于其他方法进行training.本文将主要针对Andrew的unsupervised learning,结合他的视频:unsupervised feature learning by A…
from:http://blog.csdn.net/abcjennifer/article/details/7804962 无监督学习近年来很热,先后应用于computer vision, audio classification和 NLP等问题,通过机器进行无监督学习feature得到的结果,其accuracy大多明显优于其他方法进行training.本文将主要针对Andrew的unsupervised learning,结合他的视频:unsupervised feature learning…
我本来就是处理时间序列异常检测的,之前用了全连接层以及CNN层组成的AE去拟合原始时间序列,发现效果不佳.当利用LSTM组成AE去拟合时间序列时发现,拟合的效果很好.但是,利用重构误差去做异常检测这条路依旧不通,因为发现异常曲线的拟合效果也很好……算了,这次先不打算做时间序列异常检测了.在这里把“基于LSTM的auto-encoder”的代码分享出来. 代码参考了Jason Brownlee大佬修改的:具体链接我找不到了,当他的博客我还能找到,感兴趣自己翻一翻,记得在LSTM网络那一章 http…
先说说他们的产品:企业免疫系统(基于异常发现来识别威胁) 可以看到是面向企业内部安全的! 优点整个网络拓扑的三维可视化企业威胁级别的实时全局概述智能地聚类异常泛频谱观测 - 高阶网络拓扑;特定群集,子网和主机事件可搜索的日志和事件重播历史数据设备和外部IP的整体行为的简明摘要专为业务主管和安全分析师设计100%的能见度 企业免疫系统是世界上最先进的网络防御机器学习技术.受到人体免疫系统自我学习智能的启发,这种新技术在复杂和普遍的网络威胁的新时代中,使组织自我保护方式发生了根本转变. 人体免疫系统…