基于PU-Learning的恶意URL检测——半监督学习的思路来进行正例和无标记样本学习

PU learning问题描述给定一个正例文档集合P和一个无标注文档集U(混合文档集),在无标注文档集中同时含有正例文档和反例文档.通过使用P和U建立一个分类器能够辨别U或测试集中的正例文档 [即想要精确分类U或测试集中的正例文档和反例文档] 应用: 从多个无标注集中学习从不可靠的反例数据中学习发现测试集中的突发文档发现异常值基于PU-Learning的恶意URL检测 from:https://xz.aliyun.com/t/2190 基于PU-Learning的恶意URL检测 Ya-…

基于PU-Learning的恶意URL检测

https://xz.aliyun.com/t/2190 Ya-Lin Zhang, Longfei Li, Jun Zhou, Xiaolong Li, Yujiang Liu, Yuanchao Zhang, Zhi-Hua ZhouNational Key Lab for Novel Software Technology, Nanjing University, ChinaAnt Financial Services Group, China来源: CCS’17 https://dl.a…

基于深度学习的安卓恶意应用检测----------android manfest.xml + run time opcode, use 深度置信网络（DBN）

基于深度学习的安卓恶意应用检测 from:http://www.xml-data.org/JSJYY/2017-6-1650.htm 苏志达, 祝跃飞, 刘龙摘要: 针对传统安卓恶意程序检测技术检测准确率低,对采用了重打包和代码混淆等技术的安卓恶意程序无法成功识别等问题,设计并实现了DeepDroid算法.首先,提取安卓应用程序的静态特征和动态特征,结合静态特征和动态特征生成应用程序的特征向量:然后,使用深度学习算法中的深度置信网络(DBN)对收集到的训练集进行训练,生成深度学习网络:…

Generalizing from a Few Examples: A Survey on Few-Shot Learning(从几个例子总结经验：少样本学习综述)

摘要:人工智能在数据密集型应用中取得了成功,但它缺乏从有限的示例中学习的能力.为了解决这一问题,提出了少镜头学习(FSL).利用先验知识,可以快速地从有限监督经验的新任务中归纳出来.为了全面了解FSL,我们进行了一项调查研究.我们首先要澄清对FSL的正式定义.进而得出不可靠经验风险最小化是FSL的核心问题.基于如何利用先验知识来处理核心问题,我们将不同的FSL方法分为三类:数据利用先验知识来增加监督经验,模型利用先验知识来约束假设空间,算法利用先验知识改变对假设空间中最优假设参数的搜索.在这种统…

AI之强化学习、无监督学习、半监督学习和对抗学习

1.强化学习 @ 目录 1.强化学习 1.1 强化学习原理 1.2 强化学习与监督学习 2.无监督学习 3.半监督学习 4.对抗学习强化学习(英语:Reinforcement Learning,简称RL)是机器学习中的一个领域,是除了监督学习和非监督学习之外的第三种基本的机器学习方法. 强调如何基于环境而行动,以取得最大化的预期利益[1]. 与监督学习不同的是,强化学习不需要带标签的输入输出对,同时也无需对非最优解的精确地纠正. 1.1 强化学习原理强化学习是从动物学习.参数扰动自适应控制等…

PU Learning简介:对无标签数据进行半监督分类

当只有几个正样本,你如何分类无标签数据假设您有一个交易业务数据集.有些交易被标记为欺诈,其余交易被标记为真实交易,因此您需要设计一个模型来区分欺诈交易和真实交易. 假设您有足够的数据和良好的特征,这似乎是一项简单的分类任务. 但是,假设数据集中只有15%的数据被标记,并且标记的样本仅属于一类,即训练集15%的样本标记为真实交易,而其余样本未标记,可能是真实交易样本,也可能是欺诈样本.您将如何对其进行分类? 样本不均衡问题是否使这项任务变成了无监督学习问题? 好吧,不一定. 此问题通常被称为PU…

机器学习&恶意代码检测简介

Malware detection 目录可执行文件简介检测方法概述资源及参考文献可执行文件简介 ELF(Executable Linkable Format) linux下的可执行文件格式,按照ELF格式编写的文件包括:.so..a等 PE(Portable Executable) windows下的可执行文件格式,按照PE格式编写的文件包括: .dll..lib..exe等参考文献[3]中对ELF的各个字段作了详细介绍 Linux和Windows可执行文件分类: ELF文件类型说明…

基于Deep Learning 的视频识别方法概览

深度学习在最近十来年特别火,几乎是带动AI浪潮的最大贡献者.互联网视频在最近几年也特别火,短视频.视频直播等各种新型UGC模式牢牢抓住了用户的消费心里,成为互联网吸金的又一利器.当这两个火碰在一起,会产生什么样的化学反应呢? 不说具体的技术,先上一张福利图,该图展示了机器对一个视频的认知效果.其总红色的字表示objects, 蓝色的字表示scenes,绿色的字表示activities. 图1 人工智能在视频上的应用主要一个课题是视频理解,努力解决“语义鸿沟”的问题,其中包括了: · 视频…

搭建基于SornaQube的自动化安全代码检测平台

一.背景和目的近年来,随着新业务.新技术的快速发展,应用软件安全缺陷层出不穷.虽然一般情况下,开发者基本都会有单元测试.每日构建.功能测试等环节来保证应用的可用性.但在安全缺陷方面,缺乏安全意识.技能和工具,最终导致了安全缺陷的出现. 对于软件开发安全意识和软件开发安全技能方面本文中不再做详述,软件开发者可通过培训和实践提高自身意识和技能,本文目的主要是提供一种思路和方法,让软件开发者像测试软件功能一样,测试软件安全缺陷,并且能够融入到整个的软件开发过程中. 二.自动化安全代码检测平台概述 2…

恶意代码检测工具 -- Mathematics Malware Detected Tools

Mathematics Malware Detected Tools 重要:由于缺少测试数据,部分结论可能不正确.更多更准确的结论,还需要进行大量实验. 概述 mmdt(Mathematics Malware Detected Tools)是一款基于数学方法的最简单的类"机器学习"工具.该工具通过数学方法对目标对象进行处理,生成相应的标准"指纹",通过对指纹的处理,实现"机器学习"中的"分类"."聚类"方法…

【新人赛】阿里云恶意程序检测 -- 实践记录10.13 - Google Colab连接 / 数据简单查看 / 模型训练

1. 比赛介绍比赛地址:阿里云恶意程序检测新人赛这个比赛和已结束的第三届阿里云安全算法挑战赛赛题类似,是一个开放的长期赛. 2. 前期准备因为训练数据量比较大,本地CPU跑不起来,所以决定用Google的Colaboratory来跑,期间也遇到了几个坑. 首先是文件上传比较慢,几个G的文件直接上传比较耗时,上传压缩包后解压又出现了问题,最后还是得等着上传完,期间换了好几个VPN节点. 解压缩的问题:用unzip命令解压,速度很慢,经常解压到一半就不动了或者与colab的连接断掉了(可能是网…

Graylog2进阶打造基于Nginx日志的Web入侵检测分析系统

对于大多数互联网公司,基于日志分析的WEB入侵检测分析是不可或缺的. 那么今天我就给大家讲一讲如何用graylog的extractor来实现这一功能. 首先要找一些能够识别的带有攻击行为的关键字作为匹配的规则. 由于我不是专门搞安全的,所以在网上找了一些软waf的规则脚本. 剩下来的工作就可以交给Graylog的extractor实现了. 这次介绍一下extractor的Copy input用法. (1)waf规则脚本如下: \.\./ select.+(from|limit) (?:(unio…

【论文解读】【半监督学习】【Google教你水论文】A Simple Semi-Supervised Learning Framework for Object Detection

题记:最近在做LLL(Life Long Learning),接触到了SSL(Semi-Supervised Learning)正好读到了谷歌今年的论文,也是比较有点开创性的,浅显易懂,对比实验丰富,非常适合缺乏基础科学常识和刚刚读研不会写论文的同学读一读,触类旁通嘛. 这篇论文思路等等也非常适合刚刚开始做学术时候写文论参考使用,你看,它有创造性(半监督学习用在了目标检测上),理论基础扎实(体现在专业词汇丰富,也介绍了其他相关论文,做个小综述论文都够了),工作量够够的(大量的对比试验),实验效果…

基于COCO数据集验证的目标检测算法天梯排行榜

基于COCO数据集验证的目标检测算法天梯排行榜 AP50 Rank Model box AP AP50 Paper Code Result Year Tags 1 SwinV2-G (HTC++) 63.1 Swin Transformer V2: Scaling Up Capacity and Resolution Link 2021 Swin-Transformer 2 Florence-CoSwin-H 62.4 Florence: A New Foundation Model for C…

基于模糊Choquet积分的目标检测算法

本文根据论文:Fuzzy Integral for Moving Object Detection-FUZZ-IEEE_2008的内容及自己的理解而成,如果想了解更多细节,请参考原文.在背景建模中,我们对于像素的分类总是采用非此即彼的方式来分,即该像素要么是背景要么是前景.然而,由于噪声.光照变化以及阴影等特殊情况导致像素会存在错误,即像素存在一定的不确定性.为了处理这种不确定性,本文提出了基于模型Choquet积分的目标检测算法. 首先,我们来看看这个算法的基本流程,如下图所示. 从上图可以看…

深度学习与计算机视觉(11)_基于deep learning的快速图像检索系统

深度学习与计算机视觉(11)_基于deep learning的快速图像检索系统作者:寒小阳时间:2016年3月. 出处:http://blog.csdn.net/han_xiaoyang/article/details/50856583 声明:版权所有,转载请联系作者并注明出处 1.引言本系统是基于CVPR2015的论文<Deep Learning of Binary Hash Codes for Fast Image Retrieval>实现的海量数据下的基于内容图片检索系统,250w…

基于Android平台的简易人脸检测库

代码地址如下:http://www.demodashi.com/demo/12135.html ViseFace 简易人脸检测库,不依赖三方库,可快速接入人脸检测功能. 项目依赖:compile 'com.vise.xiaoyaoyou: viseface:1.0.0' 为什么打造该库 1.想简单快速接入人脸检测功能: 2.Google 提供的人脸检测功能部分手机无法适配: 3.第三方提供的人脸检测功能接入门槛过高: 4.依赖第三方库会增加 APK 大小. 功能介绍 1.可快速识别人脸: 2.可…

(转)nginx下基于ThinkPHP框架的网站url重写

nginx下基于ThinkPHP框架的网站url重写nginx下的基于thinkphp的应用的url重写,需了解thinkphp的各种url格式参数的处理逻辑以及nginx重写的原理.简单点说,无论哪种url格式,nginx都需要执行ThinkPHP下的应用单一入口文件,然后将各种url格式按照一定的格式规则进行进行参数化处理,最终执行指定模块与控制器:这个过程用户是看不到的,用户只能看到各种规则的url,这些url的规则如下: #第一种普通get多参数方式 htt://www.jb100.n…

每天进步一点点------Sobel算子（3）基于彩色图像边缘差分的运动目标检测算法

摘要: 针对目前常用的运动目标提取易受到噪声影响.易出现阴影和误检漏检等情况,提出了一种基于Sobel算子的彩色边缘图像检测和帧差分相结合的检测方法.首先用Sobel算子提取视频流中连续4帧图像的彩色边缘图像,然后将边缘图像进行隔帧差分相与,提取出较精确的运动目标边缘轮廓.提取的轮廓经过一系列的形态学操作填充,可得到完整的运动目标.实验结果表明,该方法对运动目标边缘轮廓提取准确,抗噪摘要: 针对目前常用的运动目标提取易受到噪声影响.易出现阴影和误检漏检等情况,提出了一种基于Sobel算…

PyTorch专栏（八）：微调基于torchvision 0.3的目标检测模型

专栏目录: 第一章:PyTorch之简介与下载 PyTorch简介 PyTorch环境搭建第二章:PyTorch之60分钟入门 PyTorch入门 PyTorch自动微分 PyTorch神经网络 PyTorch图像分类器 PyTorch数据并行处理第三章:PyTorch之入门强化数据加载和处理 PyTorch小试牛刀迁移学习混合前端的seq2seq模型部署保存和加载模型第四章:PyTorch之图像篇微调基于torchvision 0.3的目标检测模型微调TorchVision模…

基于YOLO和PSPNet的目标检测与语义分割系统(python)

基于YOLO和PSPNet的目标检测与语义分割系统源代码地址概述这是我的本科毕业设计它的主要功能是通过YOLOv5进行目标检测,并使用PSPNet进行语义分割. 本项目YOLOv5部分代码基于 ultralytics YOLO V5 tag v5.0 . 相应地,我也使用了ultralytics/YOLOv5的预训练模型. 我通常使用两个最简单的预训练模型--yolov5s.pt和yolov5s.pt.你可以在./weights中直接看到它们. 在语义分割部分,我使用了PSPNet(全称…

positive-unlabeled (PU) learning

PULearning的应用场景是,我们可以清晰地确定正样本,但是不能确定负样本,因为它有可能是正样本,只是我们还没有证明. 这时我们可以把这部分不确定的样本称为无标签样本U,加上正样本P来建立模型. 问题可以转化为一个有约束条件的最优化问题: 在保证正例中错误率低于1-r的条件下,最小化无标签样本中U的正例数目. 建立PU分类器有两种方法: 两步方法two- step approach 直接方法direct approach two-step approach: 第一阶段:从未标记实例中选择可靠…

利用DP-SSL对少量的标记样本进行有效的半监督学习

作者 | Doreen 01 介绍深度学习之所以能在图像分类.自然语言处理等方面取得巨大成功的原因在于大量的训练数据得到了高质量的标注. 然而在一些极其复杂的场景(例如:无人驾驶)中会产生海量的数据,对这些数据进行标注将会产生大量的时间成本和人工成本. 近些年,研究人员提出了active learning, crowd labeling, distant supervision,semi/weak/self-supervision等方法试图缓解人工标记的工作量.其中,半监督学习 (SSL)是运…

虚拟对抗训练（VAT）：一种用于监督学习和半监督学习的正则化方法

正则化虚拟对抗训练是一种正则化方法,正则化在深度学习中是防止过拟合的一种方法.通常训练样本是有限的,而对于深度学习来说,搭设的深度网络是可以最大限度地拟合训练样本的分布的,从而导致模型与训练样本分布过分接近,还把训练样本中的一些噪声也拟合进去了,甚至于最极端的,训练出来的模型只能判断训练样本,而测试样本变成了随机判断.所以为了让模型泛化地更好,正则化是很有必要的. 最常见的正则化是直接对模型的参数的大小进行限制,比如将参数(整合为向量$\theta$)的$L_2$范数: $\displayst…

sklearn半监督学习

标签: 半监督学习作者:炼己者欢迎大家访问我的简书以及我的博客本博客所有内容以学习.研究和分享为主,如需转载,请联系本人,标明作者和出处,并且是非商业用途,谢谢! --- 摘要:半监督学习很重要,为什么呢?因为人工标注数据成本太高,现在大家参加比赛的数据都是标注好的了,那么如果老板给你一份没有标注的数据,而且有几百万条,让你做个分类什么的,你怎么办?不可能等标注好数据再去训练模型吧,所以你得会半监督学习算法. 不过我在这里先打击大家一下,用sklearn的包做不了大数据量的半监督学习…

python大战机器学习——半监督学习

半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数.它是一类可以自动地利用未标记的数据来提升学习性能的算法 1.生成式半监督学习优点:方法简单,容易实现.通常在有标记数据极少时,生成式半监督学习方法比其他方法性能更好缺点:假设的生成式模型必须与真实数据分布吻合.如果不吻合则可能效果很差.而如何给出与真实数据分布吻合的生成式模型,这就需要对问题领域的充分了解 2.图半监督学习 (1)标记传播算法: 优点:概念清晰缺点:存储开销大,难以直接处理大规模数据:而且对于新的样本加…

【半监督学习】MixMatch、UDA、ReMixMatch、FixMatch

半监督学习(Semi-Supervised Learning,SSL)的 SOTA 一次次被 Google 刷新,从 MixMatch 开始,到同期的 UDA.ReMixMatch,再到 2020 年的 FixMatch. 目录 Consistency Regularization Entropy Minimization 结合 Consistency Regularization 和 Entropy Minimization FixMatch: Simplifying SSL with Con…

Zero-shot learning（零样本学习）

一.介绍在传统的分类模型中,为了解决多分类问题(例如三个类别:猫.狗和猪),就需要提供大量的猫.狗和猪的图片用以模型训练,然后给定一张新的图片,就能判定属于猫.狗或猪的其中哪一类.但是对于之前训练图片未出现的类别(例如牛),这个模型便无法将牛识别出来,而ZSL就是为了解决这种问题.在ZSL中,某一类别在训练样本中未出现,但是我们知道这个类别的特征,然后通过语料知识库,便可以将这个类别识别出来. zero-shot learning的一个重要理论基础就是利用高维语义特征代替样本的低维特征,使得训…

如何开发一个异常检测系统：异常检测 vs 监督学习

异常检测算法先是将一些正常的样本做为无标签样本来学习模型p(x),即评估参数,然后用学习到的模型在交叉验证集上通过F1值来选择表现最好的ε的值,然后在测试集上进行算法的评估.这儿用到了带有标签的数据,那么为什么不直接用监督学习对y=1和y=0的数据进行学习呢?而是要用到异常检测算法(先对无标签数据进行建模(当成无标签数据,其实都是正常的样本)). 异常检测与监督学习有哪些区别? 异常检测系统中一般正例样本(即异常的样本)很少(一般0-20个或者50个,50也是很常见的),这些异常样本用于交叉验证…

吴裕雄 python 机器学习——半监督学习LabelSpreading模型

import numpy as np import matplotlib.pyplot as plt from sklearn import metrics from sklearn import datasets from sklearn.semi_supervised.label_propagation import LabelSpreading def load_data(): ''' 加载数据集 ''' digits = datasets.load_digits() ###### 混洗样…

【基于PU-Learning的恶意URL检测——半监督学习的思路来进行正例和无标记样本学习】的更多相关文章