dataloader类别不平衡

2024-08-30

如何解决数据类别不平衡问题（Data with Imbalanced Class）

类别不平衡问题是指:在分类任务中,数据集中来自不同类别的样本数目相差悬殊. 类别不平衡问题会造成这样的后果:在数据分布不平衡时,其往往会导致分类器的输出倾向于在数据集中占多数的类别:输出多数类会带来更高的分类准确率,但在我们所关注的少数类中表现不佳. 处理这个问题通常有3种方法: 1. 欠采样假设数据集中反例占大多数,那么去除一些反例使得正.反例数目接近,然后再进行学习.由于丢弃了很多反例,分类器训练集会远小于初始训练集.欠采样的缺点是可能会丢失一些重要信息.因此通常利用集成学习机制,将反例划

机器学习之类别不平衡问题 (2) —— ROC和PR曲线

机器学习之类别不平衡问题 (1) -- 各种评估指标机器学习之类别不平衡问题 (2) -- ROC和PR曲线完整代码 ROC曲线和PR(Precision - Recall)曲线皆为类别不平衡问题中常用的评估方法,二者既有相同也有不同点.本篇文章先给出ROC曲线的概述.实现方法.优缺点,再阐述PR曲线的各项特点,最后给出两种方法各自的使用场景. ROC曲线 ROC曲线常用于二分类问题中的模型比较,主要表现为一种真正例率 (TPR) 和假正例率 (FPR) 的权衡.具体方法是在不同的分类阈值

机器学习类别不平衡处理之欠采样（undersampling）

类别不平衡就是指分类任务中不同类别的训练样例数目差别很大的情况常用的做法有三种,分别是1.欠采样, 2.过采样, 3.阈值移动由于这几天做的project的target为正值的概率不到4%,且数据量足够大,所以我采用了欠采样: 欠采样,即去除一些反例使得正.反例数目接近,然后再进行学习,基本的算法如下: def undersampling(train, desired_apriori): # Get the indices per target value idx_0 = train[tra

类别不平衡问题和Softmax回归

目录类别不平衡(class-imbalance) Softmax回归模型类别不平衡(class-imbalance) 当不同类别的训练样本数目差别很大,则会对学习过程造成困扰.如有998个反例,但正例只有2个. 从线性分类器的角度讨论,用\(y=w^Tx+b\)对新样本\(x\)进行分类时,事实上是在用预测出的\(y\)值与一个阈值进行比较.如通过在\(y>0.5\)时判别为正例,否则为反例.几率\(\frac{y}{1-y}\)则反映了正例可能性与反例可能性之比值.阈值设为0.5表明分类器

类别不平衡问题之SMOTE算法（Python imblearn极简实现）

类别不平衡问题类别不平衡问题,顾名思义,即数据集中存在某一类样本,其数量远多于或远少于其他类样本,从而导致一些机器学习模型失效的问题.例如逻辑回归即不适合处理类别不平衡问题,例如逻辑回归在欺诈检测问题中,因为绝大多数样本都为正常样本,欺诈样本很少,逻辑回归算法会倾向于把大多数样本判定为正常样本,这样能达到很高的准确率,但是达不到很高的召回率.类别不平衡问题在很多场景中存在,例如欺诈检测,风控识别,在这些样本中,黑样本(一般为存在问题的样本)的数量一般远少于白样本(正常样本).上采样(过采样)和下

Focal Loss（RetinaNet）笔记一种减小类别不平衡影响的方法

Paper: https://arxiv.org/abs/1708.02002 还参考了:https://www.jianshu.com/p/8e501a159b28 其中p是预测属于某类的概率.

解决sklearn 随机森林数据不平衡的方法

Handle Imbalanced Classes In Random Forest Preliminaries # Load libraries from sklearn.ensemble import RandomForestClassifier import numpy as np from sklearn import datasets Load Iris Flower Dataset # Load data iris = datasets.load_iris() X = iris.

处理样本不平衡的LOSS—Focal Loss

0 前言 Focal Loss是为了处理样本不平衡问题而提出的,经时间验证,在多种任务上,效果还是不错的.在理解Focal Loss前,需要先深刻理一下交叉熵损失,和带权重的交叉熵损失.然后我们从样本权利的角度出发,理解Focal Loss是如何分配样本权重的.Focal是动词Focus的形容词形式,那么它究竟Focus在什么地方呢? 1 交叉熵 1.1 交叉熵损失(Cross Entropy Loss) 有\(N\)个样本,输入一个\(C\)分类器,得到的输出为\(X\in \mathcal{

计算机视觉--CV技术指南文章汇总

前言本文汇总了过去本公众号原创的.国外博客翻译的.从其它公众号转载的.从知乎转载的等一些比较重要的文章,并按照论文分享.技术总结三个方面进行了一个简单分类.点击每篇文章标题可阅读详细内容欢迎关注公众号 CV技术指南 ,专注于计算机视觉的技术总结.最新技术跟踪.经典论文解读. 今年是进入计算机视觉领域的第四年,做公众号的第一年,写了不少原创文章,从国外博客上翻译了不少我认为比较不错的文章,也从知乎上找了不少不错的文章在经作者授权后转载到公众号. 整体上来说,这一年基本保持初心,始终在做一

论文笔记之：Fully-Convolutional Siamese Networks for Object Tracking

gansh Fully-Convolutional Siamese Network for Object Tracking 摘要:任意目标的跟踪问题通常是根据一个物体的外观来构建表观模型．虽然也取得了不错的效果,但是他们这些 online-only approach 限制了模型可以学到的模型的丰富性．最近,已经有几个尝试开始探索深度卷积网络的强大的表达能力(express power)．但是,当跟踪目标提前未知时,需要在线的执行 SGD 来适应网络的权重,严重的影响了系统的速度．本文中,我们提出

xgboost-python参数深入理解

由于在工作中应用到xgboost做特征训练预测,因此需要深入理解xgboost训练过程中的参数的意思和影响. 通过search,https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/中有很详细的解释. 结合自身调参的运用,主要记录内容如下: 1.简介xgboost 2.参数理解 3.参数调优 xgboost参数 xgboost的参数可以分为三种类

【深度学习】目标检测算法总结（R-CNN、Fast R-CNN、Faster R-CNN、FPN、YOLO、SSD、RetinaNet）

目标检测是很多计算机视觉任务的基础,不论我们需要实现图像与文字的交互还是需要识别精细类别,它都提供了可靠的信息.本文对目标检测进行了整体回顾,第一部分从RCNN开始介绍基于候选区域的目标检测器,包括Fast R-CNN.Faster R-CNN 和 FPN等.第二部分则重点讨论了包括YOLO.SSD和RetinaNet等在内的单次检测器,它们都是目前最为优秀的方法. 一.基于候选区域的目标检测器 1.1 滑动窗口检测器自从 AlexNet 获得 ILSVRC 2012 挑战赛冠军后,用 CN

Day3 《机器学习》第三章学习笔记

这一章也是本书基本理论的一章,我对这章后面有些公式看的比较模糊,这一会章涉及线性代数和概率论基础知识,讲了几种经典的线性模型,回归,分类(二分类和多分类)任务. 3.1 基本形式给定由d个属性描述的示例 x =(x1:x2:… :xd),其中xi是x在第i个属性上的取值,线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即: f(x) = w1x1 + w2x2 + … + wdxd + b 一般用向量形式写成: f(x) = wTx + b 其中x =(x1

从线性模型（linear model）衍生出的机器学习分类器（classifier）

1. 线性模型简介 0x1:线性模型的现实意义在一个理想的连续世界中,任何非线性的东西都可以被线性的东西来拟合(参考Taylor Expansion公式),所以理论上线性模型可以模拟物理世界中的绝大多数现象.而且因为线性模型本质上是均值预测,而大部分事物的变化都只是围绕着均值而波动,即大数定理. 事物发展的混沌的线性过程中中存在着某种必然的联结.事物的起点,过程,高潮,衰退是一个能被推演的过程.但是其中也包含了大量的偶然性因素,很难被准确的预策,只有一个大概的近似范围.但是从另一方面来说,偶然

论文阅读笔记（七）YOLO

You Only Look Once: Unified, Real-Time Object Detection Joseph Redmon, CVPR, 2016 1. 之前的目标检测工作将分类器用作检测,而YOLO将检测问题看做回归问题,用一个网络端对端地执行检测任务(包括边界框位置和相应的类别概率预测),这使得YOLO可以直接对检测的表现进行优化. 2. YOLO具有如下优点: 速度快且mAP高,YOLO45帧每秒,fast YOLO 155帧每秒(两倍于其他实时检测系统的mAP) 对背景的

算法工程师<深度学习基础>

<深度学习基础> 卷积神经网络,循环神经网络,LSTM与GRU,梯度消失与梯度爆炸,激活函数,防止过拟合的方法,dropout,batch normalization,各类经典的网络结构,各类优化方法 1.卷积神经网络工作原理的直观解释 https://www.zhihu.com/question/39022858 简单来说,在一定意义上,训练CNN就是在训练每一个卷积层的滤波器.让这些滤波器组对特定的模式有高的激活能力,以达到CNN网络的分类/检测等目的. 2.卷积神经网络的复杂度分析 ht

论文阅读笔记五十四：Gradient Harmonized Single-stage Detector（CVPR2019）

论文原址:https://arxiv.org/pdf/1811.05181.pdf github:https://github.com/libuyu/GHM_Detection 摘要尽管单阶段的检测器速度较快,但在训练时存在以下几点不足,正负样本之间的巨大差距,同样,easy,hard样本的巨大差距.本文从梯度角度出发,指出了上面两个不足带来的影响.然后,作者进一步提出了梯度协调机制(GHM)用于避开上面的不足.GHM的思想可以嵌入到用于分类的交叉熵损失或者用于回归的Smooth-L1损失中,

论文阅读笔记五十：CornerNet: Detecting Objects as Paired Keypoints(ECCV2018)

论文原址:https://arxiv.org/pdf/1808.01244.pdf github:https://github.com/princeton-vl/CornerNet 摘要本文提出了目标检测算法的新的模型结构,利用单个卷积网络将框的左上角及右下角两个点组成一对关键点,进而不需要设计在单阶段检测中大量的anchor boxes,同时,引入了corner pooling用于提升角点定位效果. 介绍单阶段检测通过密集的anchor box及后续的增强定位来获得好的检测效果,但使用an

论文阅读笔记四十八：Bounding Box Regression with Uncertainty for Accurate Object Detection(CVPR2019)

论文原址:https://arxiv.org/pdf/1809.08545.pdf github:https://github.com/yihui-he/KL-Loss 摘要大规模的目标检测数据集在进行ground truth 框标记时仍存在这歧义,本文提出新的边界框的回归损失针对边界框的移动及位置方差进行学习,此方法在不增加计算量的基础上提高不同结构定位的准确性.而学习到的位置变化用于在进行NMS处理时合并两个相邻的边界框. 介绍在大规模目标检测数据集中,一些场景下框的标记是存在歧义的,十

论文阅读笔记四十七：Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression(CVPR2019)

论文原址:https://arxiv.org/pdf/1902.09630.pdf github:https://github.com/generalized-iou 摘要在目标检测的评测体系中,IoU是最流行的评价准则.然而,在对边界框的参数进行优化时,常用到距离损失,而按照IOU的标准则是取其最大值,二者之间是有一定差别的.对一个标准进行优化的目标函数是其标准本身.比如,对于2D的坐标对齐的边界框,可以直接使用IoU作为回归损失.然而,该方法存在一个弊端,就是当两个边界框不发生重叠时,Io

dataloader类别不平衡

热门专题