Python:SMOTE算法 直接用python的库, imbalanced-learn imbalanced-learn is a python package offering a number of re-sampling techniques commonly used in datasets showing strong between-class imbalance. It is compatible with scikit-learn and is part of scikit-l
背景: 做大规模机器学习算法,特别是神经网络最怕什么--没有数据!!没有数据意味着,机器学不会,人工不智能!通常使用样本增强来扩充数据一直都是解决这个问题的一个好方法. 最近的一篇论文<Training Neural Networks with Very Little Data-A Draft>提出了一个新的图像样本增强方法:对图像使用径向变换生成不同"副本",解决样本数量太少难以训练的问题.论文地址:https://arxiv.org/pdf/1708.04347.pdf
硕士论文的研究方向为Android恶意应用分类,因此花了一点时间去搜集Android恶意样本.其中一部分来自过去论文的公开数据集,一部分来自社区或平台的样本.现做一个汇总,标明了样本或数据集的采集时间.样本数量.对于论文以及获取方式. List some android malware datasets in academic research.Some of them are still up to date. 我这里有Drebin的数据集,以及VirusTotal(2018.3)的andro
Focal Loss 与 GHM Focal Loss Focal Loss 的提出主要是为了解决难易样本数量不平衡(注意:这有别于正负样本数量不均衡问题)问题.下面以目标检测应用场景来说明. 一些 one-stage 的目标检测器通常会产生很多数量的 anchor box,但是只有极少数是正样本,导致正负样本数量不均衡.这里假设我们计算分类损失函数为交叉熵公式. 由于在目标检测中,大量的候选目标都是易分样本,这些样本的损失很低,但是由于数量极不平衡,易分样本数量相对来说太多,最终主导了总的损失