一 背景介绍

    不平衡信息,特点是少数信息更珍贵,多数信息没有代表性。所以一般的分类算法会被多数信息影响,而忽略少数信息的重要性。

    解决策略:      

1.数据级别

(1)上采样:增加稀有类成本数

(2)下采样:减少大类样本数

(3)混合方法:结合(1)(2)

2.算法算法级别

(1)代价敏感学习方法:对正类错分赋予更高的代价,从而迫使分类器对正类有更高的识别率。

(2)分类器集成方法:首先数据级技术处理数据分布,然后选择算法级算法进行分类。

    但这些策略都有各自的缺点,比如:上采用会导致过度学习,下采样会损失重要信息,代价敏感方法会使真实的代价很难被准确估计并且很多分类器只是简单的调整正负比    例或决策阈值,效果不好(但支持向量机和决策树可以直接引入)

  二 不平衡信息分类问题

    不平衡率

    FRNN:通过计算每个类的上、下模糊粗糙近似度,为每个实例赋sum值。

    IFROWANN:相对于大量信息,更加注重少量信息;通过OWA模糊粗糙集模型聚合样本的贡献。

  

  三FRNN

    模糊集:注重描述信息的含糊程度。

    粗糙集:强调数据的不可辨别、不确定和模棱两可。

    FRNN算法:

通过引入类模糊隶属度来处理类交叠和噪声存在的情况。

1.采用模糊分类,得到待分类样本x的k个近邻;

2.根据距离,对它们的决策作用加权。

       核心是计算模糊粗糙隶属度。

      

  四 IFROWANN算法

    有序加权平均OWA:

(1)属性值按从小到大的顺序排序

(2)加权聚合

    权重向量的选择:

      

      例子:

  

      

  五 总结

   小结

    IFROWANN对不平衡信息分类问题,不仅优于传统的FRNN算法,而且包括算法级别,代价敏感和集成方法中的最优算法。

   待改善的地方:

1.结合数据级别技术,形成一个具有更好分类性能的集成方法;

2.使用包装方法或根据数据自身特性(不平衡率或数据复杂性特性),自动提取OWA的权重向量和训练集的不可辨别关系。

    多类处理技术:

1.多类问题转化为两类问题处理,未来可以结合OVO + IFROWANN算法设计一个新的技术。

2.修改IFROWANN算法直接处理多类问题。

机器学习:不平衡信息有序平均加权最近邻算法IFROWANN的更多相关文章

  1. 机器学习学习笔记之一:K最近邻算法(KNN)

    算法 假定数据有M个特征,则这些数据相当于在M维空间内的点 \[X = \begin{pmatrix} x_{11} & x_{12} & ... & x_{1M} \\ x_ ...

  2. KNN最近邻算法

    算法概述 K最近邻(K-Nearest Neighbor,KNN)算法,是著名的模式识别统计学方法,在机器学习分类算法中占有相当大的地位.它是一个理论上比较成熟的方法.既是最简单的机器学习算法之一,也 ...

  3. 机器学习【一】K最近邻算法

    K最近邻算法 KNN 基本原理 离哪个类近,就属于该类   [例如:与下方新元素距离最近的三个点中,2个深色,所以新元素分类为深色] K的含义就是最近邻的个数.在sklearn中,KNN的K值是通过n ...

  4. 在opencv3中实现机器学习算法之:利用最近邻算法(knn)实现手写数字分类

    手写数字digits分类,这可是深度学习算法的入门练习.而且还有专门的手写数字MINIST库.opencv提供了一张手写数字图片给我们,先来看看 这是一张密密麻麻的手写数字图:图片大小为1000*20 ...

  5. 【udacity】机器学习-knn最近邻算法

    Evernote Export 1.基于实例的学习介绍 不同级别的学习,去除所有的数据点(xi​,yi​),然后放入一个数据库中,下次直接提取数据 但是这样的实现方法将不能进行泛化,这种方式只能简单的 ...

  6. 机器学习-K最近邻算法

    一.介绍 二.编程 练习一(K最近邻算法在单分类任务的应用): import numpy as np #导入科学计算包import matplotlib.pyplot as plt #导入画图工具fr ...

  7. K最近邻算法

    K最近邻(K-Nearest-Neighbour,KNN)算法是机器学习里简单易掌握的一个算法.通过你的邻居判断你的类型,“近朱者赤,近墨者黑”表达了K近邻的算法思想. 一.算法描述: 1.1 KNN ...

  8. R语言︱机器学习模型评估方案(以随机森林算法为例)

    笔者寄语:本文中大多内容来自<数据挖掘之道>,本文为读书笔记.在刚刚接触机器学习的时候,觉得在监督学习之后,做一个混淆矩阵就已经足够,但是完整的机器学习解决方案并不会如此草率.需要完整的评 ...

  9. python的random模块及加权随机算法的python实现

    random是用于生成随机数的,我们可以利用它随机生成数字或者选择字符串. random.seed(x)改变随机数生成器的种子seed. 一般不必特别去设定seed,Python会自动选择seed. ...

随机推荐

  1. git的几个小技巧

    git的几个小技巧 分享git的几个小技巧,后面会根据使用补充.目前包括git撤销本地修改.git回退到前n个版本.git多用户提交冲突解决.git 命令简化.欢迎大家补充^_* 1.git撤销本地修 ...

  2. VMware Ubuntu 19最新安装详细过程

    ubuntu可以说是目前最流行的Linux改造版了(如果安卓不算的话),现在的很多服务器都是linux系统的,而自己属于那种前端也搞,后台也搞,对框架搭建也感兴趣,但是很多生产上的框架和工具都是安装在 ...

  3. Kubernetes v1.16 发布 | 云原生生态周报 Vol. 20

    作者:心贵.进超.元毅.心水.衷源.洗兵 业界要闻 Kubernetes v1.16 发布 在这次发布中值得关注的一些特性和 Feature: CRD 正式进入 GA 阶段: Admission We ...

  4. java架构之路-(设计模式)五种创建型模式之单例模式

    设计模式自身一直不是很了解,但其实我们时刻都在使用这些设计模式的,java有23种设计模式和6大原则. 设计模式是一套被反复使用.多数人知晓的.经过分类编目的.代码设计经验的总结.使用设计模式是为了可 ...

  5. [C++]类的设计(2)——拷贝控制(拷贝控制和资源管理)

      1.类的行为分类:看起来像一个值:看起来想一个指针.     1)类的行为像一个值,意味着他应该有自己的状态.当我们拷贝一个像值的对象时,副本和原对象是完全独立的.改变副本不会对原有对象有任何影响 ...

  6. python 数据分析师

    简介 越来越多的政府机关.企事业单位将选择拥有数据分析师资质的专业人士为他们的项目做出科学.合理的分析.以便正确决策:越来越多的风险投资机构把数据分析师所出具的数据分析报告作为其判断项目是否可行及是否 ...

  7. Python学习笔记整理总结【网络编程】【线程/进程/协程/IO多路模型/select/poll/epoll/selector】

    一.socket(单链接) 1.socket:应用层与TCP/IP协议族通信的中间软件抽象层,它是一组接口.在设计模式中,Socket其实就是一个门面模式,它把复杂的TCP/IP协议族隐藏在Socke ...

  8. Ajax async属性

    async: 默认是true:异步,false:同步. 其他属性扩展: 1.url: 要求为String类型的参数,(默认为当前页地址)发送请求的地址. 2.type: 要求为String类型的参数, ...

  9. pyinstaller程序打包工具

    PyInstaller是一个能将Python程序转换成单个可执行文件的程序, 操作系统支持Windows, Linux, Mac OS X, Solaris和AIX.并且很多包都支持开箱即用,不依赖环 ...

  10. php-fpm启动,重启,退出

    首先确保php-fpm正常安装,运行命令php-fpm -t输出查看: ##确定php-fpm配置正常 [root@iz2vcf47jzvf8dxrapolf7z php7.-Oct-::] NOTI ...