1.分类规则原理

  • if-else逻辑:前件由特征值的特定组合构成,在满足规则的条件下,后件描述用来指定的分类值。
  • 决策树必须从上至下应用,而规则是单独存在的事实。通常比决策树更简洁、直接和理解。
  • 规则学习应用于以名义特征为主,或全部是名义特征的问题。
  • “独立而治之”:与决策树的“分而治之”不同(每个决策节点会受到过去决策历史的影响),一旦规则学习算法分离出一组案例,下一组案例可能会根据完全不同的特征,以完全不同的顺序分离出来。如:所有动物——>if有皮毛(哺乳动物),else无皮毛(非哺乳)
  • 分而治之和独立而治之(覆盖算法)都基于先到先得的思想,称为贪婪/学习算法。

1.1 1R单规则算法

  • ZeroR:无规则算法,即无需考虑特征值就能预测为最常见的类(忽略所有特征,只是预测目标的模式)。
  • 1R/OneR:单规则算法,通过选择一个单一的规则来提高ZeroR算法的性能。简单规则通常极具预测性,它能够识别对于目标类最具有预测性的单一特征,并利用该特征构建一个规则集。



过程:对于每一个特征,基于相似的特征值1R对数据分组,然后对于每个书分组,该算法的预测类为占多数的类。比如动物分类中若以行走途径为规则错误率为2/15,若以是否有皮毛为规则错误率为3/15,因此1R算法基于以行走途径为规则返回结果。

注意:如果分类水平分布很不均匀,规则学习再预测少数类时会有困难。



单一的规则可能太简单了(大拇指规则),更复杂的任务需要考虑多个属性,用到更高级的规则学习算法,但早期这类算法非常慢,也不准确,因此陆续提出了IREP、RIPPER、IRPE++、SLIPPER、TRIPPER等算法来提高规则学习的性能。

1.2 RIPPER算法

  • RIPPER:重复增量修剪算法,对IREP(增量减少误差修剪算法)进行改进后再生成规则,性能与决策树相当。

  • RIPPER过程:生长——修剪——优化
  • 分类规则也可以直接从决策树获得。即嵌套if-else结构。缺点:这样产生的规则比从规则学习算法学到的规则更复杂,分而治之策略是有偏的,与规则学习的结果会不同。

2. 规则学习应用示例

应用规则学习识别有毒的蘑菇

1)收集数据

8124个蘑菇案例的22个特征,额外一列包含有毒和无毒信息。

数据下载:

链接: https://pan.baidu.com/s/1nrLEXkdISPSn1DLkjaPbMA 提取码: mhvr

2)探索和准备数据

## Example: Identifying Poisonous Mushrooms ----
## Step 2: Exploring and preparing the data ----
mushrooms <- read.csv("mushrooms.csv", stringsAsFactors = TRUE) # examine the structure of the data frame
str(mushrooms) # drop the veil_type feature
mushrooms$veil_type <- NULL # examine the class distribution
table(mushrooms$type)

3)训练数据

## Step 3: Training a model on the data ----
library(RWeka) # train OneR() on the data
mushroom_1R <- OneR(type ~ ., data = mushrooms) mushroom_1R

4)评估性能

## Step 4: Evaluating model performance ----
summary(mushroom_1R)



准确率能达到98%以上,但错过了120种可以食用的蘑菇。

5)提高性能

训练JRip规则算法,从所有的可用特征中选择规则:

## Step 5: Improving model performance ----
mushroom_JRip <- JRip(type ~ ., data = mushrooms)
mushroom_JRip
summary(mushroom_JRip)



JRip分类器学习了9条规则。准确度提高到100%。

6)选择决策树中的分类规则

看一下,选择了两个特征,比较比较。

# Rule Learner Using C5.0 Decision Trees (not in text)
library(C50)
mushroom_c5rules <- C5.0(type ~ odor + gill_size, data = mushrooms, rules = TRUE) #rules分类规则生成一个模型
summary(mushroom_c5rules)



和1R算法的结果一样。


机器学习与R语言系列推文汇总:

【机器学习与R语言】1-机器学习简介

【机器学习与R语言】2-K近邻(kNN)

【机器学习与R语言】3-朴素贝叶斯(NB)

【机器学习与R语言】4-决策树

【机器学习与R语言】5-规则学习

【机器学习与R语言】6-线性回归

【机器学习与R语言】7-回归树和模型树

【机器学习与R语言】8-神经网络

【机器学习与R语言】9-支持向量机

【机器学习与R语言】10-关联规则

【机器学习与R语言】11-Kmeans聚类

【机器学习与R语言】12-如何评估模型的性能?

【机器学习与R语言】13-如何提高模型的性能?

【机器学习与R语言】5-规则学习算法的更多相关文章

  1. 【机器学习与R语言】13- 如何提高模型的性能?

    目录 1.调整模型参数来提高性能 1.1 创建简单的调整模型 2.2 定制调整参数 2.使用元学习来提高性能 2.1 集成学习(元学习)概述 2.2 bagging 2.3 boosting 2.4 ...

  2. 【机器学习与R语言】12- 如何评估模型的性能?

    目录 1.评估分类方法的性能 1.1 混淆矩阵 1.2 其他评价指标 1)Kappa统计量 2)灵敏度与特异性 3)精确度与回溯精确度 4)F度量 1.3 性能权衡可视化(ROC曲线) 2.评估未来的 ...

  3. 【机器学习与R语言】11- Kmeans聚类

    目录 1.理解Kmeans聚类 1)基本概念 2)kmeans运作的基本原理 2.Kmeans聚类应用示例 1)收集数据 2)探索和准备数据 3)训练模型 4)评估性能 5)提高模型性能 1.理解Km ...

  4. 【机器学习与R语言】10- 关联规则

    目录 1.理解关联规则 1)基本认识 2)Apriori算法 2.关联规则应用示例 1)收集数据 2)探索和准备数据 3)训练模型 4)评估性能 5)提高模型性能 1.理解关联规则 1)基本认识 购物 ...

  5. 【机器学习与R语言】9- 支持向量机

    目录 1.理解支持向量机(SVM) 1)SVM特点 2)用超平面分类 3)对非线性空间使用核函数 2. 支持向量机应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高性能 ...

  6. 【机器学习与R语言】8- 神经网络

    目录 1.理解神经网络 1)基本概念 2)激活函数 3)网络拓扑 4)训练算法 2.神经网络应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高性能 1.理解神经网络 1) ...

  7. 【机器学习与R语言】7-回归树和模型树

    目录 1.理解回归树和模型树 2.回归树和模型树应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高模型性能 1.理解回归树和模型树 决策树用于数值预测: 回归树:基于到达 ...

  8. 【机器学习与R语言】4-决策树

    目录 1.决策树原理 2.决策树应用示例 2.1)收集数据 2.2)探索和准备数据 2.3)训练模型 2.4)评估模型性能 2.5)提高模型性能 通过自适应增强算法(boosting) 将惩罚因子分配 ...

  9. 【机器学习与R语言】3-概率学习朴素贝叶斯(NB)

    目录 1.理解朴素贝叶斯 1)基本概念 2)朴素贝叶斯算法 2.朴素贝斯分类应用 1)收集数据 2)探索和准备数据 3)训练模型 4)评估模型性能 5)提升模型性能 1.理解朴素贝叶斯 1)基本概念 ...

随机推荐

  1. UML快速概述 - All you need to know about UML

    UML 是统一建模语言的缩写,就像使用一组图表来可视化软件建模的蓝图(或设计计划).它不仅可以让您彻底评估整个概念,还可以确保团队中的每个人都在同一页面上.   UML 图可以组织成两个不同的组. 结 ...

  2. 2019OO第四单元作业总结&OO课程整体总结

    第四单元作业总结 第四单元的作业主题是UML图的解析,通过对UML图代码的解析,我对UML图的结构以及各种元素之间的关系的理解更加深入了. ------------------------------ ...

  3. GeoServer-Manager应用:java编码实现发布矢量数据或栅格数据至GeoServer

    目录 简介与下载 依赖 编码发布矢量数据 编码发布栅格数据 简介与下载 GeoServer-Manager是使用Java编写的面向GeoServer的客户端库,通过GeoServer的REST管理接口 ...

  4. CentOS8 部署 MySQL8

    前言 有来项目的数据库在此之前使用的是 Docker 部署的,具体可见文章 Docker 安装 MySQL8 ,服务器是阿里云 2C2G 的ECS轻量服务器,可能是配置问题有时不论查什么都要等很长很长 ...

  5. 『学了就忘』Linux基础 — 14、Linux系统的设备文件名和挂载

    目录 1.设备文件名 (1)为什么需要设备文件名 (2)硬件设备文件名命名规则 2.挂载点 3.挂载 (1)什么是挂载 (2)挂载前的分区要求 (3)小结(重点) 1.设备文件名 (1)为什么需要设备 ...

  6. HTML 罗盘式时钟

    代码块: 1 <!DOCTYPE html> 2 <html lang="zh-hans"> 3 <head> 4 <meta chars ...

  7. python 处理xml 数据

    1 import xml.sax 2 import xml.sax.handler 3 4 # python 处理xml 数据 类,将xml数据转化为字典 5 ''' 6 原数据:<?xml v ...

  8. NSFOCUS建议您采取以下措施以降低威胁: * 修改源代码或者配置文件改变SSH服务的缺省banner。

    老扫漏洞出来要整改 1.在 /etc/下创建一个文件 ssh_banner_change,在文件中输入内容,如:welcome! 2.修改/etc/ssh/sshd_config 文件,添加以下内容: ...

  9. glibc memcpy() 源码浅谈

    其实我本来只是想搞懂为什么memcpy()函数的参数类型是void *的: 我以为会在memcpy()源码中能找到答案,其实并没有,void *只是在传递参数的时候起了作用,可以让memcpy()接受 ...

  10. kubernetes创建用户

    创建k8s User Account 使用openssl方法创建普通用户 准备工作 1 2 3 4 mkdir /root/pki/ 将k8s ca.pem  ca-key.pem 证书拷贝到此目录 ...