机器学习与R语言：C5.0

#----------------------------------------

# 功能描述：演示C50建模过程

# 数据集：汉堡大学信贷模型，信贷数据

#

#----------------------------------------

#第一步：收集数据

# import the CSV file

credit <- read.csv("/Users/chenyangang/R语言/data/credit.csv", stringsAsFactors = TRUE)

# 检查数据

table(credit$checking_balance)

table(credit$savings_balance)

# 五数分析法

summary(credit$months_loan_duration)

summary(credit$amount)

# 查看分类变量

table(credit$default)

# 利用随机数来获取训练数据和测试数据，如果需要重复这里的分析，可以使用随机种子set.seed

set.seed(12345)

credit_rand <- credit[order(runif(1000)), ]

# 比较数据集

summary(credit$amount)

summary(credit_rand$amount)

head(credit$amount)

head(credit_rand$amount)

# 分割数据集

credit_train <- credit_rand[1:900, ]

credit_test <- credit_rand[901:1000, ]

# 查看分类变量的占比

prop.table(table(credit_train$default))

prop.table(table(credit_test$default))

## 第三步: 训练模型

library(C50)

#---------------------------------------------

# 创建分类器：

# m <- C5.0(train, class, trials = 1, costs = NULL)

# train: 一个包含训练数据的数据框

# class: 包含训练数据每一行的分类的一个因子向量

# trials: 为一个可选数值，用于控制自助法循环的次数（默认为1）

# costs: 为一个可选矩阵，用于给出与各种类型错误相对应的成本

# 该函数返回一个C5.0模型对象，该对象可用于预测

#

# 进行预测：

# p <- predict(m, test, type = "class")

# m: 由C5.0(train, class, trials = 1, costs = NULL) 训练的一个模型

# test: 一个包含测试数据的数据框，该数据框和用来创建分类器的训练数据有相同的特征

# type: 取值为“”或者“”标示预测是最可能的类别值或者是原始的预测概率

# 该函数返回一个向量，根据参数type的取值，该向量含有预测的类别值或者原始的预测概率

#

# example:

# credit_model <- C5.0(credit_train, loan_default)

# credit_prediction <- predict(credit_model, credit_test)

#----------------------------------------------

# 构建决策数据模型

credit_model <- C5.0(credit_train[-17], credit_train$default)

# 显示决策树模型

credit_model

# 显示模型详细信息

summary(credit_model)

## 第四步: 评估模型性能

# create a factor vector of predictions on test data

credit_pred <- predict(credit_model, credit_test)

# cross tabulation of predicted versus actual classes

library(gmodels)

CrossTable(credit_test$default, credit_pred,

prop.chisq = FALSE, prop.c = FALSE, prop.r = FALSE,

dnn = c('actual default', 'predicted default'))

## 第五步: 提升模型性能

## Boosting the accuracy of decision trees

# boosted decision tree with 10 trials

credit_boost10 <- C5.0(credit_train[-17], credit_train$default,

trials = 10)

credit_boost10

summary(credit_boost10)

credit_boost_pred10 <- predict(credit_boost10, credit_test)

CrossTable(credit_test$default, credit_boost_pred10,

prop.chisq = FALSE, prop.c = FALSE, prop.r = FALSE,

dnn = c('actual default', 'predicted default'))

# boosted decision tree with 100 trials (not shown in text)

credit_boost100 <- C5.0(credit_train[-17], credit_train$default,

trials = 100)

credit_boost_pred100 <- predict(credit_boost100, credit_test)

CrossTable(credit_test$default, credit_boost_pred100,

prop.chisq = FALSE, prop.c = FALSE, prop.r = FALSE,

dnn = c('actual default', 'predicted default'))

## Making some mistakes more costly than others

# create a cost matrix

error_cost <- matrix(c(0, 1, 4, 0), nrow = 2)

error_cost

# apply the cost matrix to the tree

credit_cost <- C5.0(credit_train[-17], credit_train$default,

costs = error_cost)

credit_cost_pred <- predict(credit_cost, credit_test)

CrossTable(credit_test$default, credit_cost_pred,

prop.chisq = FALSE, prop.c = FALSE, prop.r = FALSE,

dnn = c('actual default', 'predicted default'))

#### Part 2: Rule Learners -------------------

## Example: Identifying Poisonous Mushrooms ----

## Step 2: Exploring and preparing the data ----

mushrooms <- read.csv("mushrooms.csv", stringsAsFactors = TRUE)

# examine the structure of the data frame

str(mushrooms)

# drop the veil_type feature

mushrooms$veil_type <- NULL

# examine the class distribution

table(mushrooms$type)

## Step 3: Training a model on the data ----

library(RWeka)

# train OneR() on the data

mushroom_1R <- OneR(type ~ ., data = mushrooms)

## Step 4: Evaluating model performance ----

mushroom_1R

summary(mushroom_1R)

## Step 5: Improving model performance ----

mushroom_JRip <- JRip(type ~ ., data = mushrooms)

mushroom_JRip

summary(mushroom_JRip)

# Rule Learner Using C5.0 Decision Trees (not in text)

library(C50)

mushroom_c5rules <- C5.0(type ~ odor + gill_size, data = mushrooms, rules = TRUE)

summary(mushroom_c5rules)

机器学习与R语言：C5.0的更多相关文章

【机器学习与R语言】13- 如何提高模型的性能？
目录 1.调整模型参数来提高性能 1.1 创建简单的调整模型 2.2 定制调整参数 2.使用元学习来提高性能 2.1 集成学习(元学习)概述 2.2 bagging 2.3 boosting 2.4 ...
【机器学习与R语言】12- 如何评估模型的性能？
目录 1.评估分类方法的性能 1.1 混淆矩阵 1.2 其他评价指标 1)Kappa统计量 2)灵敏度与特异性 3)精确度与回溯精确度 4)F度量 1.3 性能权衡可视化(ROC曲线) 2.评估未来的 ...
【机器学习与R语言】5-规则学习算法
目录 1.分类规则原理 1.1 1R单规则算法 1.2 RIPPER算法 2. 规则学习应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估性能 5)提高性能 6)选择决策树中的分类规则 ...
【机器学习与R语言】4-决策树
目录 1.决策树原理 2.决策树应用示例 2.1)收集数据 2.2)探索和准备数据 2.3)训练模型 2.4)评估模型性能 2.5)提高模型性能通过自适应增强算法(boosting) 将惩罚因子分配 ...
【机器学习与R语言】11- Kmeans聚类
目录 1.理解Kmeans聚类 1)基本概念 2)kmeans运作的基本原理 2.Kmeans聚类应用示例 1)收集数据 2)探索和准备数据 3)训练模型 4)评估性能 5)提高模型性能 1.理解Km ...
【机器学习与R语言】10- 关联规则
目录 1.理解关联规则 1)基本认识 2)Apriori算法 2.关联规则应用示例 1)收集数据 2)探索和准备数据 3)训练模型 4)评估性能 5)提高模型性能 1.理解关联规则 1)基本认识购物 ...
【机器学习与R语言】8- 神经网络
目录 1.理解神经网络 1)基本概念 2)激活函数 3)网络拓扑 4)训练算法 2.神经网络应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高性能 1.理解神经网络 1) ...
【机器学习与R语言】6-线性回归
目录 1.理解回归 1)简单线性回归 2)普通最小二乘估计 3)相关系数 4)多元线性回归 2.线性回归应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高模型性能 1.理 ...
【机器学习与R语言】3-概率学习朴素贝叶斯（NB）
目录 1.理解朴素贝叶斯 1)基本概念 2)朴素贝叶斯算法 2.朴素贝斯分类应用 1)收集数据 2)探索和准备数据 3)训练模型 4)评估模型性能 5)提升模型性能 1.理解朴素贝叶斯 1)基本概念 ...
【机器学习与R语言】1-机器学习简介
目录 1.基本概念 2.选择机器学习算法 3.使用R进行机器学习 1.基本概念机器学习:发明算法将数据转化为智能行为数据挖掘 VS 机器学习:前者侧重寻找有价值的信息,后者侧重执行已知的任务.后者 ...

随机推荐

IT 运行在云端，而云运行在 Linux 上
导读 IT 正在逐渐迁移到云端.那又是什么驱动了云呢?答案是 Linux. 当连微软的 Azure 都开始拥抱 Linux 时,你就应该知道这一切都已经改变了.不管你接不接受, 云正在接管 IT 已经 ...
JSON和对象之前的相互转换
package com.jxjson.com; import android.util.Log; import org.json.JSONArray; import org.json.JSONExce ...
poj_2823 单调队列
题目大意给定一行数,共N个.有一个长度为K的窗口从左向右滑动,窗口中始终有K个数字,窗口每次滑动一个数字.求各个时刻窗口中的最大值和最小值. 题目分析直接搜索,复杂度为O(n^2).考虑使用单调队 ...
python反序列化研究学习
零.补充: 补充于2018-02-08,之前研究时候有一个疑惑,python的序列化成二进制,打web服务怎么传这个二进制对象呢,今天请教了身边大神(传说的九零后黑客代表),可以使用base64传输. ...
ORA-01102的解决办法
启动数据库时报错了! SQL> startup mount ORACLE instance started. Total System Global Area 608174080 bytes ...
ios UITableView中Cell重用机制导致内容重复解决方法
UITableView继承自UIScrollview,是苹果为我们封装好的一个基于scroll的控件.上面主要是一个个的 UITableViewCell,可以让UITableViewCell响应一些点 ...
MAC OSX安装多个版本的JAVA（jdk jre通用）
MAC自带的jdk1.6是苹果公司自己修改的jdk版本,被广泛应用于各种mac软件,具有不可替代性:同时,java1.7和1.8有时也需要用到.因此,在mac上安装.使用多个版本的java具有重要意义 ...
170418、vmware 安装 centos 开启网卡自启动
前言:CentOS虚拟机安装成功后,默认开机未启用网关,通过修改配置文件,启用网卡开启方法如下: 1.登录系统,虚拟机安装完成后,第一次登录系统,系统只有一个账号,即超级管理员root账户,输入安装 ...
CH5201 数组组合【01背包】
5201 数字组合 0x50「动态规划」例题描述在N个数中找出其和为M的若干个数.先读入正整数N(1<N<100)和M(1<M<10000), 再读入N个正数(可以有相同的 ...
使用Ansible自动配置Nginx服务
1.首先安装好Ansible环境,具体步骤请见Ansible安装 2.先创建hosts文件(为后面编写脚本安装JDK做铺垫) [root@localhost /]# vi hosts [jdktest ...

机器学习与R语言：C5.0

机器学习与R语言：C5.0的更多相关文章

随机推荐

热门专题