转自雪晴网

【R】如何确定最适合数据集的机器学习算法

抽查(Spot checking)机器学习算法是指如何找出最适合于给定数据集的算法模型。本文中我将介绍八个常用于抽查的机器学习算法，文中还包括各个算法的 R 语言代码，你可以将其保存并运用到下一个机器学习项目中。

适用于你的数据集的最佳算法

你无法在建模前就知道哪个算法最适用于你的数据集。你必须通过反复试验的方法来寻找出可以解决你的问题的最佳算法，我称这个过程为 spot checking。我们所遇到的问题不是我应该采用哪个算法来处理我的数据集？，而是我应该抽查哪些算法来处理我的数据集？

抽查哪些算法？

首先，你可以思考哪些算法可能适用于你的数据集。

其次，我建议尽可能地尝试混合算法并观察哪个方法最适用于你的数据集。

尝试混合算法(如事件模型和树模型)

尝试混合不同的学习算法(如处理相同类型数据的不同算法)

尝试混合不同类型的模型(如线性和非线性函数或者参数和非参数模型)

让我们具体看下如何实现这几个想法。下一章中我们将看到如何在 R 语言中实现相应的机器学习算法。

如何在 R 语言中抽查算法？

R 语言中存在数百种可用的机器学习算法。如果你的项目要求较高的预测精度且你有充足的时间，我建议你可以在实践过程中尽可能多地探索不同的算法。通常情况下，我们没有太多的时间用于测试，因此我们需要了解一些常用且重要的算法。

本章中你将会接触到一些 R 语言中经常用于抽查处理的线性和非线性算法，但是其中并不包括类似于boosting和bagging的集成算法。每个算法都会从两个视角进行呈现：

常规的训练和预测方法

caret包的用法

你需要知道给定算法对应的软件包和函数，同时你还需了解如何利用caret包实现这些常用的算法，从而你可以利用caret包的预处理、算法评估和参数调优的能力高效地评估算法的精度。本文中将用到两个标准的数据集：

回归模型：BHD(Boston Housing Dataset)

分类模型: PIDD(Pima Indians Diabetes Dataset)

下文中的所有代码都是完整的，因此你可以将其保存下来并运用到下个机器学习项目中。

线性算法

这类方法对模型的函数形式有严格的假设条件，虽然这些方法的运算速度快，但是其结果偏倚较大。

这类模型的最终结果通常易于解读，因此如果线性模型的结果足够精确，那么你没有必要采用较为复杂的非线性模型。

线性回归模型

stat包中的lm()函数可以利用最小二乘估计拟合线性回归模型。

# load the library

library(mlbench)

# load data

data(BostonHousing)

# fit model

fit <- lm(mdev~>, BostonHousing)

# summarize the fit

print(fit)

# make predictions

predictions <- predict(fit, BostonHousing)

# summarize accuracy

mse <- mean((BostonHousing$medv - predictions)^2)

print(mse)

# caret

# load libraries

library(caret)

library(mlbench)

# load dataset

data(BostonHousing)

# train

set.seed(7)

control <- trainControl(method="cv", number=5)

fit.lm <- train(medv~., data=BostonHousing, method="lm", metric="RMSE", preProc=c("center", "scale"), trControl=control)

# summarize fit

print(fit.lm)

罗吉斯回归模型

stat包中glm()函数可以用于拟合广义线性模型。它可以用于拟合处理二元分类问题的罗吉斯回归模型。

# load the library

library(mlbench)

# Load the dataset

data(PimaIndiansDiabetes)

# fit model

fit <- glm(diabetes~., data=PimaIndiansDiabetes, family=binomial(link='logit'))

# summarize the fit

print(fit)

# make predictions

probabilities <- predict(fit, PimaIndiansDiabetes[,1:8], type='response')

predictions <- ifelse(probabilities > 0.5,'pos','neg')

# summarize accuracy

table(predictions, PimaIndiansDiabetes$diabetes)

# caret

# load libraries

library(caret)

library(mlbench)

# Load the dataset

data(PimaIndiansDiabetes)

# train

set.seed(7)

control <- trainControl(method="cv", number=5)

fit.glm <- train(diabetes~., data=PimaIndiansDiabetes, method="glm", metric="Accuracy", preProc=c("center", "scale"), trControl=control)

# summarize fit

print(fit.glm)

线性判别分析

MASS包中的lda()函数可以用于拟合线性判别分析模型。

# load the libraries

library(MASS)

library(mlbench)

# Load the dataset

data(PimaIndiansDiabetes)

# fit model

fit <- lda(diabetes~., data=PimaIndiansDiabetes)

# summarize the fit

print(fit)

# make predictions

predictions <- predict(fit, PimaIndiansDiabetes[,1:8])$class

# summarize accuracy

table(predictions, PimaIndiansDiabetes$diabetes)

# caret

# load libraries

library(caret)

library(mlbench)

# Load the dataset

data(PimaIndiansDiabetes)

# train

set.seed(7)

control <- trainControl(method="cv", number=5)

fit.lda <- train(diabetes~., data=PimaIndiansDiabetes, method="lda", metric="Accuracy", preProc=c("center", "scale"), trControl=control)

# summarize fit

print(fit.lda)

正则化回归

glmnet包中的glmnet()函数可以用于拟合正则化分类或回归模型。

分类模型：

# load the library

library(glmnet)

library(mlbench)

# load data

data(PimaIndiansDiabetes)

x <- as.matrix(PimaIndiansDiabetes[,1:8])

y <- as.matrix(PimaIndiansDiabetes[,9])

# fit model

fit <- glmnet(x, y, family="binomial", alpha=0.5, lambda=0.001)

# summarize the fit

print(fit)

# make predictions

predictions <- predict(fit, x, type="class")

# summarize accuracy

table(predictions, PimaIndiansDiabetes$diabetes)

# caret

# load libraries

library(caret)

library(mlbench)

library(glmnet)

# Load the dataset

data(PimaIndiansDiabetes)

# train

set.seed(7)

control <- trainControl(method="cv", number=5)

fit.glmnet <- train(diabetes~., data=PimaIndiansDiabetes, method="glmnet", metric="Accuracy", preProc=c("center", "scale"), trControl=control)

# summarize fit

print(fit.glmnet)

回归模型：

# load the libraries

library(glmnet)

library(mlbench)

# load data

data(BostonHousing)

BostonHousing$chas <- as.numeric(as.character(BostonHousing$chas))

x <- as.matrix(BostonHousing[,1:13])

y <- as.matrix(BostonHousing[,14])

# fit model

fit <- glmnet(x, y, family="gaussian", alpha=0.5, lambda=0.001)

# summarize the fit

print(fit)

# make predictions

predictions <- predict(fit, x, type="link")

# summarize accuracy

mse <- mean((y - predictions)^2)

print(mse)

# caret

# load libraries

library(caret)

library(mlbench)

library(glmnet)

# Load the dataset

data(BostonHousing)

# train

set.seed(7)

control <- trainControl(method="cv", number=5)

fit.glmnet <- train(medv~., data=BostonHousing, method="glmnet", metric="RMSE", preProc=c("center", "scale"), trControl=control)

# summarize fit

print(fit.glmnet)

非线性算法

非线性算法对模型函数形式的限定较少，这类模型通常具有高精度和方差大的特点。

k近邻法

caret包中的knn3()函数并没有建立模型，而是直接对训练集数据作出预测。它既可以用于分类模型也可以用于回归模型。

分类模型：

# knn direct classification

# load the libraries

library(caret)

library(mlbench)

# Load the dataset

data(PimaIndiansDiabetes)

# fit model

fit <- knn3(diabetes~., data=PimaIndiansDiabetes, k=3)

# summarize the fit

print(fit)

# make predictions

predictions <- predict(fit, PimaIndiansDiabetes[,1:8], type="class")

# summarize accuracy

table(predictions, PimaIndiansDiabetes$diabetes)

# caret

# load libraries

library(caret)

library(mlbench)

# Load the dataset

data(PimaIndiansDiabetes)

# train

set.seed(7)

control <- trainControl(method="cv", number=5)

fit.knn <- train(diabetes~., data=PimaIndiansDiabetes, method="knn", metric="Accuracy", preProc=c("center", "scale"), trControl=control)

# summarize fit

print(fit.knn)

回归模型：

# load the libraries

library(caret)

library(mlbench)

# load data

data(BostonHousing)

BostonHousing$chas <- as.numeric(as.character(BostonHousing$chas))

x <- as.matrix(BostonHousing[,1:13])

y <- as.matrix(BostonHousing[,14])

# fit model

fit <- knnreg(x, y, k=3)

# summarize the fit

print(fit)

# make predictions

predictions <- predict(fit, x)

# summarize accuracy

mse <- mean((BostonHousing$medv - predictions)^2)

print(mse)

# caret

# load libraries

library(caret)

data(BostonHousing)

# Load the dataset

data(BostonHousing)

# train

set.seed(7)

control <- trainControl(method="cv", number=5)

fit.knn <- train(medv~., data=BostonHousing, method="knn", metric="RMSE", preProc=c("center", "scale"), trControl=control)

# summarize fit

print(fit.knn)

朴素贝叶斯算法

e1071包中的naiveBayes()函数可用于拟合分类问题中的朴素贝叶斯模型。

# load the libraries

library(e1071)

library(mlbench)

# Load the dataset

data(PimaIndiansDiabetes)

# fit model

fit <- naiveBayes(diabetes~., data=PimaIndiansDiabetes)

# summarize the fit

print(fit)

# make predictions

predictions <- predict(fit, PimaIndiansDiabetes[,1:8])

# summarize accuracy

table(predictions, PimaIndiansDiabetes$diabetes)

# caret

# load libraries

library(caret)

library(mlbench)

# Load the dataset

data(PimaIndiansDiabetes)

# train

set.seed(7)

control <- trainControl(method="cv", number=5)

fit.nb <- train(diabetes~., data=PimaIndiansDiabetes, method="nb", metric="Accuracy", trControl=control)

# summarize fit

print(fit.nb)

支持向量机算法

kernlab包中的ksvm()函数可用于拟合分类和回归问题中的支持向量机模型。

分类模型：

# Classification Example:

# load the libraries

library(kernlab)

library(mlbench)

# Load the dataset

data(PimaIndiansDiabetes)

# fit model

fit <- ksvm(diabetes~., data=PimaIndiansDiabetes, kernel="rbfdot")

# summarize the fit

print(fit)

# make predictions

predictions <- predict(fit, PimaIndiansDiabetes[,1:8], type="response")

# summarize accuracy

table(predictions, PimaIndiansDiabetes$diabetes)

# caret

# load libraries

library(caret)

library(mlbench)

# Load the dataset

data(PimaIndiansDiabetes)

# train

set.seed(7)

control <- trainControl(method="cv", number=5)

fit.svmRadial <- train(diabetes~., data=PimaIndiansDiabetes, method="svmRadial", metric="Accuracy", trControl=control)

# summarize fit

print(fit.svmRadial)

回归模型：

# Regression Example:

# load the libraries

library(kernlab)

library(mlbench)

# load data

data(BostonHousing)

# fit model

fit <- ksvm(medv~., BostonHousing, kernel="rbfdot")

# summarize the fit

print(fit)

# make predictions

predictions <- predict(fit, BostonHousing)

# summarize accuracy

mse <- mean((BostonHousing$medv - predictions)^2)

print(mse)

# caret

# load libraries

library(caret)

library(mlbench)

# Load the dataset

data(BostonHousing)

# train

set.seed(7)

control <- trainControl(method="cv", number=5)

fit.svmRadial <- train(medv~., data=BostonHousing, method="svmRadial", metric="RMSE", trControl=control)

# summarize fit

print(fit.svmRadial)

分类和回归树

rpart包中的rpart()函数可用于拟合CART分类树和回归树模型。

分类模型：

# load the libraries

library(rpart)

library(mlbench)

# Load the dataset

data(PimaIndiansDiabetes)

# fit model

fit <- rpart(diabetes~., data=PimaIndiansDiabetes)

# summarize the fit

print(fit)

# make predictions

predictions <- predict(fit, PimaIndiansDiabetes[,1:8], type="class")

# summarize accuracy

table(predictions, PimaIndiansDiabetes$diabetes)

# caret

# load libraries

library(caret)

library(mlbench)

# Load the dataset

data(PimaIndiansDiabetes)

# train

set.seed(7)

control <- trainControl(method="cv", number=5)

fit.rpart <- train(diabetes~., data=PimaIndiansDiabetes, method="rpart", metric="Accuracy", trControl=control)

# summarize fit

print(fit.rpart)

回归模型：

# load the libraries

library(rpart)

library(mlbench)

# load data

data(BostonHousing)

# fit model

fit <- rpart(medv~., data=BostonHousing, control=rpart.control(minsplit=5))

# summarize the fit

print(fit)

# make predictions

predictions <- predict(fit, BostonHousing[,1:13])

# summarize accuracy

mse <- mean((BostonHousing$medv - predictions)^2)

print(mse)

# caret

# load libraries

library(caret)

library(mlbench)

# Load the dataset

data(BostonHousing)

# train

set.seed(7)

control <- trainControl(method="cv", number=2)

fit.rpart <- train(medv~., data=BostonHousing, method="rpart", metric="RMSE", trControl=control)

# summarize fit

print(fit.rpart)

其他算法

R 语言中还提供了许多caret可以使用的机器学习算法。我建议你去探索更多的算法，并将其运用到你的下个机器学习项目中。

Caret Model List这个网页上提供了caret中机器学习算法的函数和其相应软件包的映射关系。你可以通过它了解如何利用caret构建机器学习模型。

总结

本文中介绍了八个常用的机器学习算法：

线性回归模型

罗吉斯回归模型

线性判别分析

正则化回归

k近邻

朴素贝叶斯

支持向量机

分类和回归树

从上文的介绍中，你可以学到如何利用 R 语言中的包和函数实现这些算法。同时你还可以学会如何利用caret包实现上文提到的所有机器学习算法。最后，你还可以将这些算法运用到你的机器学习项目中。

R语言常见模型的更多相关文章

R语言︱机器学习模型评估方案（以随机森林算法为例）
笔者寄语:本文中大多内容来自<数据挖掘之道>,本文为读书笔记.在刚刚接触机器学习的时候,觉得在监督学习之后,做一个混淆矩阵就已经足够,但是完整的机器学习解决方案并不会如此草率.需要完整的评 ...
R语言︱机器学习模型评价指标+（转）模型出错的四大原因及如何纠错
笔者寄语:机器学习中交叉验证的方式是主要的模型评价方法,交叉验证中用到了哪些指标呢? 交叉验证将数据分为训练数据集.测试数据集,然后通过训练数据集进行训练,通过测试数据集进行测试,验证集进行验证. 模 ...
R语言-简单模型画图
1.回归拟合 > plot(mtcars$mpg~mtcars$disp) > lmfit<-lm(mtcars$mpg~mtcars$disp) #线性回归模型 > abli ...
R语言︱情感分析—基于监督算法R语言实现（二）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:本文大多内容来自未出版的<数据 ...
R语言︱ROC曲线——分类器的性能表现评价
笔者寄语:分类器算法最后都会有一个预测精度,而预测精度都会写一个混淆矩阵,所有的训练数据都会落入这个矩阵中,而对角线上的数字代表了预测正确的数目,即True Positive+True Nagetiv ...
从零开始学习R语言（一）——数据结构之“向量”(Vector)
本文首发于知乎专栏:https://zhuanlan.zhihu.com/p/59688569 也同步更新于我的个人博客:https://www.cnblogs.com/nickwu/p/125370 ...
如何在R语言中使用Logistic回归模型
在日常学习或工作中经常会使用线性回归模型对某一事物进行预测,例如预测房价.身高.GDP.学生成绩等,发现这些被预测的变量都属于连续型变量.然而有些情况下,被预测变量可能是二元变量,即成功或失败.流失或 ...
R语言实现SOM（自组织映射）模型（三个函数包+代码）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- SOM自组织映射神经网络模型的R语言实现笔 ...
【机器学习与R语言】12- 如何评估模型的性能？
目录 1.评估分类方法的性能 1.1 混淆矩阵 1.2 其他评价指标 1)Kappa统计量 2)灵敏度与特异性 3)精确度与回溯精确度 4)F度量 1.3 性能权衡可视化(ROC曲线) 2.评估未来的 ...

随机推荐

在CentOS上安装Sublime Text
CentOS 是基于 Red Hat (RHEL) 的, 其中并没有包管理工具 apt. 最近需要在装了 CentOS 系统的服务器上安装Sublime Text, 到官网上看了一下, 对其他 (De ...
HDU 3466 Proud Merchants(01背包问题）
题目链接: 传送门 Proud Merchants Time Limit: 1000MS Memory Limit: 65536K Description Recently, iSea wen ...
html内容写入到文件中的时候出现‘TypeError: expected a character buffer object’错误
代码如下: with open('ryf.md', 'a') as f: f.write(content) # content是html内容原因是写入文件要求写入内容是str,直接转换成str即可, ...
删除elasticsearch索引脚本
只保留七天的索引 shell版 #!/bin/bash #hexm@ #只保留一周es日志 logName=( -nginxaccesslog -nginxerrorlog -phperrorlog ...
HBase filter shell操作
创建表 create 'test1', 'lf', 'sf' lf: column family of LONG values (binary value) -- sf: column family ...
HIbernate的写法总结
普通表操作普通操作莫过于CRUD,建好表了之后对表的数据进行操作.详见代码. package package2; import org.hibernate.Session; import org.h ...
视频直播APP开发分析
视频直播APP开发到目前为止都还是热门的一个行业,而且发展到现在直播的种类非常多,很多行业都打入了直播行业,再也不是单纯的人物直播这么单一了.视频直播APP开发行业就像是吃螃蟹,来的早的人不懂如何吃, ...
《深入理解bootstrap》读书笔记：第4章 CSS组件（下）
十. 标签(.label类,label-xxx) 高亮一些标题部分. 1 2 3 4 5 6 <h1>HELLO<span class="label label-defau ...
swiper笔记
1.基本使用 var OrderMenu = new Swiper('#OrderMenu',{ loop: false, // 是否循环 autoplay: 1000, // 时间 slidesPe ...
C# 协变out 、逆变 in
需求:泛型使用多态性备注:协变逆变只能修饰接口和委托简单理解: 1.使用 in 修饰后为逆变,只能用作形参使用 ,参考 public delegate void Action<in T&g ...

R语言 常见模型

转自 雪晴网