更简易的机器学习-pycaret的安装和环境初始化

1、安装

pip install pycaret

在谷歌colab中还要运行：

from pycaret.utils import enable_colab

enable_colab()

2、获取数据

（1）利用pandas库加载

import pandas as pd

data = pd.read_csv('c:/path_to_data/file.csv')

（2）使用自带的数据

from pycaret.datasets import get_data

data = get_data('juice')

数据集列表：

Dataset	Data Types	Default Task	Target Variable	# Instances	# Attributes
anomaly	Multivariate	Anomaly Detection	None	1000	10
france	Multivariate	Association Rule Mining	InvoiceNo, Description	8557	8
germany	Multivariate	Association Rule Mining	InvoiceNo, Description	9495	8
bank	Multivariate	Classification (Binary)	deposit	45211	17
blood	Multivariate	Classification (Binary)	Class	748	5
cancer	Multivariate	Classification (Binary)	Class	683	10
credit	Multivariate	Classification (Binary)	default	24000	24
diabetes	Multivariate	Classification (Binary)	Class variable	768	9
electrical_grid	Multivariate	Classification (Binary)	stabf	10000	14
employee	Multivariate	Classification (Binary)	left	14999	10
heart	Multivariate	Classification (Binary)	DEATH	200	16
heart_disease	Multivariate	Classification (Binary)	Disease	270	14
hepatitis	Multivariate	Classification (Binary)	Class	154	32
income	Multivariate	Classification (Binary)	income >50K	32561	14
juice	Multivariate	Classification (Binary)	Purchase	1070	15
nba	Multivariate	Classification (Binary)	TARGET_5Yrs	1340	21
wine	Multivariate	Classification (Binary)	type	6498	13
telescope	Multivariate	Classification (Binary)	Class	19020	11
glass	Multivariate	Classification (Multiclass)	Type	214	10
iris	Multivariate	Classification (Multiclass)	species	150	5
poker	Multivariate	Classification (Multiclass)	CLASS	100000	11
questions	Multivariate	Classification (Multiclass)	Next_Question	499	4
satellite	Multivariate	Classification (Multiclass)	Class	6435	37
asia_gdp	Multivariate	Clustering	None	40	11
elections	Multivariate	Clustering	None	3195	54
facebook	Multivariate	Clustering	None	7050	12
ipl	Multivariate	Clustering	None	153	25
jewellery	Multivariate	Clustering	None	505	4
mice	Multivariate	Clustering	None	1080	82
migration	Multivariate	Clustering	None	233	12
perfume	Multivariate	Clustering	None	20	29
pokemon	Multivariate	Clustering	None	800	13
population	Multivariate	Clustering	None	255	56
public_health	Multivariate	Clustering	None	224	21
seeds	Multivariate	Clustering	None	210	7
wholesale	Multivariate	Clustering	None	440	8
tweets	Text	NLP	tweet	8594	2
amazon	Text	NLP / Classification	reviewText	20000	2
kiva	Text	NLP / Classification	en	6818	7
spx	Text	NLP / Regression	text	874	4
wikipedia	Text	NLP / Classification	Text	500	3
automobile	Multivariate	Regression	price	202	26
bike	Multivariate	Regression	cnt	17379	15
boston	Multivariate	Regression	medv	506	14
concrete	Multivariate	Regression	strength	1030	9
diamond	Multivariate	Regression	Price	6000	8
energy	Multivariate	Regression	Heating Load / Cooling Load	768	10
forest	Multivariate	Regression	area	517	13
gold	Multivariate	Regression	Gold_T+22	2558	121
house	Multivariate	Regression	SalePrice	1461	81
insurance	Multivariate	Regression	charges	1338	7
parkinsons	Multivariate	Regression	PPE	5875	22
traffic	Multivariate	Regression	traffic_volume	48204	8

3、设置环境

（1）第一步：导入模块

pycaret提供以下6种模块，当你导入相应的模块之后，就将环境切换到了该环境下。

S.No	Module	How to Import
1	Classification	from pycaret.classification import *
2	Regression	from pycaret.regression import *
3	Clustering	from pycaret.clustering import *
4	Anomaly Detection	from pycaret.anomaly import *
5	Natural Language Processing	from pycaret.nlp import *
6	Association Rule Mining	from pycaret.arules import *

（2）第二步：初始化设置

对于PyCaret中的所有模块都是通用的，设置是开始任何机器学习实验的第一步，也是唯一的必需步骤。除默认情况下执行一些基本处理任务外，PyCaret还提供了广泛的预处理功能，这些功能在结构上将普通的机器学习实验提升为高级解决方案。在本节中，我们仅介绍了设置功能的必要部分。可以在此处找到所有预处理功能的详细信息。下面列出的是初始化设置时PyCaret执行的基本默认任务：

数据类型推断：在PyCaret中执行的任何实验都始于确定所有特征的正确数据类型。设置函数执行有关数据的基本推断，并执行一些下游任务，例如忽略ID和Date列，分类编码，基于PyCaret内部算法推断的数据类型的缺失值插补。执行设置后，将出现一个对话框（请参见以下示例），其中包含所有特征及其推断的数据类型的列表。数据类型推断通常是正确的，但是一旦出现对话框，用户应查看列表的准确性。如果正确推断了所有数据类型，则可以按Enter键继续，否则，请键入“ quit”以停止实验。

如果您由于无法正确推断一种或多种数据类型而选择输入“退出”，则可以在setup命令中覆盖它们，方法是传递categorical_feature参数以强制分类类型，而numeric_feature参数则强制数字类型。同样，为了忽略某些功能以成为实验的一部分，您可以在设置程序中传递ignore_features参数。

注意：如果您不希望PyCaret显示确认数据类型的对话框，则可以在设置过程中以“ True”（静默）方式传递为True，以执行无人看管的实验。我们不建议您这样做，除非您完全确定推断是正确的，或者您之前已经进行过实验，或者正在使用numeric_feature和categorical_feature参数覆盖数据类型。

数据清理和准备：设置功能会自动执行缺失值插补和分类编码，因为它们对于任何机器学习实验都是必不可少的。默认情况下，平均值用于数字特征的插补，而最频繁使用的值或模式用于分类特征。您可以使用numeric_imputation和categorical_imputation参数来更改方法。对于分类问题，如果目标不是数字类型，则安装程序还将执行目标编码。

数据采样：如果样本量大于25,000，PyCaret会根据不同的样本量自动构建初步的线性模型，并提供可视化效果，以根据样本量显示模型的性能。然后可以使用该图来评估模型的性能是否随样本数量的增加而增加。如果不是，您可以选择较小的样本量，以提高实验的效率和性能。请参见下面的示例，在该示例中，我们使用了pycaret存储库中的“银行”数据集，其中包含45,211个样本。

训练测试拆分：设置功能还执行训练测试拆分（针对分类问题进行了分层）。默认的分割比例为70:30，但是您可以在设置程序中使用train_size参数进行更改。仅在Train set上使用k倍交叉验证，才能对PyCaret中已训练好的机器学习模型和超参数优化进行评估。

将会话ID分配为种子：如果未传递session_id参数，则会话ID是默认生成的伪随机数。 PyCaret将此id作为种子分发给所有函数，以隔离随机效应。这样可以在以后在相同或不同的环境中实现可重现性。

以下是一些例子：

分类：

from pycaret.datasets import get_data

diabetes = get_data('diabetes')

# Importing module and initializing setup

from pycaret.classification import *

clf1 = setup(data = diabetes, target = 'Class variable')

回归：

from pycaret.datasets import get_data

boston = get_data('boston')

# Importing module and initializing setup

from pycaret.regression import *

reg1 = setup(data = boston, target = 'medv')

聚类：

from pycaret.datasets import get_data

jewellery = get_data('jewellery')

# Importing module and initializing setup

from pycaret.clustering import *

clu1 = setup(data = jewellery)

异常检测：

from pycaret.datasets import get_data

anomalies = get_data('anomaly')

# Importing module and initializing setup

from pycaret.anomaly import *

ano1 = setup(data = anomalies)

自然语言处理：

from pycaret.datasets import get_data

kiva = get_data('kiva')

# Importing module and initializing setup

from pycaret.nlp import *

nlp1 = setup(data = kiva, target = 'en')

关联规则挖掘：

from pycaret.datasets import get_data

france = get_data('france')

# Importing module and initializing setup

from pycaret.arules import *

arules1 = setup(data = france, transaction_id = 'InvoiceNo', item_id = 'Description')

更简易的机器学习-pycaret的安装和环境初始化的更多相关文章

机器学习实战__安装python环境
环境:win7 64位系统第一步:安装python 1.下载python2.7.3 64位 msi 版本(这里选择了很多2.7的其他更高版本导致安装setuptools失败,也不知道是什么原因,暂时 ...
CentOS7+CDH5.14.0安装全流程记录，图文详解全程实测-1虚拟机安装及环境初始化
1.软件准备: VMware-workstation-full-14.1.2-8497320.exe CentOS-7-x86_64-DVD-1804.iso 2.VMare激活码: AU5WA-0E ...
微软开源自动机器学习工具NNI安装与使用
微软开源自动机器学习工具 – NNI安装与使用在机器学习建模时,除了准备数据,最耗时耗力的就是尝试各种超参组合,找到最佳模型的过程了.对于初学者来说,常常是无从下手.即使是对于有经验的算法工程师 ...
机器学习库shark安装
经过两天的折腾,一个对c++和机器学习库的安装都一知半解的人终于在反复安装中,成功的将shark库安装好了,小小纪念一下,多亏了卡门的热心帮忙. shark的安装主要分为以下几个部分: (1)下载 s ...
机器学习linux系统环境安装
机器学习linux系统环境安装安装镜像下载可以自己去ubuntu官方网站按照提示下载amd64的desktop版本或者考虑到国内镜像站点下载,如tuna,163, ali等课程使用最新的17. ...
Windows+Python+anaconda机器学习安装及环境配置步骤
Windows+Python+anaconda机器学习安装及环境配置步骤 1. 下载安装python3.6以上版本(包含pip,不用自己安装)2. 直接下载安装pycharm安装包(用于编写pytho ...
django 简易博客开发 1 安装、创建、配置、admin使用
首先贴一下项目地址吧 https://github.com/goodspeedcheng/sblog 到现在位置项目实现的功能有: 1.后台管理使用Admin ,前端显示使用bootstrap 2. ...
在Windows/Ubuntu下安装OpenGL环境（GLUT/freeglut)与跨平台编译（mingw/g++）
GLUT/freeglut 是什么? OpenGL 和它们有什么关系? OpenGL只是一个标准,它的实现一般自带在操作系统里,只要确保显卡驱动足够新就可以使用.如果需要在程序里直接使用OpenGL, ...
第一章 andriod studio 安装与环境搭建
原文 http://blog.csdn.net/zhanghefu/article/details/9286123 第一章 andriod studio 安装与环境搭建一.Android Stu ...

随机推荐

使用代码给Unity中的动画片段绑定回调函数
在制作动作游戏的时候,需要播放许多动画,同时还有个需求,那就是动画播放到一定时间时,给一个回调函数,好做对应的状态变更, 我查了一下,发现如果使用的是unity自带的动画系统,要做到这样的话,需要这样 ...
python小白入门基础（四：浮点型和布尔型）
# Number (int float bool complex)# (1) float 浮点型也就是小数# 表达方式一floatvar = 0.98print(floatvar)print(typ ...
Spring security OAuth2.0认证授权学习第一天(基础概念-认证授权会话)
这段时间没有学习,可能是因为最近工作比较忙,每天回来都晚上11点多了,但是还是要学习的,进过和我的领导确认,在当前公司的技术架构方面,将持续使用Spring security,暂不做Shiro的考虑, ...
关于取表中id最大值+1的select语句，哪种效率更高？
需求:取stock表中id最大值+1,作为下一个id值. 特殊情况:考虑到表中会没有值,max(id)会返回空,因此需要用case when进行判断. 实现一:select (case max(id) ...
[Java数据结构]LinkedHashMap，TreeMap
HashMap不能记住插入时的顺序,但LinkedHashMap可以做到这一点. 例程: Map<Integer,String> empMap=new LinkedHashMap<I ...
2020重新出发，NOSQL，MongoDB分布式集群架构
MongoDB分布式集群架构看到这里相信你已经掌握了 MongoDB 的大部分基本知识,现在在单机环境下操作 MongoDB 已经不存在问题,但是单机环境只适合学习和开发测试,在实际的生产环境中,M ...
一、loadrunner脚本录制及回放
录制及回放的注意点: 1.测试系统教复杂时,正确的划分action,对监控的每一个业务模型和操作,起到重要作用 2.录制完成后,先进行编译(改动脚本之后检查下有没有语法错误):工具栏Vuser下有一个 ...
【二叉树-BFS系列1】二叉树的右视图、二叉树的锯齿形层次遍历
题目 199. 二叉树的右视图给定一棵二叉树,想象自己站在它的右侧,按照从顶部到底部的顺序,返回从右侧所能看到的节点值. 示例: 输入: [1,2,3,null,5,null,4] 输出: [1, ...
Hadoop入门学习整理（一）
今天是2020年4月8日,是一个平凡而又特殊的日子,武汉在经历了77天的封城之后,于今日0点正式解封.从1月14日放寒假离开武汉,到今天已近3个月,学校的花开了又谢了.随着疫情好转,春回大地,万物复苏 ...
三年之久的 etcd3 数据不一致 bug 分析
问题背景诡异的 K8S 滚动更新异常笔者某天收到同事反馈,测试环境中 K8S 集群进行滚动更新发布时未生效.通过 kube-apiserver 查看发现,对应的 Deployment 版本已经是最 ...

更简易的机器学习-pycaret的安装和环境初始化

更简易的机器学习-pycaret的安装和环境初始化的更多相关文章

随机推荐

热门专题