『Sklearn』框架自带数据集接口
自带数据集类型如下:
# 自带小型数据集
# sklearn.datasets.load_<name>
# 在线下载数据集
# sklearn.datasets.fetch_<name>
# 计算机生成数据集
# sklearn.datasets.make_<name>
# svmlight/libsvm格式数据集
# sklearn.datasets.load_svmlight_file(path)
# mldata.org在线下载网站数据集
# sklearn.datasets.fetch_mldata(path)
以鸢尾花数据为例,介绍一下自带数据集的使用。
基本使用:
- import sklearn
- import matplotlib.pyplot as plt
- # 载入数据集
- iris = sklearn.datasets.load_iris() # 鸢尾花数据
- # 打印数据集中的类型
- print(iris.keys())
- # dict_keys(['target', 'data', 'feature_names', 'DESCR', 'target_names'])
- # target:标签
- # data :数据
- # feature_names :特征名称,list,按照data中排序生成
- # target_names : 标签名称,list,按照target中排序生成
- print(iris.target.shape)
- print(iris.data.shape)
- print(iris.feature_names)
- print(iris.target_names)
- # (150,)
- # (150, 4)
- # ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
- # ['setosa' 'versicolor' 'virginica']
使用一个特征绘制柱状图:
- x_index = 3
- colors = ['blue', 'red', 'green']
- for label, color in zip(range(len(iris.target_names)), colors):
- plt.hist(iris.data[iris.target==label, x_index],
- label = iris.target_names[label], color=color)
- plt.xlabel(iris.feature_names[x_index])
- plt.legend(loc='upper right')
- plt.show()
使用两个特征绘制散点图:
- x_index = 0
- y_index = 1
- colors = ['blue', 'red', 'green']
- for label, color in zip(range(len(iris.target_names)), colors):
- plt.scatter(iris.data[iris.target == label, x_index],
- iris.data[iris.target == label, y_index],
- label=iris.target_names[label], # 图例内容
- color=color)
- plt.xlabel(iris.feature_names[x_index])
- plt.ylabel(iris.feature_names[y_index])
- plt.legend(loc='upper right') # 显示图例
- plt.show()
其他自带小型数据集(load的)均同理,以后遇到教程使用时不用再慌了。
『Sklearn』框架自带数据集接口的更多相关文章
- 『Sklearn』特征向量化处理
『Kaggle』分类任务_决策树&集成模型&DataFrame向量化操作 1 2 3 4 5 6 7 8 9 '''特征提取器''' from sklearn.feature_extr ...
- sklearn提供的自带数据集
sklearn 的数据集有好多个种 自带的小数据集(packaged dataset):sklearn.datasets.load_<name> 可在线下载的数据集(Downloaded ...
- 『Sklearn』数据划分方法
原理介绍 K折交叉验证: KFold,GroupKFold,StratifiedKFold, 留一法: LeaveOneGroupOut,LeavePGroupsOut,LeaveOneOut,Lea ...
- 『计算机视觉』mini深度学习框架实现
一.项目简介 手动实现mini深度学习框架,主要精力不放在运算优化上,仅体会原理. 地址见:miniDeepFrame 相关博客 『TensorFlow』卷积层.池化层详解 『科学计算』全连接层.均方 ...
- 『计算机视觉』Mask-RCNN_训练网络其一:数据集与Dataset类
Github地址:Mask_RCNN 『计算机视觉』Mask-RCNN_论文学习 『计算机视觉』Mask-RCNN_项目文档翻译 『计算机视觉』Mask-RCNN_推断网络其一:总览 『计算机视觉』M ...
- 『TensorFlow』TFR数据预处理探究以及框架搭建
一.TFRecord文件书写效率对比(单线程和多线程对比) 1.准备工作 # Author : Hellcat # Time : 18-1-15 ''' import os os.environ[&q ...
- sklearn提供的自带的数据集
sklearn 的数据集有好多个种 自带的小数据集(packaged dataset):sklearn.datasets.load_<name> 可在线下载的数据集(Downloaded ...
- Python——sklearn提供的自带的数据集
sklearn提供的自带的数据集 sklearn 的数据集有好多个种 自带的小数据集(packaged dataset):sklearn.datasets.load_<name> 可在线下 ...
- 『Java』Collection接口 Collections类
接口Collection public interface Collection<E>定义了所有单列集合中共性的方法,所有的单列集合都可以使用共性方法. Collection的常用子接口有 ...
随机推荐
- VNC的安装和常用命令
主要参考文章:http://www.cnblogs.com/coderzh/archive/2008/07/16/1243990.html http:/ ...
- Docker容器和数据可视化管理工具Flocker
Flocker 可轻松实现 Docker 容器及其数据的管理.这是一个数据卷管理器和多主机的 Docker 集群管理工具,你可以通过它来控制数据.可用来在 Docker 中运行你的数据库.查询和 K/ ...
- 面试题之一(Spring和堆栈和逻辑运算符)
1.&和&&区别? 都是逻辑运算符,都是判断两边同时为真,否则为假:但&&当第一个为假时,后面就不执行,而&则还是要继续执行,直至结束: ——————— ...
- 01: JavaScript实例
1.1 基础 JavaScript 实例 <body> <script type="text/javascript"> document.write(&qu ...
- 更换 nodejs npm 镜像为 淘宝 镜像
淘宝npm镜像官方介绍文档:https://npm.taobao.org/ ,使用命令在这个官方文档里查询. 安装工具cnpm: $ npm install -g cnpm --registry=ht ...
- max3232
max3232采用专有低压差发送器输出级,利用双电荷泵在3.0V至5.5V电源供电时能够实现真正的RS-232性能,器件仅需四个0.1uF的外部小尺寸电荷泵电容.max3232确保在120kbps数据 ...
- Python3基础 函数 局部与全局变量同名,各管各的
Python : 3.7.0 OS : Ubuntu 18.04.1 LTS IDE : PyCharm 2018.2.4 Conda ...
- Specify Computed Columns in a Table
https://docs.microsoft.com/en-us/sql/relational-databases/tables/specify-computed-columns-in-a-table ...
- 将DevExpress.Utils.ImageCollection变量的image导出
private void tspBtnExportExcel_Click(object sender, EventArgs e) { //暂时用来导出图片 string filePath = Syst ...
- java项目中.classpath,.settings,.project,mymetadata文件的作用
今天犯了一个错误,误修改了本地的.classpath文件,导致项目好多地方报错,之前也没有仔细的研究过项目中的一些生成文件的作用. 今天特此进行记录. 不管我们在eclipse中新建任何的Java项目 ...