自带数据集类型如下:

# 自带小型数据集
# sklearn.datasets.load_<name>
# 在线下载数据集
# sklearn.datasets.fetch_<name>
# 计算机生成数据集
# sklearn.datasets.make_<name>
# svmlight/libsvm格式数据集
# sklearn.datasets.load_svmlight_file(path)
# mldata.org在线下载网站数据集
# sklearn.datasets.fetch_mldata(path)

以鸢尾花数据为例,介绍一下自带数据集的使用。

基本使用:

  1. import sklearn
  2. import matplotlib.pyplot as plt
  3.  
  4. # 载入数据集
  5. iris = sklearn.datasets.load_iris() # 鸢尾花数据
  6. # 打印数据集中的类型
  7. print(iris.keys())
  8. # dict_keys(['target', 'data', 'feature_names', 'DESCR', 'target_names'])
  9. # target:标签
  10. # data :数据
  11. # feature_names :特征名称,list,按照data中排序生成
  12. # target_names : 标签名称,list,按照target中排序生成
  13.  
  14. print(iris.target.shape)
  15. print(iris.data.shape)
  16. print(iris.feature_names)
  17. print(iris.target_names)
  18. # (150,)
  19. # (150, 4)
  20. # ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
  21. # ['setosa' 'versicolor' 'virginica']

使用一个特征绘制柱状图:

  1. x_index = 3
  2. colors = ['blue', 'red', 'green']
  3.  
  4. for label, color in zip(range(len(iris.target_names)), colors):
  5. plt.hist(iris.data[iris.target==label, x_index],
  6. label = iris.target_names[label], color=color)
  7. plt.xlabel(iris.feature_names[x_index])
  8. plt.legend(loc='upper right')
  9. plt.show()

使用两个特征绘制散点图:

  1. x_index = 0
  2. y_index = 1
  3. colors = ['blue', 'red', 'green']
  4.  
  5. for label, color in zip(range(len(iris.target_names)), colors):
  6. plt.scatter(iris.data[iris.target == label, x_index],
  7. iris.data[iris.target == label, y_index],
  8. label=iris.target_names[label], # 图例内容
  9. color=color)
  10. plt.xlabel(iris.feature_names[x_index])
  11. plt.ylabel(iris.feature_names[y_index])
  12. plt.legend(loc='upper right') # 显示图例
  13. plt.show()

其他自带小型数据集(load的)均同理,以后遇到教程使用时不用再慌了。

『Sklearn』框架自带数据集接口的更多相关文章

  1. 『Sklearn』特征向量化处理

    『Kaggle』分类任务_决策树&集成模型&DataFrame向量化操作 1 2 3 4 5 6 7 8 9 '''特征提取器''' from sklearn.feature_extr ...

  2. sklearn提供的自带数据集

    sklearn 的数据集有好多个种 自带的小数据集(packaged dataset):sklearn.datasets.load_<name> 可在线下载的数据集(Downloaded ...

  3. 『Sklearn』数据划分方法

    原理介绍 K折交叉验证: KFold,GroupKFold,StratifiedKFold, 留一法: LeaveOneGroupOut,LeavePGroupsOut,LeaveOneOut,Lea ...

  4. 『计算机视觉』mini深度学习框架实现

    一.项目简介 手动实现mini深度学习框架,主要精力不放在运算优化上,仅体会原理. 地址见:miniDeepFrame 相关博客 『TensorFlow』卷积层.池化层详解 『科学计算』全连接层.均方 ...

  5. 『计算机视觉』Mask-RCNN_训练网络其一:数据集与Dataset类

    Github地址:Mask_RCNN 『计算机视觉』Mask-RCNN_论文学习 『计算机视觉』Mask-RCNN_项目文档翻译 『计算机视觉』Mask-RCNN_推断网络其一:总览 『计算机视觉』M ...

  6. 『TensorFlow』TFR数据预处理探究以及框架搭建

    一.TFRecord文件书写效率对比(单线程和多线程对比) 1.准备工作 # Author : Hellcat # Time : 18-1-15 ''' import os os.environ[&q ...

  7. sklearn提供的自带的数据集

    sklearn 的数据集有好多个种 自带的小数据集(packaged dataset):sklearn.datasets.load_<name> 可在线下载的数据集(Downloaded ...

  8. Python——sklearn提供的自带的数据集

    sklearn提供的自带的数据集 sklearn 的数据集有好多个种 自带的小数据集(packaged dataset):sklearn.datasets.load_<name> 可在线下 ...

  9. 『Java』Collection接口 Collections类

    接口Collection public interface Collection<E>定义了所有单列集合中共性的方法,所有的单列集合都可以使用共性方法. Collection的常用子接口有 ...

随机推荐

  1. VNC的安装和常用命令

    主要参考文章:http://www.cnblogs.com/coderzh/archive/2008/07/16/1243990.html                         http:/ ...

  2. Docker容器和数据可视化管理工具Flocker

    Flocker 可轻松实现 Docker 容器及其数据的管理.这是一个数据卷管理器和多主机的 Docker 集群管理工具,你可以通过它来控制数据.可用来在 Docker 中运行你的数据库.查询和 K/ ...

  3. 面试题之一(Spring和堆栈和逻辑运算符)

    1.&和&&区别? 都是逻辑运算符,都是判断两边同时为真,否则为假:但&&当第一个为假时,后面就不执行,而&则还是要继续执行,直至结束: ——————— ...

  4. 01: JavaScript实例

    1.1 基础 JavaScript 实例 <body> <script type="text/javascript"> document.write(&qu ...

  5. 更换 nodejs npm 镜像为 淘宝 镜像

    淘宝npm镜像官方介绍文档:https://npm.taobao.org/ ,使用命令在这个官方文档里查询. 安装工具cnpm: $ npm install -g cnpm --registry=ht ...

  6. max3232

    max3232采用专有低压差发送器输出级,利用双电荷泵在3.0V至5.5V电源供电时能够实现真正的RS-232性能,器件仅需四个0.1uF的外部小尺寸电荷泵电容.max3232确保在120kbps数据 ...

  7. Python3基础 函数 局部与全局变量同名,各管各的

             Python : 3.7.0          OS : Ubuntu 18.04.1 LTS         IDE : PyCharm 2018.2.4       Conda ...

  8. Specify Computed Columns in a Table

    https://docs.microsoft.com/en-us/sql/relational-databases/tables/specify-computed-columns-in-a-table ...

  9. 将DevExpress.Utils.ImageCollection变量的image导出

    private void tspBtnExportExcel_Click(object sender, EventArgs e) { //暂时用来导出图片 string filePath = Syst ...

  10. java项目中.classpath,.settings,.project,mymetadata文件的作用

    今天犯了一个错误,误修改了本地的.classpath文件,导致项目好多地方报错,之前也没有仔细的研究过项目中的一些生成文件的作用. 今天特此进行记录. 不管我们在eclipse中新建任何的Java项目 ...