《Python机器学习手册——从数据预处理到深度学习》

这本书类似于工具书或者字典，对于python具体代码的调用和使用场景写的很清楚，感觉虽然是工具书，但是对照着做一遍应该可以对机器学习中python常用的这些库有更深入的理解，在应用中也能更为熟练。

以下是根据书上的代码进行实操，注释基本写明了每句代码的作用(写在本句代码之前)和print的输出结果（写在print之后）。不一定严格按照书上内容进行，根据代码运行时具体情况稍作顺序调整，也加入了一些自己的理解。

如果复制到自己的环境下跑一遍输出，相信理解会更深刻更清楚。

博客中每个代码块代表一次完整的运行结果，可以直接以此为单位复制并运行。

02-加载数据

包括：

加载样本数据集
创建仿真数据集
加载CSV文件
加载Excel文件
加载json文件
查询SQL数据库

其中1、2部分内容主要是sklearn库中datasets的基本应用，在本文中将进行详细叙述。

3-6部分主要是pandas库的读入，将在02-加载数据：加载文件中详细叙述。

02-1 加载样本数据集

# 加载现有数据集

from sklearn import datasets

# 加载手写数字数据集--图像分类

digits = datasets.load_digits()

print(digits.keys())

# dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])

# 加载波士顿房价数据集--回归

boston = datasets.load_boston()

print(boston.keys())

# dict_keys(['data', 'target', 'feature_names', 'DESCR', 'filename'])

# 加载鸢尾花数据集--分类

iris = datasets.load_iris()

print(iris.keys())

# dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

02-2 创建仿真数据集

# 创建仿真数据集

from sklearn.datasets import make_regression, make_classification, make_blobs, make_multilabel_classification

# 生成特征矩阵、目标向量以及模型系数--回归

features, target, coefficients = make_regression(n_samples = 100,

                                                 n_features = 3,

                                                 n_informative = 3,

                                                 n_targets = 1,

                                                 noise = 0.0,

                                                 coef = True,

                                                 random_state = 1)

# 生成特征矩阵、目标向量以及模型系数--分类

features, target = make_classification(n_samples = 100,

                                       n_features = 3,

                                       n_informative = 3,

                                       n_redundant = 0,

                                       n_classes = 2,

                                       weights = [.25, .75],

                                       random_state = 1)

# n_samples=100, # 样本个数

# n_features=20, # 特征个数

# n_informative=2, # 有效特征个数,有价值的重要特征

# n_redundant=2, # 冗余特征个数（有效特征的随机组合）,将重要特征进行线性组合的特征

# n_repeated=0, # 重复特征个数（有效特征和冗余特征的随机组合）

# n_classes=2, # 样本类别

# n_clusters_per_class=2, # 蔟的个数,簇的个数，某一个类别由几个簇构成

# weights=None, # 每个类的权重 用于分配样本点

# flip_y=0.01, # 随机交换样本的一段 y噪声值的比重

# class_sep=1.0, # 类与类之间区分清楚的程度

# hypercube=True, # 如果为True，则将簇放置在超立方体的顶点上；如果为False，则将簇放置在随机多面体的顶点上。

# shift=0.0, # 将各个特征的值移动，即加上或减去某个值

# scale=1.0, # 将各个特征的值乘上某个数，放大或缩小

# shuffle=True, # 是否洗牌样本

# random_state=None, # 随机种子

# 类别数量统计

from collections import Counter

print(Counter(target)) # Counter({1: 75, 0: 25})

# 特征维度

print(features.shape) # (100, 3)

# 生成特征矩阵、目标向量以及模型系数--多标签分类，一个features对应多个target

features, target = make_multilabel_classification(n_samples = 100,

                                       n_features = 10,

                                       n_classes = 5,

                                       n_labels = 2,

                                       length =50,

                                       allow_unlabeled = True,

                                       sparse = False,

                                       return_indicator='dense',

                                       return_distributions=False,

                                       random_state = None)

# 特征维度

print(features.shape) # (100, 10)

# 多标签示例

print(target[:4])

# [[1 1 0 1 0]

#  [0 1 0 0 0]

#  [0 1 0 0 1]

#  [0 1 0 1 1]]

# 生成特征矩阵、目标向量以及模型系数--聚类

features, target = make_blobs(n_samples = 100,

                              n_features = 2,

                              centers = 3,

                              cluster_std = 0.5,

                              shuffle = True,

                              random_state = 1)

# n_samples=100, # 样本数量，如果是数组，则序列的每个元素表示每个聚簇的样本数量。

# n_features=2, # 特征数量

# centers=None, # 中心，一种是int决定生成的中心数量，一种是array决定固定的中心位置(长度等于n_samples数组长度)

# cluster_std=1.0, # 聚簇的标准差

# center_box(-10.0, 10.0), # 聚簇中心的边界框

# shuffle=True, # 是否洗牌样本

# random_state=None #随机种子

# 聚类数据集可视化

import matplotlib.pyplot as plt

plt.figure()

plt.title('Data')

plt.scatter(features[:, 0], features[:, 1], marker='o', c=target, s=30)

plt.show()

plt.savefig('blobs.png')

plt.close()

[Python]-sklearn模块-机器学习Python入门《Python机器学习手册》-02-加载数据：加载数据集的更多相关文章

python - json模块使用 / 快速入门
json基本格式 """ json格式 -> [{}, {}]: [{ "name": "Bob", "gende ...
python pickle模块的使用/将python数据对象序列化保存到文件中
# Python 使用pickle/cPickle模块进行数据的序列化 """Python序列化的概念很简单.内存里面有一个数据结构, 你希望将它保存下来,重用,或者发送 ...
python openpyxl模块实现excel的读取,新表创建及原数据表追加新数据
当实际工作需要把excel表的数据读取出来,或者把一些统计数据写入excel表中时,一个设计丰富,文档便于寻找的模块就会显得特别的有吸引力,本文对openpyxl模块的一些常见用法做一些记录,方便工作 ...
Python Deque 模块使用详解,python中yield的用法详解
Deque模块是Python标准库collections中的一项. 它提供了两端都可以操作的序列, 这意味着, 你可以在序列前后都执行添加或删除. https://blog.csdn.net/qq_3 ...
Python 数据分析（一）本实验将学习 pandas 基础，数据加载、存储与文件格式，数据规整化，绘图和可视化的知识
第1节 pandas 回顾第2节读写文本格式的数据第3节使用 HTML 和 Web API 第4节使用数据库第5节合并数据集第6节重塑和轴向旋转第7节数据转换第8节字符串操作 ...
Andrew Ng机器学习算法入门(二):机器学习分类
机器学习的定义 Arthur Samuel给出的定义,Field of Study that gives computers the ability to learn without being ex ...
Python入门之Python引用模块和查找模块路径
#这篇文章主要介绍了Python引用模块和Python查找模块路径的相关资料,需要的朋友可以参考下模块间相互独立相互引用是任何一种编程语言的基础能力.对于“模块”这个词在各种编程语言中或许是不同的, ...
认识python正则模块re
python正则模块re python中re中内置匹配.搜索.替换方法见博客---python附录-re.py模块源码(含re官方文档链接) 正则的应用是处理一些字符串,phthon的博文python ...
小白如何入门 Python 爬虫？
本文针对初学者,我会用最简单的案例告诉你如何入门python爬虫! 想要入门Python 爬虫首先需要解决四个问题熟悉python编程了解HTML 了解网络爬虫的基本原理学习使用python爬虫 ...

随机推荐

BetterScroll源码阅读顺便学习TypeScript
开头 TypeScript已经出来很多年了,现在用的人也越来越多,毋庸置疑,它会越来越流行,但是我还没有用过,因为首先是项目上不用,其次是我对强类型并不敏感,所以纯粹的光看文档看不了几分钟就心不在焉, ...
Codeforces Round #790 (Div. 4) A-H
Codeforces Round #790 (Div. 4) A-H A 题目 https://codeforces.com/contest/1676/problem/A 题解思路知识点:模拟. ...
JAVA中简单的for循环竟有这么多坑，你踩过吗
JAVA中简单的for循环竟有这么多坑,你踩过吗实际的业务项目开发中,大家应该对从给定的list中剔除不满足条件的元素这个操作不陌生吧? 很多同学可以立刻想出很多种实现的方式,但你想到的这些实现方式 ...
Cisco Packet Tracer Student（思科网络模拟器）模拟集线器和嗅探攻击
一.集线器简介集线器是局域网内的基础设备,工作于OSI中的物理层,作用是将接收的信号进行放大再传输,集线器是纯硬件设施,集线器开发之初就没考虑过软件层面的操作,所以不具备像路由器.交换机等设备那样具 ...
Redis 渐进集群介绍
redis 凭借着强大的功能和可靠的稳定性,应用场景越来越广.逐渐成为软件开发工程师必备的技能之一. 本篇文章,暂不做基本功能的介绍.直接教大家如何部署redis集群. 集群演进主要分为2部分. 一. ...
比起网易有数BI，也许这款数据可视化软件更适合你！
有数BI是网易推出的面向企业客户的可视化敏捷BI产品.拥有数据填报和自助式商业智能分析产品,提供网页端和手机端应用,帮助客户快速实现数据填报.多维分析.大数据探索.实时大数据展示和成员分享. 山海鲸可 ...
Oracle,SAP等暂停俄所有业务,国产化刻不容缓,无代码又该如何发力
国产化刻不容缓 "如果不是自主可控的产品,我们这个行业可能有一天就瘫痪了."这句话最早是中国工程院院士倪先生预言的.然而,2022年的今天,由于俄乌战争,包括Oracle.SAP等 ...
音响音箱/恒温壶/电量显示/电子数字时钟等LED数码管显示驱动IC-VK1640B 8段12位/12段8位显示
市面上最常用的数码管为七段/八段显示,八段数码管比七段数码管多一个发光二极管单元(比七段数码管多一个点),又按能显示多少个"8"可分为1位.2位.4位等等.数码管又分为共阳极驱动/ ...
shell中各种括号的用法
一.单小括号()1.将某个命令的返回值作为某个变量的值进行传递 #!/bin/bash USER=$(whoami) echo $USER [root@jump ~]# for i in $(seq ...
丽泽普及2022交流赛day18 社论
A 暴力扫一遍 B 算法 0 似乎是二分算法 1 随便贪心 C 算法 1 枚举一个点作为最大值 / 最小值,用单调栈维护其作为答案的左右端点即可轻易计算 . 时间复杂度 $O(n)$ . 算法 ...