《Python机器学习手册——从数据预处理到深度学习》

这本书类似于工具书或者字典，对于python具体代码的调用和使用场景写的很清楚，感觉虽然是工具书，但是对照着做一遍应该可以对机器学习中python常用的这些库有更深入的理解，在应用中也能更为熟练。

02-加载数据

包括：

加载样本数据集
创建仿真数据集
加载CSV文件
加载Excel文件
加载json文件
查询SQL数据库

其中1、2部分内容主要是sklearn库中datasets的基本应用，在02-加载数据：加载数据集进行详细叙述。

3-6部分主要是不同文件的读入，采用pandas模块，本文也会结合其他笔记进行补充。

02-3 加载CSV文件

CSV文件读写之前写过一篇，基本满足日常需求：https://www.cnblogs.com/camilia/p/16008389.html

在实际使用中会随时进行补充。

02-4 加载Excel文件

import pandas as pd
# sheetname 指加载哪张数据表，可以是表名字符串，也可以是表号（0开始）
# 如果需要读取多个表，sheetname可以作为列表，返回值为dataframe的字典
dataframe = pd.read_excel(url, sheetname = 0, header = 1)

02-5 加载json文件

import pandas as pd
dataframe = pd.read_json(url, orient = 'columns')

orient有多个选择状态，参考：https://blog.csdn.net/qq_41562377/article/details/90203805

最终也是将字符串数据转换为dataframe格式。

也可以采用json模块直接读取字典或列表。

02-6 查询SQL数据库

import pandas as pd
from sqlalchemy import create_engine
# 创建一个数据库的连接
database_connection = create_engine('sqline:///sample.db')
# 加载数据
dataframe = pd.read_sql_query('SELECT * FROM data', database_connection)

[Python]-pandas模块-机器学习Python入门《Python机器学习手册》-02-加载数据：加载文件的更多相关文章

[Python]-pandas模块-机器学习Python入门《Python机器学习手册》-03-数据整理
<Python机器学习手册--从数据预处理到深度学习> 这本书类似于工具书或者字典,对于python具体代码的调用和使用场景写的很清楚,感觉虽然是工具书,但是对照着做一遍应该可以对机器学习 ...
关于Python pandas模块输出每行中间省略号问题
关于Python数据分析中pandas模块在输出的时候,每行的中间会有省略号出现,和行与行中间的省略号....问题,其他的站点(百度)中的大部分都是瞎写,根本就是复制黏贴以前的版本,你要想知道其他问题 ...
[Python]-pandas模块-CSV文件读写
Pandas 即Python Data Analysis Library,是为了解决数据分析而创建的第三方工具,它不仅提供了丰富的数据模型,而且支持多种文件格式处理,包括CSV.HDF5.HTML 等 ...
python pandas模块,nba数据处理（1）
pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数.pandas兼具Numpy高性能的数组计算功能以及电子表格和关系型数据(如SQL)灵活的数据处理能力.它提供了复杂精细的索引功 ...
python - json模块使用 / 快速入门
json基本格式 """ json格式 -> [{}, {}]: [{ "name": "Bob", "gende ...
python: pandas模块
10分钟入门 pandas 评:我跟作者的智商差距是有多大,才能让我用60分钟看完作者认为10分钟的内容... 详细内容见 Cookbook 习惯上我们先导入 : In [1]: import pan ...
python pandas模块简单使用（读取excel为例）
第一步:模块安装 pip install pandas 第二步:使用(单个工作表为例) 说明:如果有多个工作表,那么只要指定sheetname=索引,(第一个工作表为0,第二个工作表为1,以此类推) ...
吴裕雄--天生自然python学习笔记：pandas模块用 dataframe.loc 通过行、列标题读取数据
用 df.va lue s 读取数据的前提是必须知道学生及科目的位置,非常麻烦 . 而 df.loc 可直接通过行.列标题读取数据,使用起来更为方便 . 使用 df.loc 的语法为: 行标题或列标题 ...
python pickle模块的使用/将python数据对象序列化保存到文件中
# Python 使用pickle/cPickle模块进行数据的序列化 """Python序列化的概念很简单.内存里面有一个数据结构, 你希望将它保存下来,重用,或者发送 ...

随机推荐

DBSync新增对MongoDB、ES的支持
数据库同步工具DBSync近日进行了升级,最新版本为V1.9,新增了对MongoDB.Elasticseach(ES)的支持,具体情况:1.支持同型库之间的同步,如:MongoDB至MongoDB,E ...
CADisplayLink、NSTimer循环引用解决方案
前言:CADisplayLink.NSTimer 循环引用问题 CADisplayLink.NSTimer会对Target产生强引用,如果target又对他们产生强引用,那么就会引发循环引用. @ ...
智能指针思想实践(std::unique_ptr, std::shared_ptr)
1 smart pointer 思想个人认为smart pointer实际上就是一个对原始指针类型的一个封装类,并对外提供了-> 和 * 两种操作,使得其能够表现出原始指针的操作行为. ...
JAVA编程练习01作业
1.已知y与x的关系:,要求:从键盘上输入一个x的值,输出其对应的y的值. 2. 输入一个圆半径(r),计算并输出圆的面积和周长. 3.输入一个三位正整数n,输出其个位.十位和百位上的数字. 4.根据 ...
JetBrains系列IDE创建文件模板
#coding:utf-8 ''' @version: python3.6 @author: '$USER' @license: Apache Licence @contact: steinven@q ...
关于webapi调用wcf并发假死的分析
原来IDFA(IOS推广获取到用户IOS手机的唯一标识,如果不刷机的话跟安卓的IMEI一样)在公司正常的页面是公用用一个网站和数据库的. 起初怀疑并发数太多,把数据库连接池的数量从一百设置到三百,确实 ...
在 IDEA 里下个五子棋不过分吧？
大家好,我是二哥呀!今天给大家分享一个基于Netty的IDEA即时聊天插件,可以实现即时聊天.游戏对战(下棋). GitHub 地址:https://github.com/anlingyi/xecha ...
WSL2安装Ubuntu20.04
前言:听说WSL2需要Window版本在1904以上(我的window版本是1909,所以未能验证真实性) 启用WSL 控制面板 → 程序 → 程序和功能 → 启用或关闭Windows功能勾选适用 ...
shell脚本常用方法总结
shell脚本给字符串添加颜色字颜色: echo -e "\033[30m 黑色字 \033[0m" echo -e "\033[31m 红色字 \033[0m&quo ...
mysql查询版本
系统环境下 :mysql -V; mysql内:select version();

[Python]-pandas模块-机器学习Python入门《Python机器学习手册》-02-加载数据：加载文件