Pandas学习之路【1】

安装pandas：

pip install pandas

pandas读取数据：

数据类型	读取方式
csv, tsv, txt	pd.read_csv
Excel	pd.read_excel
mysql	pd.read_sql

1.读取csv文件数据

import pandas as pd

# 文件路径

path = 'C:\\Users\\zhang\\Desktop\\ant-learn-pandas-master\\datas\\titanic\\titanic_test.csv'

# 读取数据

ratings = pd.read_csv(path)

# 查看数据的形状, (行数，列数)

ratings.shape

# 查看列名

ratings.columns

# 查看每一列的数据类型

ratings.dtypes

# 查看索引列

ratings.index

# 查看前几行数据

ratings.head()

2.读取txt文件【需要自己指定列的分隔符，自己定义列名】

path = 'C:\\Users\\zhang\\Desktop\\ant-learn-pandas-master\\mydata.txt'

# 参数解释：

# path：路径

# sep：分隔符

# header=None，文件中没有表头

# names：读取数据后自己定义的表头 字段名

pvnv = pd.read_csv(

    path,

    sep='\t',

    header=None,

    names=['pdate', 'pv', 'nv']

)

3.读取Excel文件数据

path = 'C:\\Users\\zhang\\Desktop\\ant-learn-pandas-master\\39. pdf_chinese_english.xlsx'

pvuv = pd.read_excel(path)

4.读取MySQL数据库的表数据

# 创建数据库连接

import pymysql

conn = pymysql.connect(

		host = '127.0.0.1',

		user = 'root',

		password = '123456',

		database = 'testdb',

		chartset = 'utf8'

)

# 读取mytb表的数据

mysql_data = pd.read_sql('select * from mytb', con = conn)

5.pandas的数据结构【DataFrame, Series】

DataFrame：整个表格数据，二维数据

Series：一行或一列，一维数据

　　创建series的三种方式：

方式一：根据列表创建一个简单的series

# 创建一个series s1

s1 = pd.Series([1, 'a', 2.5, 7])

# 获取s1的索引

s1.index

# 获取s1的数据

s1.values

方式二：创建一个具有标签索引的series【不再使用默认的数字作为索引，而是使用自定义的标签作为索引】

s2 = pd.Series([1, 'a', 2.5, 7], index=['a', 'b', 'c', 'd'])

# 获取s2的索引

s2.index

# 获取s2的数据

s2.values

方式三：使用字典创建一个series

sdata = {'a': 100, 'b': 200, 'c': 300, 'd': 400}

s3 = pd.Series(sdata)

# 获取s3的索引【sdata中的keys】

s3.index

# 获取s3的数据【sdata中的values】

s3.values

　　查询Series的数据：

# 查看全部

print(s3)

# 查看某一个索引的值

s3['a']

# 查看数据类型

type(s3['a'])

# 查看多个值

s3[['a', 'b']]

# 查看类型

type(s3[['a', 'b']])

DataFrame ** 结构【表格类型】：

使用字典创建一个DataFrame:

data = {

	'state': [1,2,3,4,5,6],

	'year': [1,2,3,4,5,6],

	'pop': [1,2,3,4,5,6]

}

df = pd.DataFrame(data)    # 创建后的表格为：6行3列

# 查看类型

df.dtypes

# 查看列名

df.columns

# 查看索引

df.index

从DataFrame中查询Series:

如果是查询一行、一列，返回的是pd.Series
如果是查询多行、多列，返回的是pd.DataFrame

# 查询一列

df['year']

type(df['year'])  # 返回的是pd.Series类型

# 查询多列

df[['year', 'pop']]

type(df[['year', 'pop']])  # 返回的是pd.DataFrame类型

# 查询一行

# 查询index=1的一行

df.loc[1]

type(df.loc[1])  # 返回的是pd.Series类型

# 查询多行

# 查询：第1行-第3行

df.loc[1:3]

type(df.loc[1:3])  # 返回的是pd.DataFrame类型

Pandas学习之路【1】的更多相关文章

“戏精少女”的pandas学习之路，你该这么学！No.5
如果文章图片无法观看,请前往CSDN博客观看 https://blog.csdn.net/hihell 戏精博主即将上线就在上一篇,梦想橡皮擦这位博主经过艰苦的努力终于能创建一个dataframe ...
pandas学习系列（一）：时间序列
最近参加了天池的一个机场航空人流量预测大赛,需要用时间序列来预测,因此开始使用python的pandas库发现pandas库功能的确很强大,因此在这记录我的pandas学习之路. # -*- cod ...
Python学习之路-Day1-Python基础
学习python的过程: 在茫茫的编程语言中我选择了python,因为感觉python很强大,能用到很多领域.我自己也学过一些编程语言,比如:C,java,php,html,css等.但是我感觉自己都 ...
jQuery学习之路（1）-选择器
▓▓▓▓▓▓ 大致介绍终于开始了我的jQuery学习之路!感觉不能再拖了,要边学习原生JavaScript边学习jQuery jQuery是什么? jQuery是一个快速.简洁的JavaScript ...
Android开发学习之路-RecyclerView滑动删除和拖动排序
Android开发学习之路-RecyclerView使用初探 Android开发学习之路-RecyclerView的Item自定义动画及DefaultItemAnimator源码分析 Android开 ...
RPC远程过程调用学习之路（一）：用最原始代码还原PRC框架
RPC: Remote Procedure Call 远程过程调用,即业务的具体实现不是在自己系统中,需要从其他系统中进行调用实现,所以在系统间进行数据交互时经常使用. rpc的实现方式有很多,可以通 ...
webService学习之路（三）：springMVC集成CXF后调用已知的wsdl接口
webService学习之路一:讲解了通过传统方式怎么发布及调用webservice webService学习之路二:讲解了SpringMVC和CXF的集成及快速发布webservice 本篇文章将讲 ...
[精品书单] C#/.NET 学习之路——从入门到放弃
C#/.NET 学习之路--从入门到放弃此系列只包含 C#/CLR 学习,不包含应用框架(ASP.NET , WPF , WCF 等)及架构设计学习书籍和资料. C# 入门 <C# 本质论&g ...
Redis——学习之路四（初识主从配置）
首先我们配置一台master服务器,两台slave服务器.master服务器配置就是默认配置端口为6379,添加就一个密码CeshiPassword,然后启动master服务器. 两台slave服务 ...
Redis——学习之路三（初识redis config配置）
我们先看看config 默认情况下系统是怎么配置的.在命令行中输入 config get *(如图) 默认情况下有61配置信息,每一个命令占两行,第一行为配置名称信息,第二行为配置的具体信息. ...

随机推荐

Redis和elasticsearch
redis -----------NOSQL的对比和劣和应用场景参考好文http://www.redis.cn/articles/20181020003.html --------- -------- ...
Linux之bond和team
一.bond 和 team 区别 bond只能是双网卡绑定,team不需要手动加载相应内核模块和有更强的拓展性,最高可以绑定8块网卡. 二.模式 bond模式 (1)mode=0(balance-rr ...
c# 模拟web请求formdata webrequest
前言在写代码中,我们常常需要去书写代码去请求一些东西,那么是不是可以模拟像web formdata一样请求. 正文下面代码为模拟的: public string SendRequest(strin ...
第五章-for循环的练习
/* * @Issue: 每个苹果0.8元,第一天买两个苹果,从第二天开始,每天买前一天的两倍,直至购买的苹果数量 * 个数达到不超过100的最大值,编写程序求每天平均花多少钱. * @Author: ...
Django框架——Q查询进阶、ORM查询优化、事务操作、字段类型、字段参数、Ajax、Content—Type、ajax携带文件
Q查询进阶 from django.db.models import Q q_obj = Q() # 1.产生q对象 q_obj.connector = 'or' # 默认多个条件的连接是and可以修 ...
如何落地云原生DevOps？
简介: 什么是云原生DevOps?在阿里内部有怎样的实践?企业又该如何落地?阿里云云效专家团队提出了下一代精益产品开发方法体系--ALPD,提供了系统的云原生DevOps落地的方法支撑,帮助企业渐进式 ...
RocketMQ 端云一体化设计与实践
简介:本文首先介绍了端云消息场景一体化的背景,然后重点分析了终端消息场景特点,以及终端消息场景支撑模型,最后对架构和存储内核进行了阐述.我们期望基于 RocketMQ 统一内核一体化支持终端和服务端不 ...
基于 KubeVela 的 GitOps 交付
简介: KubeVela 是一个简单.易用.且高可扩展的云原生应用管理和交付平台,KubeVela 背后的 OAM 模型天然解决了应用构建过程中对复杂资源的组合.编排等管理问题,同时也将后期的运维策 ...
如何高效学习 Kubernetes 知识图谱？
简介: Kubernetes 知识图谱遵循云原生人才学习路径搭建课程体系框架,及人才发展路线设置不同阶段,由浅入深,帮助云原生人才学习容器基础.Kuternetes 网络.存储.资源对象.服务发现. ...
rerank来提升RAG的准确度的策略
RAG(Retrieval-Augmented Generation)是一种结合检索和生成两种技术的模型,旨在通过检索大规模知识库来增强文本生成任务的准确性. 要通过reranking(重排序)来提升 ...

Pandas学习之路【1】

Pandas学习之路【1】的更多相关文章

随机推荐

热门专题