pandas是基于numpy的数据分析模块,提供了大量标准模型和高效操作大型数据集所需要的工具。

  pandas主要提供了3种数据结构:1、Series,带标签的一维数组;2、DataFrame,带标签且大小可变的二维表格结构;3、Panel,带标签且大小可变的三维数组。

  使用:用pig工具下载和安装pandas

  导入:import pandas as pd

  1.生成一维数组

  import numpy as np

  x = pd.Series([1, 3,  5, np.nan])

  2.生成二维数组

  dates = pd.data_range(start  = '20130101', end = '20131231', freq = 'D') #间隔为天

  dates = pd.data_range(start  = '20130101', end = '20131231', freq = 'M') #间隔为月

  df = pd.DataFrame(np.random.randn(12, 4), index = dates, columns = list('ABCD'))

  df = pd.DataFrame([[np.random.randint(1, 100) for j in range(4)] for i in range(12)], index = dates, columns = list('ABCD')) #构造4列随机数

  df = pd.DataFrame({'A':[np.random.randint(1, 100) for i in range(4)], 'B':pd.date_range(start = '20130101', periods = 4, freq = 'D'), 'C':pd.Series([1, 2, 3, 4], index = list(range(4)), dtype = 'float32'), 'D':np.array([3] * 4, dtype = 'int32'), 'E':pd.Categorical(["test", "train", "test", "train"]), 'F':'foo'})

  df = pd.DataFrame({'A':[np.random.randint(1, 100) for i in range(4)], 'B':pd.date_range(start = '20130101', periods = 4, freq = 'D'), 'C':pd.Series([1, 2, 3, 4], index = list(range(4)), dtype = 'float32'), 'D':np.array([3] * 4, dtype = 'int32'), 'E':pd.Categorical(["test", "train", "test", "train"]), 'F':'foo'})

  3.二维数据查看

  df.head()  #默认显示前5行

  df.head(3)  #查看前3行

  df.tail(2)  #查看最后2行

  4.查看二维数据的索引、列名和数据

  df.index  #查看索引

  df.columns  #查看列名

  df.values  #查看数据

  5.查看数据的统计信息

  df.describe()  #返回平均值、标准差、最小值、最大值等信息

  6.二维数据转置

  df.T

  7.排序

  df.sort_index(axis = 0, ascending = False)   #对轴进行排序

  df.sort_index(axis = 1, ascending = False)

  df.sort_values(by = 'A')  #对数据进行排序

  df.sort_vlaues(by = 'A', ascending = False)  #对数据进行降序排列

  8.数据选择

  df['A']  #选择列

  df[0 : 2]  #使用切片选择多行

  df.loc[:, ['A', 'C']]  #选择多列

  df.loc[['zhang', 'zhou'], ['A', 'B', 'C', 'D']]  #同时指定多行与多列进行选择

  df.loc['zhang', ['A', 'B', 'C', 'D']]

  df.at['zhang', 'A']  #查询指定行、列位置的数据值

  df.iloc[3]  #查询第3行数据

  df.iloc[0:3, 0:4]  #查询前3行、前4列数据

  df.iloc[[0, 2, 3], [0, 4]]  #查询指定的多行、多列数据

  df[df.A > 50]  #按给定条件进行查询

python库pandas简介的更多相关文章

  1. python之pandas简介

    一. Pandas简介 1.Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的.Pandas 纳入了大量库和 ...

  2. python库pandas

    由于在机器学习中经常以矩阵的方式来表现数据,那么我们就需要一种数据结构来存储和处理矩阵.pandas库就是这样一个工具. 本文档是一个学习笔记,记录一些常用的命令,原文:http://www.cnbl ...

  3. Python库-Pandas

    Pandas是基于NumPy的一种数据分析工具,提供了大量使我们快速便捷处理数据的函数和方法. 中文官网地址:https://www.pypandas.cn Pandas基于两种数据类型:Series ...

  4. 顶级Python库

    绝不能错过的24个顶级Python库 Python有以下三个特点: · 易用性和灵活性 · 全行业高接受度:Python无疑是业界最流行的数据科学语言 · 用于数据科学的Python库的数量优势 事实 ...

  5. Python数据分析Pandas库方法简介

    Pandas 入门 Pandas简介 背景:pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观.它旨在成为在Python中进行实际, ...

  6. python库之-------Pandas

    包括两个数据结构:DataFrame和Series 官方文档地址: pandas https://pandas.pydata.org/pandas-docs/stable/index.html ser ...

  7. Python数据分析库pandas基本操作

    Python数据分析库pandas基本操作2017年02月20日 17:09:06 birdlove1987 阅读数:22631 标签: python 数据分析 pandas 更多 个人分类: Pyt ...

  8. Python 数据处理库 pandas 入门教程

    Python 数据处理库 pandas 入门教程2018/04/17 · 工具与框架 · Pandas, Python 原文出处: 强波的技术博客 pandas是一个Python语言的软件包,在我们使 ...

  9. 教程 | 一文入门Python数据分析库Pandas

    首先要给那些不熟悉 Pandas 的人简单介绍一下,Pandas 是 Python 生态系统中最流行的数据分析库.它能够完成许多任务,包括: 读/写不同格式的数据 选择数据的子集 跨行/列计算 寻找并 ...

随机推荐

  1. 16_Android生命周期再介绍,通过androidconfigChanges属性让界面旋转时不改变状态中保留的值

     A  android:configChanges属性 对android:configChanges属性,一般认为有以下几点: 1 不设置Activity的android:configChange ...

  2. uGUI使用代码动态添加Button.OnClick()事件(Unity3D开发之十二)

    猴子原创,欢迎转载.转载请注明: 转载自Cocos2Der-CSDN,谢谢! 原文地址: http://blog.csdn.net/cocos2der/article/details/42705885 ...

  3. Java学习笔记(二)事件监听器

    Java实现对组件事件(如单击.输入等)的监听和JavaScript类似,都是先添加Listener,再写触发函数,不同的是,Java实现监听前必须使用implements将各个接口添加到类内. 相关 ...

  4. GRUB与Linux系统修复(第二版)

    GRUB配置解析 配置文件保存在 /boot/grub/grub.conf[/boot分区最好应该单独划分出来] 软链接保存在 /etc/grub.conf 1.grub.conf文件分析 defau ...

  5. Concurrent包常用方法简介

    1 Executor接口 留给开发者自己实现的接口,一般情况下不需要再去实现.它只有一个方法 void execute(Runnable command) 2 ExecutorService接口 它继 ...

  6. Android服务器——使用TomCat实现软件的版本检测,升级,以及下载更新进度!

    Android服务器--使用TomCat实现软件的版本检测,升级,以及下载更新进度! 算下来,TomCat服务器已经写了很长一段时间了,一直说拿他来搞点事 情,也一直没做,今天刚好有空,交流群还有人请 ...

  7. PS 图像调整算法——亮度调整

    这个算法是参考自 阿发伯 的博客,在此对 阿发伯 表示感谢, http://blog.csdn.net/maozefa 亮度调整 非线性亮度调整: 对于R,G,B三个通道,每个通道增加相同的增量. 线 ...

  8. C++语言之类class

    在现实世界中,经常有属于同一类的对象.例如,你的自行车只是世界上很多自行车中的一辆.在面向对象软件中,也有很多共享相同特征的不同的对象:矩形.雇用记录.视频剪辑等.可以利用这些对象的相同特征为它们建立 ...

  9. Mybatis 源码之Plugin类解析

    public class Plugin implements InvocationHandler { private Object target; //目标对象 private Interceptor ...

  10. Herriot

    Herriot测试框架是Hadoop-0.21.0及以后版本中新加入的测试框架,它的出现主要是为了尽可能地模拟真实的大规模分布式系统,并且对该系统实现自动化测试.和Hadoop以前的测试框架MiniD ...