关于pandas的一些用法
pandas用法之前我总是把他想的无比复杂。其实也是比较简单的,这个东西在做数据统计的时候还是挺好用的。
然后这里列举几个比较好用的几段代码。偏向数据透视类型pivot的,导出方式是直接在IDE 生成。
import pandas as pd
df = pd.read_excel(r'C:\Users\yjiang3\Desktop\VBA\22.xlsx')
pd.pivot_table(df,index=["DocumentTypeName","DocumentId"])#选取不同的索引
#如果第一个索引在excel里有大量的重复,就会只生成一个 然后对应不同的下一个索引
然后这个index就是索引, 里面的DocumentTypeName 会自动成为一列。
import numpy as np
import pandas as pd
df = pd.read_excel(r'C:\Users\yjiang3\Desktop\VBA\22.xlsx')
pd.pivot_table(df,index=["DataAnalyst","CountryId"],values=["ShareClassCount"],columns=["ProcessStatusName"],aggfunc=[np.sum],fill_value=0)
然后这个这一组pivot数据结构,先加上索引,计算shareclasscout,(这里要用到numpy 不然算不出来)然后多添加一列columns索引,aggfunc计算之和。
fill_value 设置为零,虽然不知道是什么意思。
import pandas as pd
path = r'C:\Users\yjiang3\Desktop\VBA\22.xlsx'
data = pd.DataFrame(pd.read_excel(path))
result = data.loc[data['DataAnalyst'] == 'Skylar.Yin@morningstar.com'] print(result)
然后来个筛选项:
import pandas as pd
path = r'C:\Users\yjiang3\Desktop\VBA\22.xlsx'
data = pd.DataFrame(pd.read_excel(path))
result = data.loc[data['DataAnalyst'] == 'Skylar.Yin@morningstar.com']
print(result)
来个小总结:
关于pandas的一些用法的更多相关文章
- Pandas之groupby( )用法笔记
groupby官方解释 DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True ...
- Pandas中Loc用法总结
摘自:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.loc.html 具体用法,假设数据源为: > ...
- pandas Timestamp的用法
(Timestamp('2018-08-01 00:00:00'), <class 'pandas._libs.tslibs.timestamps.Timestamp'>) 注意这里面的T ...
- numpy和pandas和matplotlib用法
numpy result = [ [0, 10, 20, 30, 40], [10, 23, 33, 43, 53], [20, 83, 23, 55, 33], [30, 93, 44, 22, 5 ...
- python3 pandas DataFrame常见用法
df = pandas.read_clipboard() df 获取索引和值 df.index df.values DataFrame的values属性将数据以二维ndarray形式返回,dtype类 ...
- pandas的DataFrame用法
用来生成DataFrame数据 1.说明: class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=F ...
- Py修行路 Pandas 模块基本用法
pandas 安装方法:pip3 install pandas pandas是一个强大的Python数据分析的工具包,它是基于NumPy构建的模块. pandas的主要功能: 具备对其功能的数据结构D ...
- Pandas的基本用法
Pandas是使用python进行数据分析不可或缺的第三方库.我们已经知道,NumPy的ndarray数据结构能够很好地进行数组运算,但是当我们需要进行为数据添加标签,处理缺失值,对数据分组,创建透视 ...
- pandas.Series函数用法
class pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False) e.g., ...
- python之pandas模块高级用法
一 agg,聚合,可以使用内置的函数 >>> import pandas as pd >>> import numpy as np >>> pp ...
随机推荐
- linux 服务器下发布前端
前提: 1.本地安装xshell和xftp 2.第一次需重置实例密码 3.22端口必须开启(默认开启) Linux安装nginx在linux下安装nginx,首先需要安装 gcc-c++编译器.然后安 ...
- 【转】BIO,NIO和AIO
本文转自:https://blog.csdn.net/qxy_1218/article/details/123941039 BIO,NIO和AIO是Java网络编程的三种模型 BIO:同步并阻塞,服务 ...
- CSS3 box-shadow盒子阴影
inset | offset-x | offset-y | blur-radius | spread-radius | color 阴影在边框内 x轴 y轴 模糊半径 扩散半径 阴影颜色 inset: ...
- ANT+JMETER+Jenkins 接口自动化
Linux环境下搭建:ANT+JMETER+Jenkins 接口自动化 一.准备环境: 1.下载 JDK1.8 JDK下载地址:https://www.oracle.com/java/technolo ...
- [JSOI2015]圈地
原题链接:P6094 [JSOI2015]圈地 题意简述 把一块 \(n \times m\) 的地分给两个人,选择分出第 \(i\) 行第 \(j\) 列的地可以获得 \(a_{i,j}\) 的收益 ...
- 简单的python线程池实现线程安全demo
from concurrent.futures import ThreadPoolExecutor import threading import time import sys sys.path.a ...
- 正在运行转换: System.Runtime.Remoting.RemotingException: 无法加载类型“EnvDTE._DTE
在编写T4,引用envdte时,遇到如下错误,解决方案:右击引用中的envdte,属性中将"嵌入互操作类型"为false,重新编译库即可. 错误信息如下: 严重性 代码 ...
- 访问网络共享(net use):发生系统错误 67。找不到网络名。
使用\\ip访问对方共享目录或使用net use \\ip 时: 发生系统错误 67.找不到网络名. 以下几项启用: 1,网卡勾选"Microsoft网络客户端". 2,启用服务& ...
- redis acl 修改密码
#redis acl 修改密码 acl setuser readwrite on >111111111 ~* &* +@allacl setuser readonly on >11 ...
- WDA学习(18):UI Element:TabStrip使用
1.11 UI Element:Tabstrip使用 本实例显示UI Element:Tabstrip的使用. 1.创建Component; 2.选择Layout页签,设置页面: 创建UI Eleme ...