python padas 学习

import matplotlib

from pandas import DataFrame

import numpy as np

import pandas as pd

import MySQLdb

import matplotlib.pyplot as plt

#df =Padaas dataframe 对象(二维标记数组)

#s =Pandas series对象(一维标记数组)

db = MySQLdb.connect(host="localhost", port=3306, user="root", passwd="", db='spj',charset="utf8")#连接数据库

filename = 'count_day.csv'#文件路径名

query = 'select * from j'#sql查询语句

'''

#导入数据

pd.read_excel(filename)#从excel文件导入数据

pd.read_table(filename)#和csv一样，必须界定分隔符

pd.read_json(json-string)#从json格式的字符串导入数据

pd.read_html(url)#解析url，html文件，导入其中的tables表格

pd.read_clipboard()#从粘贴板获取内容，传给read_tables()

#从sql数据库导入数据

df=pd.read_sql(query,db)

#从csv导入数据

#index_col为指定数据中哪一列作为Dataframe的行索引

#分隔符默认为,分隔

df = pd.read_csv(filename,sep=',',header=None,index_col=0)

#导出数据

df.to_csv('ans.csv',index=False,sep=',')#导出数据到csv

df.to_excel(filename)#导出数据到excel

df.to_sql(table_name,db)#导出数据到sql

df.to_json(filename)#以json格式导出数据到文本文件

#自己构造dataframe数据

df = pd.DataFrame([[1,2,3],[4,5,6]],columns=['f1','f2','f3'])#columns是列索引

df = pd.DataFrame({'user-id':['行1','行2','行3'],'item_id':['商品1','商品2','商品3']})#按列构造

df = pd.DataFrame([{'user-id':'用户1','item-id':'商品1'},{'user-id':'用户2'}])#按行构造

#查看数据

show = df.head(1)#head(n)，查看前n行

show = df.tail(1)#查看最后n列

show = df.shape#查看行数和列数

show = df.info()#查看索引，数据类型和内存信息

show = df.describe()#查看数值型列的汇总信息

show = df['item-id'].value_counts(dropna=False)#查看Series对象的唯一值和计数

show = df['item-id'].unique()#查看Series不重复的值

#数据选取

s = df['user-id']#(name)获取一列的数据，返回值为Series

df = df[['user-id','item-id']]#(list)选取某几列,返回为Dataframe

show = s.iloc[0]#按位置选取数据（Serieas可以省略df['user_id'][0]）

show = df.iloc[0,0:2]#(row,col)返回第一行,从0到2列

show = s.loc['item-id']#按索引选取数据

show = df.sample(frac=0.5)#按比例随机采样

show = df.sample(n=len(df))#指定采样个数

'''

#自己构造dataframe数据

df = pd.DataFrame([[1,2,3],[4,5,6]],columns=['f1','f2','f3'])#columns是列索引

df = pd.DataFrame([{'user-id':'用户1','item-id':1},{'user-id':'用户2'}])#按行构造

df = pd.DataFrame({'user_id':['行1','行1','行3'],'item_id':['商品1','商品2','商品3'],'test_id':[12,11,4]})#按列构造

'''

#数据整理

show = df.isnull()#查看对象中的空值,返回一个bool类型

show = df.notnull()#查看对象中的非空值,返回一个bool类型

show = df.dropna(axis=0)#删除所有包含空格的行

show = df.dropna(axis=1)#删除所有包含空格的列

show = df.dropna(axis=0,thresh=2)#删除所有小于(thresh)个非空值的行

show = df.fillna('商品id')#对所有空值填充，可指定哪几列(df[].fillna())

show = df.fillna(df.mode().iloc[0])#众值填充

show = df.fillna(df.median())#中位数填充

show = df["item-id"].fillna('填充')#对某一列填充

show = df["item-id"].astype(float)#更改某一列的数据类型

show = df["item-id"].replace(1,'one')#用‘one'代替所有等于1的值

show = df.rename(columns=lambda x:x+"1")#批量更改列名

show = df.rename(index=lambda x:x+"1")#批量更改索引

show = df.rename(columns={'item-id':'商品id'})#选择性更改列名

show = df.set_index('item-id',append=False) #将某一列变成索引,append=true添加新索引

df1 = df.sample(n=1)

df2 = df.sample(frac=0.5)商品种类

df3 = pd.concat([df1,df2])#合并两个数据集

show = df3.reset_index(drop=False)#重置索引,drop=true舍弃以前的索引

#数据处理

show = df[df['test_id']>4]#选择'test_id'列>4的行

show = df.sort_values(by='test_id',ascending=True)#按照列‘test_id’排序，默认升序

show = df.sort_values(by=['test_id','item_id'],ascending=[True,False])#先按列‘test_id’排升序，后按'item_id'排降序

show = df.groupby('user_id')['test_id'].apply(np.mean)#按‘user_id’分组后,对其'test_id'求均值

show = df.pivot_table(index='user_id',values=['item_id','test_id'],aggfunc=min)#按索引分组,值,每组里面的最小值

show = df.groupby('user_id',as_index=False)['test_id'].agg({'商品种类':'count','商品总数':'sum'})

#先分组，根据'test_id'字段做统计，as_index默认将依据分组字段作为索引

show = df['test_id'].apply(np.mean)#对df中的每一列应用函数np.mean

show = df.apply(np.max,axis=1)#对df中的每一列应用函数np.mean(必类型统一)

for index,row in df.iterrows():

    #index索引，row每一行，输出时，选取其中的一个或几个字段输出

    print(index,row['user_id'],row['test_id'])

for key,df in df.groupby('user_id'):

    #key='user_id',df是分组后的数据

    print(key,len(df),df)

#构造分组特征，对'user_id'分组,对一个S对象，计算等级(rank)

#rank:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.rank.html

show = df.groupby('user_id',as_index=False)['test_id'].rank(ascending=False,method='average')

#数据合并

df = df1.append(df2)#将df2中的行添加到df1的尾部

df = pd.concat([df1,df2],axis=1)#按列合并（axis=1）,按行合并（axis=0）(都要保证对应的行和列是一样的)

df = pd.merge(df1,df2,on='user_id',how='inner')#对df1,df2的列进行类似SQL的join操作

#集合差集计算

df1 = pd.DataFrame({'user':[1,2,3,4],'id':[101,102,103,104]})

df2 = pd.DataFrame({'user':[1,2]})

df2['flag']=1#设置一个标志列

df = pd.merge(df1,df2,on='user',how='left')#左连接

df = df[df.flag.isnull()].drop('flag',axis=1)#对df1中出现的df2删除行，并且删除'flag'列

#统计函数

show = df.mean()#返回所有列的均值

show = df.corr()#返回列于列的关系函数

show = df.user_id.corr(df.test_id)#

show = df.count()#返回每一列非空值的个数

show = df.max()#每一列最大值

show = df.min()#每一列最小值

show = df.median()#返回每一列的中位数

show = df.std()#返回每一列的标准差

show = df.dtypes()#查看数据类型

show = df.isnull.sum()#查看每一列的空值个数

'''

#画图函数

zhfont = matplotlib.font_manager.FontProperties(fname=r'C:/Windows/Fonts/FZYTK.TTF') # chinese

#直方图

hist = df['user_id'].hist()#查看变量分布

hist.plot()

#折线图

s = df['test_id']

s.plot()

df.plot()

#柱图

fig, axes = plt.subplots(2, 1)

s = df['test_id']

s.plot(kind='bar', ax=axes[0], color='k', alpha=0.7)

s.plot(kind='barh', ax=axes[1], color='k', alpha=0.7)

plt.legend(prop=zhfont)

plt.show()

参考资料：

http://pandas.pydata.org/pandas-docs/stable/api.html#binary-operator-functions

https://blog.csdn.net/hustqb/article/details/54410670

python padas 学习的更多相关文章

【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
60分钟Python快速学习(给发哥一个交代)
60分钟Python快速学习之前和同事谈到Python,每次下班后跑步都是在听他说,例如Python属于“胶水语言啦”,属于“解释型语言啦!”,是“面向对象的语言啦!”,另外没有数据类型,逻辑全靠空 ...
python爬虫学习(1) —— 从urllib说起
0. 前言如果你从来没有接触过爬虫,刚开始的时候可能会有些许吃力因为我不会从头到尾把所有知识点都说一遍,很多文章主要是记录我自己写的一些爬虫所以建议先学习一下cuiqingcai大神的 Pyth ...
python爬虫学习 —— 总目录
开篇作为一个C党,接触python之后学习了爬虫. 和AC算法题的快感类似,从网络上爬取各种数据也很有意思. 准备写一系列文章,整理一下学习历程,也给后来者提供一点便利. 我是目录听说你叫爬虫 - ...
Python正则表达式学习摘要及资料
摘要在正则表达式中,如果直接给出字符,就是精确匹配. {m,n}? 对于前一个字符重复 m 到 n 次,并且取尽可能少的情况在字符串'aaaaaa'中,a{2,4} 会匹配 4 个 a,但 a{2 ...
python 线程学习
彩照一.学习[1] # -*- coding: utf-8 -*- import time import thread def timer(no, interval): cnt = 0 while ...
Openstack python api 学习文档 api创建虚拟机
Openstack python api 学习文档转载请注明http://www.cnblogs.com/juandx/p/4953191.html 因为需要学习使用api接口调用openstack ...
!!对python列表学习整理列表及数组详细介绍
1.Python的数组分三种类型:(详细见 http://blog.sina.com.cn/s/blog_6b783cbd0100q2ba.html) (1) list 普通的链表,初始化后可以通过特 ...
Python实战：Python爬虫学习教程，获取电影排行榜
Python应用现在如火如荼,应用范围很广.因其效率高开发迅速的优势,快速进入编程语言排行榜前几名.本系列文章致力于可以全面系统的介绍Python语言开发知识和相关知识总结.希望大家能够快速入门并学习 ...

随机推荐

vue教学视频（小程序教学视频）
写在前面最近通过了解众多面试者的面试情况总结出以下几点: 对框架的要求越来越高特别是vue和小程序不会vue和小程序连面试机会都没有会vue的比不会vue的薪资高4-5k 小程序有发展的趋势 ...
iis7 设置http 自动跳转到https
https://www.cnblogs.com/wxbug/p/7054972.html
；html5斜体字
font-style:italic; italic|oblique|normal 依次倾斜,越来越邪:
selenium的三种等待方式
selenium有三种等待方式 1.time.sleep() 设置等待最简单的方法就是强制等待,但一般不建议使用,可以在调试的时候进行使用 2.隐性等待 driver.implictily_wait( ...
commons-lang常用方法
跟java.lang这个包的作用类似,Commons Lang这一组API也是提供一些基础的.通用的操作和处理,如自动生成toString()的结果.自动实现hashCode()和equals()方法 ...
Big Txt File(一)
对于当今的数据集来说,动不动就上G的大小,市面的软件大多不支持,所以需要自己写一个. 常见的txt文本行形式存储的时候也不过是行数多些而已,可以考虑只观测部分行的方式,基于这个思路可以搞一个大数据的浏 ...
Python03（Linux和Python简介）
Trainning-day02回顾1.rmdir : 删除空文件夹2.rm :删除文件或者文件夹 -r 删除目录以及其内容 -i 删除前的提示 -f 强制删除3.通配符 * 匹配任意多个任意字符 ?匹 ...
集合和format
昨天没来及整理博客,有点小累.休息了一下,今天的内容比较多集合还是按照之前的方法,整理了一边所有的方法,其次在看了下format的方法还有一些函数,暂时学了一点还不知道怎么整理 s = {,,, ...
C# 比较和排序（IComparable和IComparer以及它们的泛型实现）
准备工作: 1.创建实体类:ClassInfo,默认想要对其按照班级学生数量进行排序 public class ClassInfo { /// <summary> /// 班级名称 // ...
VUE处理组件赋值 watch 监听不到赋值问题
开发中,遇到了一个BUG,做的页面类似于导航切换效果.两个组件传值. 上方导航组件 (主动) 左侧导航组件 (被动) 点击上方导航,左侧导航实现变换对应的栏目. 实现过程中,遇到了点问题.左 ...

python padas 学习

python padas 学习的更多相关文章

随机推荐

热门专题