pandas学习(数据分组与分组运算、离散化处理、数据合并)

数据分组与分组运算

离散化处理

　数据合并

数据分组与分组运算

GroupBy技术：实现数据的分组，和分组运算，作用类似于数据透视表

数据分组－－〉归纳

程序示例：

import numpy as np

import pandas as pd

# 读入数据

df=pd.read_csv('data1.txt')

print('原始数据')

print(df)

#返回一个对象

group=df.groupby(df['产地'])

#计算分组后的各个统计值

print('根据产地进行分组')

print(group.mean())

print(group.sum())

# 只计算某列的结果

print('根据年代进行分组，然后统计每一个年代的平均评分')

print(df['评分'].groupby(df['年代']).mean())

#根据多个分组变量进行分组

print('多个分组变量进行分组')

print(df.groupby([df['产地'],df['年代']]).mean())

#获得每一个地区，每一年的电影的评分的均值

print('多个分组变量进行分组之操作某列')

print(df['评分'].groupby([df['产地'],df['年代']]).mean())

运行结果：

原始数据

       名字    投票人数        类型    产地        上映时间   时长    年代   评分

0    美丽人生   42995  剧情/喜剧/爱情   意大利  1997-12-20  116  1997  9.5

1    阿甘正传  580897     剧情/爱情    美国  1994-06-23  142  1994  9.4

2  肖申克的救赎  692795     剧情/犯罪    美国  1994-09-10  142  1994  9.6

3    控方证人   42995  剧情/悬疑/犯罪    美国  1957-12-17  116  1957  9.5

4    霸王别姬  478523  剧情/爱情/同性  中国大陆  1993-01-01  171  1993  9.4

根据产地进行分组

               投票人数          时长           年代   评分

产地

中国大陆  478523.000000  171.000000  1993.000000  9.4

意大利    42995.000000  116.000000  1997.000000  9.5

美国    438895.666667  133.333333  1981.666667  9.5

         投票人数   时长    年代    评分

产地

中国大陆   478523  171  1993   9.4

意大利     42995  116  1997   9.5

美国    1316687  400  5945  28.5

根据年代进行分组，然后统计每一个年代的平均评分

年代

1957    9.5

1993    9.4

1994    9.5

1997    9.5

Name: 评分, dtype: float64

多个分组变量进行分组

             投票人数   时长   评分

产地   年代

中国大陆 1993  478523  171  9.4

意大利  1997   42995  116  9.5

美国   1957   42995  116  9.5

     1994  636846  142  9.5

多个分组变量进行分组之操作某列

产地    年代

中国大陆  1993    9.4

意大利   1997    9.5

美国    1957    9.5

      1994    9.5

Name: 评分, dtype: float64

离散化处理

#在实际的数据分析项目中，对有数据属性，我们往往并不是关注数据的绝对数值，只关注它所处的区间或者等级

# 比如，我们可以把评分9分及以上的电影定义为A，7到9分为B，5到7分定义为C，3到5分定义为D,小于3分定义为E

#离散化也被称为分组，区间化

#pandas为我们提供了方便的函数cut()

# pandas.cut( x , bins , right=True , labels=None , retbins=False , precision=3 , include_lowest=False,duplicates='raise')

#  参数说明: 

#

#      x    : 进行划分的一维数组；

#      bins :如果是整数---将x划分为多少个等间距的区间，如代码一；

#      bins :如果是序列，则将x划分在指定的序列中，若不在该序列中，则是NaN ，如代码二；

#      right : 是否包含右端点；

#      labels : 是否用标记来代替返回的bins，如代码三；

#      retbins: 是否返回间距bins，如果retbins = False 则返回x中每个值对应的bin的列表，否者则返回x中每个值对应的bin的列表和对应的bins；

#      precision: 精精度；

#      include_lowest:是否包含左端点；

程序示例：

import numpy as np

import pandas as pd

# 读入数据

df=pd.read_csv('data1.txt')

print('原始数据')

print(df)

data=pd.cut(df['评分'],[0,3,5,7,9,10],labels=['E','D','C','B','A'])

print(data)

df['等级']=data

print(df)

运行结果：

原始数据

       名字    投票人数        类型    产地        上映时间   时长    年代   评分

0    美丽人生   42995  剧情/喜剧/爱情   意大利  1997-12-20  116  1997  9.5

1    阿甘正传  580897     剧情/爱情    美国  1994-06-23  142  1994  9.4

2  肖申克的救赎  692795     剧情/犯罪    美国  1994-09-10  142  1994  9.6

3    控方证人   42995  剧情/悬疑/犯罪    美国  1957-12-17  116  1957  9.5

4    霸王别姬  478523  剧情/爱情/同性  中国大陆  1993-01-01  171  1993  9.4

0    A

1    A

2    A

3    A

4    A

Name: 评分, dtype: category

Categories (5, object): [E < D < C < B < A]

       名字    投票人数        类型    产地        上映时间   时长    年代   评分 等级

0    美丽人生   42995  剧情/喜剧/爱情   意大利  1997-12-20  116  1997  9.5  A

1    阿甘正传  580897     剧情/爱情    美国  1994-06-23  142  1994  9.4  A

2  肖申克的救赎  692795     剧情/犯罪    美国  1994-09-10  142  1994  9.6  A

3    控方证人   42995  剧情/悬疑/犯罪    美国  1957-12-17  116  1957  9.5  A

4    霸王别姬  478523  剧情/爱情/同性  中国大陆  1993-01-01  171  1993  9.4  A

数据合并

append(上下拼接)

import numpy as np

import pandas as pd

# 读入数据

df=pd.read_csv('data1.txt')

print('原始数据')

print(df)

# (1)append(上下拼接)

# 先把数据集拆分为多个,再进行合并

df_1=df[df.产地 =="美国"]

df_2=df[df.产地 == "中国大陆"]

df_3=df_1.append(df_2)#append()

print(df_3)

原始数据

       名字    投票人数        类型    产地        上映时间   时长    年代   评分

0    美丽人生   42995  剧情/喜剧/爱情   意大利  1997-12-20  116  1997  9.5

1    阿甘正传  580897     剧情/爱情    美国  1994-06-23  142  1994  9.4

2  肖申克的救赎  692795     剧情/犯罪    美国  1994-09-10  142  1994  9.6

3    控方证人   42995  剧情/悬疑/犯罪    美国  1957-12-17  116  1957  9.5

4    霸王别姬  478523  剧情/爱情/同性  中国大陆  1993-01-01  171  1993  9.4

#合并后的数据

       名字    投票人数        类型    产地        上映时间   时长    年代   评分

1    阿甘正传  580897     剧情/爱情    美国  1994-06-23  142  1994  9.4

2  肖申克的救赎  692795     剧情/犯罪    美国  1994-09-10  142  1994  9.6

3    控方证人   42995  剧情/悬疑/犯罪    美国  1957-12-17  116  1957  9.5

4    霸王别姬  478523  剧情/爱情/同性  中国大陆  1993-01-01  171  1993  9.4

merge (左右合并)

# merge: 合并数据集， 通过left， right确定连接字段，默认是两个数据集相同的字段

# 参数 说明

# left 参与合并的左侧DataFrame

# right 参与合并的右侧DataFrame

# how 连接方式：‘inner’（默认）；还有，‘outer’、‘left’、‘right’

# on 用于连接的列名，必须同时存在于左右两个DataFrame对象中，如果位指定，则以left和right列名的交集作为连接键

# left_on 左侧DataFarme中用作连接键的列

# right_on 右侧DataFarme中用作连接键的列

# left_index 将左侧的行索引用作其连接键

# right_index 将右侧的行索引用作其连接键

# sort 根据连接键对合并后的数据进行排序，默认为True。有时在处理大数据集时，禁用该选项可获得更好的性能

# suffixes 字符串值元组，用于追加到重叠列名的末尾，默认为（‘_x’,‘_y’）.例如，左右两个DataFrame对象都有‘data’，则结果中就会出现‘data_x’，‘data_y’

# copy 设置为False，可以在某些特殊情况下避免将数据复制到结果数据结构中。默认总是赋值

# ”’

#有朋友总结了使用，所以直接引用了

# https://www.cnblogs.com/lijinze-tsinghua/p/9878649.html

concat():

批量数据合并（两个数据及以上）

上下合并

import numpy as np

import pandas as pd

# 读入数据

df=pd.read_csv('data1.txt')

print('原始数据')

print(df)

# (1)append(上下拼接)

# 先把数据集拆分为多个,再进行合并

df_1=df[df.产地 =="美国"]

df_2=df[df.产地 == "中国大陆"]

print(pd.concat([df_1,df_2]))

原始数据

       名字    投票人数        类型    产地        上映时间   时长    年代   评分

0    美丽人生   42995  剧情/喜剧/爱情   意大利  1997-12-20  116  1997  9.5

1    阿甘正传  580897     剧情/爱情    美国  1994-06-23  142  1994  9.4

2  肖申克的救赎  692795     剧情/犯罪    美国  1994-09-10  142  1994  9.6

3    控方证人   42995  剧情/悬疑/犯罪    美国  1957-12-17  116  1957  9.5

4    霸王别姬  478523  剧情/爱情/同性  中国大陆  1993-01-01  171  1993  9.4

       名字    投票人数        类型    产地        上映时间   时长    年代   评分

1    阿甘正传  580897     剧情/爱情    美国  1994-06-23  142  1994  9.4

2  肖申克的救赎  692795     剧情/犯罪    美国  1994-09-10  142  1994  9.6

3    控方证人   42995  剧情/悬疑/犯罪    美国  1957-12-17  116  1957  9.5

4    霸王别姬  478523  剧情/爱情/同性  中国大陆  1993-01-01  171  1993  9.4

pandas学习(数据分组与分组运算、离散化处理、数据合并)的更多相关文章

pandas 学习第14篇：索引和选择数据
数据框和序列结构中都有轴标签,轴标签的信息存储在Index对象中,轴标签的最重要的作用是: 唯一标识数据,用于定位数据用于数据对齐获取和设置数据集的子集. 本文重点关注如何对序列(Series)和 ...
python中pandas数据分析基础3（数据索引、数据分组与分组运算、数据离散化、数据合并）
//2019.07.19/20 python中pandas数据分析基础(数据重塑与轴向转化.数据分组与分组运算.离散化处理.多数据文件合并操作) 3.1 数据重塑与轴向转换1.层次化索引使得一个轴上拥 ...
Python 数据分析（二本实验将学习利用 Python 数据聚合与分组运算，时间序列，金融与经济数据应用等相关知识
Python 数据分析(二) 本实验将学习利用 Python 数据聚合与分组运算,时间序列,金融与经济数据应用等相关知识第1节 groupby 技术第2节数据聚合第3节分组级运算和转换第4 ...
利用Python进行数据分析-Pandas(第六部分-数据聚合与分组运算)
对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),通常是数据分析工作中的重要环节.在将数据集加载.融合.准备好之后,通常是计算分组统计或生成透视表.pandas提供了一个灵活高效的group ...
利用python进行数据分析之数据聚合和分组运算
对数据集进行分组并对各分组应用函数是数据分析中的重要环节. group by技术 pandas对象中的数据会根据你所提供的一个或多个键被拆分为多组,拆分操作是在对象的特定轴上执行的,然后将一个函数应用 ...
《python for data analysis》第九章，数据聚合与分组运算
# -*- coding:utf-8 -*-# <python for data analysis>第九章# 数据聚合与分组运算import pandas as pdimport nump ...
Python数据聚合和分组运算(1)-GroupBy Mechanics
前言 Python的pandas包提供的数据聚合与分组运算功能很强大,也很灵活.<Python for Data Analysis>这本书第9章详细的介绍了这方面的用法,但是有些细节不常用 ...
python数据分析之：数据聚合与分组运算
在数据库中,我们可以对数据进行分类,聚合运算.例如groupby操作.在pandas中同样也有类似的功能.通过这些聚合,分组操作,我们可以很容易的对数据进行转换,清洗,运算.比如如下图,首先通过不同的 ...
Python之数据聚合与分组运算
Python之数据聚合与分组运算 1. 关系型数据库方便对数据进行连接.过滤.转换和聚合. 2. Hadley Wickham创建了用于表示分组运算术语"split-apply-combin ...

随机推荐

Android：XML简介 & 解析方式对比（DOM、SAX、PULL）
目录示意图 1. 定义 XML,即 extensible Markup Language ,是一种数据标记语言 & 传输格式 2. 作用对数据进行标记(结构化数据).存储 & ...
2017-2018-2 20155303『网络对抗技术』Exp7：网络欺诈防范
2017-2018-2 『网络对抗技术』Exp7:网络欺诈防范 --------CONTENTS-------- 一.原理与实践说明 1.实践目标 2.实践内容概述 3.基础问题回答二.实践过程记录 ...
weblogic中部署SSH项目遇到的坑
总结将SSH项目部署到weblogic遇到的坑.项目中是SSH,另外还用到了webservice.quartz等框架.在tomcat部署是可以的,现在总结部署到weblogic遇到的坑. 在这里说一下 ...
ftruncate（改变文件大小）
ftruncate(改变文件大小) 定义函数 int ftruncate(int fd,off_t length); 函数说明 ftruncate()会将参数fd指定的文件大小改为参数length指定 ...
cocos2d-x在App中的应用
cocos2d-x是一个应用广泛的开源游戏引擎,主要是应用与开发2D游戏,开源运行于多个平台,如果只是针对于移动端平台而言,可以运行于android和ios平台. cocos2d-x目前的版本是3.1 ...
zabbix3.0.4通过自定义shell脚本添加对关键日志文件的监控
zabbix添加对自定义无规则日志文件的监控项目背景及思路: zabbix自带有针对日志文件的监控,自带的监控只能监控到指定文件或者正则匹配的固定日志文件,但当需要监控的文件名没有规律的时候自带监控 ...
Struts2的类型转换器
Struts2的类型转换器如何实现Struts2的类型转换器? * 继承StrutsTypeConverter * 覆盖convertFromString和convertToString 注册类型转 ...
Oracle入门概述
--学习数据库--数据查询语言:select语句--数据操纵语言:DML,增删改语句--数据定义语言:DDL,对表的增删改(会自动提交事务)--事务控制语句:commit,rollback,savep ...
【ES】代码例子
#!/usr/bin/env python #coding=utf-8 from elasticsearch import Elasticsearch from elasticsearch_dsl i ...
google 与服务器搭建
一.申请账号二.创建实例 VPN设置 :https://juejin.im/post/5b665a51f265da0f7d4f1ab3

pandas学习(数据分组与分组运算、离散化处理、数据合并)

pandas学习(数据分组与分组运算、离散化处理、数据合并)

数据分组与分组运算

离散化处理

数据合并

pandas学习(数据分组与分组运算、离散化处理、数据合并)的更多相关文章

随机推荐

热门专题