【数据分析学习】Pandas学习记录
import pandas as pd
path = r'F:\数据分析专用\数据分析与机器学习\food_info.csv'
with open(path, 'r') as f:
data = pd.read_csv(f)
print(type(data))
print(data.dtypes)
print(help(pd.read_csv))
文件操作
print(data.head(3))
print(data.tail(3))
print(data.columns)
查看数据
data.sort_values('Carbohydrt_(g)', inplace=True)
print(data['Carbohydrt_(g)'])
# print(data)
data.sort_values('Carbohydrt_(g)', inplace=True, ascending=False)
print(data['Carbohydrt_(g)'])
数据排序
age = t_s['Age']
age_is_null = pd.isnull(age)
age_null_true = age[age_is_null]
age_null_count = len(age_null_true)
print(age_null_count)
#----------------------------------------
count_list = []
for i in age:
if i != i:
count_list.append(i)
print(len(count_list))
数据的筛选
mean_age = sum(t_s['Age'])/len(t_s['Age'])
print(mean_age)
#--------------------------------------------------
good_ages = t_s['Age'][age_is_null==False]
correct_mean_age = sum(good_ages)/len(good_ages)
print(correct_mean_age)
#---------------------------------------------
correct_mean_age = t_s['Age'].mean()
print(correct_mean_age)
数据的处理方法(平均数)
passenger_classes = {1, 2, 3}
faces_by_class = {}
for this_class in passenger_classes:
pclass_rows = t_s[t_s['Pclass']==this_class]
pclass_fares = pclass_rows['Fare']
fare_for_class = pclass_fares.mean()
faces_by_class[this_class] = fare_for_class
print(faces_by_class)
#--------------------------------------------------------
passenger_s = t_s.pivot_table(index='Pclass', values='Survived', aggfunc=np.mean)
print(passenger_s)
#--------------------------------------------------------
passenger_age = t_s.pivot_table(index='Pclass', values='Age')
print(passenger_age)
#--------------------------------------------------------
passenger_price = t_s.pivot_table(index='Pclass', values='Fare')
print(passenger_price)
#--------------------------------------------------------
port_stats = t_s.pivot_table(index='Embarked', values=['Fare', 'Survived'], aggfunc=np.sum)
print(port_stats)
数据透视表
def hundredth_row(column):
hundredth_item = column.loc[99]
return hundredth_item hundredth_row = t_r.apply(hundredth_row)
print(hundredth_row)
自定义函数
def which_class(row):
pclass = row['Pclass']
if pd.isnull(pclass):
return 'Unknown'
elif pclass == 1:
return "First Class"
elif pclass == 2:
return "Second Class"
elif pclass == 3:
return "Third Class" classes = t_r.apply(which_class, axis=1)
print(classes)
自定义函数
import pandas as pd
path = r'F:\数据分析专用\数据分析与机器学习\fandango_score_comparison.csv'
with open(path, 'r', encoding='utf-8') as f:
data = pd.read_csv(f)
# print(data.dtypes)
series_film = data['FILM']
print(type(series_film))
series_rt = data['RottenTomatoes']
print(series_rt[0:5])
#--------------------------------------------------------------
from pandas import Series
film_names = series_film.values
print(type(film_names))
rt_scores = series_rt.values
series_custom = Series(rt_scores, index=film_names)
series_custom[['Minions (2015)', 'Leviathan (2014)']]
Series结构
【数据分析学习】Pandas学习记录的更多相关文章
- Pandas 学习记录(一)
1.DataFrame 按照列和按照行进行索引数据 按照列索引 df[’column_name’] 按照行索引 df.loc[’row_key’] 或 df.iloc[index] 2.先行后列索引单 ...
- 大数据kafka视频教程 学习记录【B站尚硅谷 】
视频地址: https://www.bilibili.com/video/av35354301/?p=1 2019/03/06 21:59 消息队列的内部实现: Kafka基础: ...
- ElasticSearch 学习记录之 分布式文档存储往ES中存数据和取数据的原理
分布式文档存储 ES分布式特性 屏蔽了分布式系统的复杂性 集群内的原理 垂直扩容和水平扩容 真正的扩容能力是来自于水平扩容–为集群添加更多的节点,并且将负载压力和稳定性分散到这些节点中 ES集群特点 ...
- pandas学习(数据分组与分组运算、离散化处理、数据合并)
pandas学习(数据分组与分组运算.离散化处理.数据合并) 目录 数据分组与分组运算 离散化处理 数据合并 数据分组与分组运算 GroupBy技术:实现数据的分组,和分组运算,作用类似于数据透视表 ...
- pandas学习(创建多层索引、数据重塑与轴向旋转)
pandas学习(创建多层索引.数据重塑与轴向旋转) 目录 创建多层索引 数据重塑与轴向旋转 创建多层索引 隐式构造 Series 最常见的方法是给DataFrame构造函数的index参数传递两个或 ...
- pandas学习(常用数学统计方法总结、读取或保存数据、缺省值和异常值处理)
pandas学习(常用数学统计方法总结.读取或保存数据.缺省值和异常值处理) 目录 常用数学统计方法总结 读取或保存数据 缺省值和异常值处理 常用数学统计方法总结 count 计算非NA值的数量 de ...
- pandas学习(创建数据,基本操作)
pandas学习(一) Pandas基本数据结构 Series类型数据 Dataframe类型 基本操作 Pandas基本数据结构 两种常用数据结构: Series 一维数组,与Numpy中的一维ar ...
- pandas学习(四)--数据的归一化
欢迎加入python学习交流群 667279387 Pandas学习(一)–数据的导入 pandas学习(二)–双色球数据分析 pandas学习(三)–NAB球员薪资分析 pandas学习(四)–数据 ...
- Pandas学习(一)——数据的导入
欢迎加入python学习交流群 667279387 学习笔记汇总 Pandas学习(一)–数据的导入 pandas学习(二)–双色球数据分析 pandas学习(三)–NAB球员薪资分析 pandas学 ...
随机推荐
- nyoj 547 优先队列
#include<stdio.h> #include<string.h> #include<queue>//水杯盛水问题,用优先队列不断从最小的边缘开始 using ...
- [bzoj3282]Tree_LCT
Tree bzoj-3282 题目大意:给你n个点m个操作.更改单点权值,加边,删边:查询路径异或和. 注释:$1\le n,m\le 10^5$ 想法:看到了加边删边,果断想到LCT维护.至于路径异 ...
- vim编辑强制执行命令
vim进入文件,输入i编辑好文件,按esc,输入冒号,再输入底下代码 :w !sudo tee %
- springboot集成grpc
gRPC 简介 gRPC 是一个现代开源的高性能 RPC 框架,可以在任何环境下运行.它可以有效地将数据中心内和跨数据中心的服务与可插拔支持进行负载均衡.跟踪.健康检查和认证.它也适用于分布式计算,将 ...
- 【j2ee spring】44、巴巴运动网前台产品显示
[j2ee spring]44.巴巴运动网前台产品显示 项目结构 项目代码 界面显示 <%@ page language="java" isELIgnored="f ...
- 使用imgareaselect 辅助后台进行图片裁剪
由于项目其中用到图片裁剪,本来能够不用到后台进行裁剪的,可是要兼容万恶的IE浏览器,所以不得不使用后台进行裁剪. 这次使用到imgareaselect 插件获取须要裁剪区域的坐标.再由后台进行裁剪操作 ...
- Java 异步转同步 ListenableFuture in Guava
ListenableFuture的说明 并发编程是一个难题,但是一个强大而简单的抽象可以显著的简化并发的编写.出于这样的考虑,Guava 定义了 ListenableFuture接口并继承了JDK c ...
- contest hunter 6803 导弹防御塔
没什么好写的.写写这题吧 拆点,把一个防御塔拆成m个,表示第i次攻击.瞎yy就好啊 #include<cstdio> #include<iostream> #include&l ...
- MySQL-TokuDB:MySQL 高性能存储引擎:TokuDB
ylbtech-MySQL-TokuDB:MySQL 高性能存储引擎:TokuDB 1.返回顶部 1. 在安装MariaDB的时候了解到代替InnoDB的TokuDB,看简介非常的棒,这里对ToduD ...
- 用WPF做关于MEF 简单学习记录
写在前面:下面学习所得多是从自http://www.cnblogs.com/comsokey/p/MEF1.html和http://www.cnblogs.com/yunfeifei/p/392266 ...