dataframe常用处理
获取列名:
data.columns.values.tolist() 复制列:
out['serial_number'] = out['2']
这样就是新增了一列,复制了‘2’这一列,然后再del out['2]即可
这样的形式也可以用于把前面某些列的计算值赋到新的一列 换列名:
#给data_app赋上新的列名称
data_app.columns = ['user_id', 'hlw_all3', 'vedio_app_time', 'game_app_time', 'read_app_time', 'music_app_time', 'dm_app_time', 'toutiao_app_time']
根据某一列的值取出符合条件的所有行:
data_sp = data[data['$AS-TwoStep'] == 'Cluster-1']
该句意思为取出$AS-TwoStep这一列为cluster-1的所有数据
Python pandas.errors.ParserError: Error tokenizing data. C error: Expected 1 fields in line 121, saw 2
读取数据报这个错误时添加
delimiter="\t",例如:
data1 = pd.read_csv(f1, low_memory=False, delimiter="\t")
就可以了 pandas导出数据时不想要序号的话就写一句 index=False就行了
读取dataframe的第N列:
df['列名'] 读取dataframe的第N行:
df[行数:行数+1]
比如:读第0行 df[0:1]
将dataframe利用df.values.tolist()转化为列表时会出现大列表套小列表的情况
如果想避免这种情况,只要大列表,可以先将dataframe通过df['user_id']转化为series,然后再利用series.tolist()转化为列表,这样就只有一个大列表 想把一列中的空值全部变为0
https://blog.csdn.net/chenpe32cp/article/details/82180537 定位dateframe某行某列的一条数据:
df.iat[行,列] dataframe处理行列
https://blog.csdn.net/kevin_7july/article/details/79377234 查看数据是否有缺失
import numpy as np
#查看是否有数据缺失
print np.any(red.isnull()==True)
dataframe常用处理的更多相关文章
- R 语言的Dataframe常用操作
上节我们简单介绍了Dataframe的定义,这节我们具体来看一下Dataframe的操作 首先,数据框的创建函数为 data.frame( ),参考R语言的帮助文档,我们来了解一下data.frame ...
- pyspark dataframe 常用操作
spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能.当然主要对类SQL的支持. 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选.合并,重新入库. 首先加 ...
- Pandas 之 DataFrame 常用操作
import numpy as np import pandas as pd This section will walk you(引导你) through the fundamental(基本的) ...
- python panda::dataframe常用操作
1.条件查询: result = df.query("((a==1 and b=="x") or c/d < 3))" print result 2.遍历 ...
- 《Python数据分析常用手册》一、NumPy和Pandas篇
一.常用链接: 1.Python官网:https://www.python.org/ 2.各种库的whl离线安装包:http://www.lfd.uci.edu/~gohlke/pythonlibs/ ...
- Pandas常用操作方法
Pandas pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的. Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具. pandas提 ...
- NumPy和Pandas常用库
NumPy和Pandas常用库 1.NumPy NumPy是高性能科学计算和数据分析的基础包.部分功能如下: ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组. 用于对整组数 ...
- 小记--------sparksql和DataFrame的小小案例java、scala版本
sparksql是spark中的一个模块,主要用于进行结构化数据的处理,他提供的最核心的编程抽象,就是DataFrame.同时,sparksql还可以作为分布式的sql查询引擎. 最最重要的功能就是从 ...
- pandas中的数据结构-DataFrame
pandas中的数据结构-DataFrame DataFrame是什么? 表格型的数据结构 DataFrame 是一个表格型的数据类型,每列值类型可以不同 DataFrame 既有行索引.也有列索引 ...
随机推荐
- Python使用Ctypes与C/C++ DLL文件通信过程介绍及实例分析
项目中可能会经常用到第三方库,主要是出于程序效率考虑和节约开发时间避免重复造轮子.无论第三方库开源与否,编程语言是否与当前项目一致,我们最终的目的是在当前编程环境中调用库中的方法并得到结果或者借助库中 ...
- 整合 MyPerf4J 做Java性能监控和统计工具
快速启动MyPerf4J MyPerf4J 采用 JavaAgent 配置方式,透明化接入应用,对应用代码完全没有侵入. 打包 项目地址: https://github.com/LinShunKang ...
- .NET ORM框架 SqlSugar4.0 功能快速预览【开源】
SqlSugar 4.0 ORM框架的优势 为了未来能够更好的支持多库分布式的存储,并行计算等功能,将SqlSugar3.x全部重写,现有的架构可以轻松扩展多库. 源码下载: https://gith ...
- base64字符串转文件,以及ngImgCrop裁剪图片并上传保存到服务器示例
base64字符串是包含文件格式的文件字符串,例如:data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAMgAAADICAYAAACtWK6eAAAgAElE ...
- Springboot整合activemq
今天呢心血来潮,也有很多以前的学弟问到我关于消息队列的一些问题,有个刚入门,有的有问题都来问我,那么今天来说说如何快速入门mq. 一.首先说下什么是消息队列? 1.消息队列是在消息的传输过程中保存消息 ...
- HTML文档命名规则
HTML文档是展示Web前段开发工程师成果的最好表示方式,为了便于文档规范化管理,在编写HTML文档时,必须遵循HTML文件命名规则. HTML文档命名规则如下: (1)文档的扩展名为htm或者htm ...
- shell 查找与替换
grep sed 如果想把一个字符串中的一些字符删除可以如此:#Echo “2006-11-21 22:16:30” | sed ‘s/-//g’ | sed ‘s/ //g’ | sed ‘s/:/ ...
- Android 设计模式之MVC模式
说到Android设计模式的MVC模式,估计很多人都是比较熟悉了,这里深入了解一下MVC到底是怎么回事,以ListView为例子讲解. 一.深入理解MVC概念 MVC即Model-View-Contr ...
- MySQL 基础知识梳理学习(七)----sync_binlog
一般在生产环境中,很少用MySQL单实例来支撑业务,大部分的MySQL应用都是采用搭建集群的方法.搭建MySQL集群,可以进行数据库层面的读写分离.负载均衡或数据备份.基于MySQL原生的Replic ...
- 无法创建保存文件 "afiedt.buf"
我习惯在搜索框输入sqlplus,输入相应的sql语句.但是直接输入ed的时候会报这个错误. 在cmd中登录进去,然后一步一步走,登录进去就可以了. 找到了这两个窗口的一个区别.