python库--pandas--文本文件读取
.read_table() / read_csv() | |||
filepath_or_buffer | 文件路径 | ||
sep=’\t’ | 分隔符. 设置为N, 将尝试自动确定 | ||
delimiter=N | sep的备用参数名 | ||
header='infer' | int | 用作列名称的行号 | |
ints | 若传入列表则表示这几行都将作为列标签 | ||
None | 文件中不包含标题行 | ||
'infer' | header = 0 if name is None else None | ||
names=N | 作为列标签的列表 | ||
index_col=N | int | 用作行标签的列 | |
序列 | 使用MultiIndex | ||
F | 强制使用第一列作为索引 | ||
usecols=N | list_like: 要读取的列, 位置或列标签 | ||
squeeze=F | 若果解析的数据只有一列, 则返回一个Series | ||
prefix=N | 在没有标题时添加到列号的前缀,例如'X'代表X0,X1,... | ||
mangle_dupe_cols=T | 重复的列将被指定为”X”, "X.1"...“X.N”. 传入F将导致覆盖数据 | ||
dtype=N | 数据或每列数据类型. 例如:{'a':np.float64,'b':np.int32} | ||
engine=N | 选择解析器引擎. ‘c’引擎速度更快,而’python’引擎目前更加完善 | ||
converters=N | dict {key:fun(str)}. 转换某些列中的值的函数, 键是整数或列标签 | ||
true_values=N | list. 要考虑的值为True ??? | ||
false_values=N | list. 要考虑的值为False ??? | ||
skipinitialspace=F | 跳过分隔符后的空白符 | ||
skiprows=N | 要跳过的行号(list)或要跳过的行数(integer) | ||
nrows=N | 要读取的文件的行数. 适用于读取大文件的片段 | ||
na_values=N | 识别为NaN的字符串或字符串列表 | ||
keep_default_na=T | T设置的na_values追加到默认识别为NaN值的列表, 否则将覆盖默认 | ||
na_filter=T | 是否检测Na值, 在确定没有Na的数据中设置为F可提高读取大文件的性能 | ||
verbose=F | 是否显示每一列中的NA值的数量 |
||
skip_blank_lines=T | 如果为T, 则跳过空白行, 而不是解释为NaN值 | ||
parse_dates=F | True: 尝试将索引解析成日期 | ||
[位置或标签]: 尝试将这些列解析成日期 | |||
[[位置或标签]]: 合并这些列并尝试将其解析成日期 | |||
{name: [位置或标签]}: 合并指定列指定标签为name, 并尝试将其解析为日期 | |||
infer_datetime_format=F | True: 尝试加快parse_dates解析速度 | ||
keep_date_col=F | True: 若parse_dates解析成的日期列没有占用原数据标签, 则保留原始列 | ||
date_parser=N | 用于将字符串转换为datetime的函数, 默认dateutil.parser.parser | ||
dayfirst=F | True: 识别欧洲格式日期(日-月-年), 默认将识别为(月-日-年) | ||
iterator=F | 生成迭代器, 通过迭代或get_chunk()获取数据块(默认全部) | ||
chunksize=N | int: 生成迭代器, 通过迭代或get_chunk()每次获取此参数指定大小的数据块 | ||
compression='infer' | {'infer','gzip','bz2','zip','xz',None} 用于磁盘上数据的即时解压缩。如果“infer”,则使用gzip,bz2,zip或xz,如果filepath_or_buffer是分别以“.gz”, “.bz2”, “.zip”或“xz”结尾的字符串,否则不进行解压缩。如果使用'zip',ZIP文件必须只包含一个要读入的数据文件. 设置为无, 无解压缩 | ||
thousands=N | str: 千位分隔符, 默认无 | ||
decimal='.' | 可识别为小数点的字符 | ||
lineterminator=N | str(length 1) 将文件拆分成行的字符, 只有C解释器有效 | ||
quotechar='"' | str(length 1) 用于表示带引号项目的开始和结束的字符. 引号项可以包含分隔符, 它将被忽略 | ||
quoting=0 | 3: quotechar参数将不会生效 | ||
escapechar=N | ??? | ||
comment=N | str(length 1) 以此字符开头的行将被当做空白行处理 | ||
encoding=N | 编码 | ||
dialect=N | ??? | ||
tupleize_cols=F | 当选择多行作为列标签时, 默认生成多级索引, 若设置为True, 则会把多个索引组成元组作为单个标签 | ||
error_bad_lines=T | False: 异常行将被删除 | ||
warn_bad_lines=T | error_bad_lines为False, 且此参数为True, 将会输出每一个error行的警告 | ||
skipfooter=0 | 跳过文件底部的行数(不支持engine ='c') | ||
skip_footer=0 | 弃用, 使用skipfooter参数 | ||
doublequote=T | 将连续多个quotechar指定的字符当做一个来识别 | ||
delim_whitespace=F | 指定是否将空白用作分隔符, 相当于设置sep='\s+'. 若设为True, 则不应为delimiter参数传入任何内容(支持Python解释器) | ||
compact_ints=F | 将被删除 | ||
use_unsigned=F | 将被删除 | ||
low_memory=T | ??? | ||
buffer_lines=N | 将被删除 |
||
memory_map=F | 如果为filepath_or_buffer提供了文件路径,则将文件对象直接映射到内存上,并从中直接访问数据。使用此选项可以提高性能,因为不再有任何I / O开销 | ||
float_precision=N | ??? | ||
.read_fwf() | 读取固定宽度格式的文件 | ||
.read_msgpack() | ??? | ||
#s3gt_translate_tooltip_mini { display: none !important }
python库--pandas--文本文件读取的更多相关文章
- 三、Python系列——Pandas数据库读取数据
Pandas主要先读取表格类型的数据,然后进行分析. import pandas as pd# 由于是用pandas模块操作数据,因此不用在路径前加open,否则就是python直接打开文件,可能还会 ...
- python库pandas
由于在机器学习中经常以矩阵的方式来表现数据,那么我们就需要一种数据结构来存储和处理矩阵.pandas库就是这样一个工具. 本文档是一个学习笔记,记录一些常用的命令,原文:http://www.cnbl ...
- python库pandas简介
pandas是基于numpy的数据分析模块,提供了大量标准模型和高效操作大型数据集所需要的工具. pandas主要提供了3种数据结构:1.Series,带标签的一维数组:2.DataFrame,带标签 ...
- Python库-Pandas
Pandas是基于NumPy的一种数据分析工具,提供了大量使我们快速便捷处理数据的函数和方法. 中文官网地址:https://www.pypandas.cn Pandas基于两种数据类型:Series ...
- python 【pandas】读取excel、csv数据,提高索引速度
问题描述:数据处理,尤其是遇到大量数据且需要for循环处理时,需要消耗大量时间,如代码1所示.通过data['trip_time'][i]的方式会占用大量的时间 代码1 import time t0= ...
- 顶级Python库
绝不能错过的24个顶级Python库 Python有以下三个特点: · 易用性和灵活性 · 全行业高接受度:Python无疑是业界最流行的数据科学语言 · 用于数据科学的Python库的数量优势 事实 ...
- Python数据分析库pandas基本操作
Python数据分析库pandas基本操作2017年02月20日 17:09:06 birdlove1987 阅读数:22631 标签: python 数据分析 pandas 更多 个人分类: Pyt ...
- Python 数据处理库 pandas 入门教程
Python 数据处理库 pandas 入门教程2018/04/17 · 工具与框架 · Pandas, Python 原文出处: 强波的技术博客 pandas是一个Python语言的软件包,在我们使 ...
- 教程 | 一文入门Python数据分析库Pandas
首先要给那些不熟悉 Pandas 的人简单介绍一下,Pandas 是 Python 生态系统中最流行的数据分析库.它能够完成许多任务,包括: 读/写不同格式的数据 选择数据的子集 跨行/列计算 寻找并 ...
- Python 数据处理库pandas教程(最后附上pandas_datareader使用实例)
0 简单介绍 pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库.本文是对它的一个入门教程. pandas提供了快速,灵活和富有 ...
随机推荐
- SVG和Canvas的区别?
什么是SVG? SVG(可缩放矢量图形)编辑可缩放矢量图形是基于可扩展标记语言(标准通用标记语言的子集),用于描述二维矢量图形的一种图形格式.它由万维网联盟制定,是一个开放标准. 什么是 Canvas ...
- js继承方式及特征
1. 原型链继承 (原型链) function Parent() { this.fruits = ['apple', 'orange']; } Parent.prototype.sayHello = ...
- 使用脚本下载Gmail邮件附件
以下脚本连接上我的Gmail帐号,将收件箱中2013年1月份的新语丝邮件的附件保存在当前目录的xys文件夹中. import imaplib import email import os dir_na ...
- 一个命令搞定 Web 国际化
背景 随着出海的业务越来越多,web 应用面临越来越多的国际化的工作.如何高效,高质量的完成 Web 前端国际化工作,已经是摆在 web 前端同学的急需解决的问题. i18n-helper-cli 是 ...
- kvm虚拟化的qcow2磁盘格式的扩容方法
第一种:增加一块磁盘而另磁盘空间增大 1).先进入kvm环境,创建一块硬盘:qemu-img create -f qcow2 /home/tianke/test.qcow2 40G 2).再给增加的硬 ...
- Arduino连接L298n驱动板驱动小车的电机
1.L298N介绍 先来讲讲电机驱动,驱动一般使用L298N,L298N 是一种双H桥电机驱动芯片,其中每个H桥可以提供2A的电流,功率部分的供电电压范围是2.5-48v,逻辑部分5v供电,接受5vT ...
- 题解—God Knows
考场上以为就是转化成一个无向图然后以为无向图有什么性质可以搞出来来着. 果然应验了那句话,一个思路想太久想不出来一般是假的. 所以这种一看就需要转化的题要多尝试能往哪转化,而不是按住一个思路不动. 只 ...
- 数据结构与算法-排序(十)桶排序(Bucket Sort)
摘要 桶排序和基数排序类似,相当于基数排序的另外一种逻辑.它是将取值范围当做创建桶的数量,桶的长度就是序列的大小.通过处理比较元素的数值,把元素放在桶的特定位置,然后遍历桶,就可以得到有序的序列. 逻 ...
- 骨架屏css样式
.chiaroscuro { background: #f2f2f2; animation-duration: 1.5s; animation-name: blink; animation-itera ...
- ANSI C说明了三个用于存储空间动态分配的函数
1.1 malloc的全称是memory allocation,中文叫动态内存分配.原型:extern void *malloc(unsigned int num_bytes);说明:分配长度为num ...