python处理文本数据

处理文本数据，主要是通过Seris的str访问。遇到NaN时不做任何处理，保留结果为NaN，遇到数字全部处理为NaN。

str是Seris的方法，DataFrame不能直接使用，但是通过索引选择DataFrame中的某一行或者某一列，结果为Seris，然后就可以使用了。

例如定义一个Seris和DataFrame如下

s = pd.Series([' ab',1,' bb ',np.nan,'bc '])

dic = {'one':[0,2,2,4],'two':[2,np.nan,4,6],'three':['a','b',np.nan,2]}

df = pd.DataFrame(dic,index=['d','e','f','g'])

将上述s全部变成大写字母，将df的列名称变成大写。

s = s.str.upper()

df.columns = df.columns.str.upper()

以下都以Seris做示例，这些方法与python字符串的操作类似

print(s.str.lower())   #将s中的各字符串全部变为小写

print(s.str.upper())   #将s中的各字符串全部变为大写

print(s.str.capitalize())   #将s中的各字符串全部变为首字母大写

print(s.str.len())    #求s中各字符串的长度

print(s.str.count('b'))   #求s中的各字符串元素包含几个b

print(s.str.startswith('a'))   #判断s中的各字符串是否以a开始

print(s.str.endswith('a'))   #判断s中的各字符串是否以a结束

print(s.str.contains('b'))  #判断s中的各字符串是否包含b

print(s.str.strip())   #去掉s中字符串元素两边的空格

print(s.str.lstrip())   #去掉s中字符串元素左边的空格

print(s.str.rstrip())   #去掉s中字符串元素右边的空格

print(s.str.replace('原字符','替换字符',1))  #将原字符串替换为指定字符串，默认替换所有满足条件的，n表示替换前n个满足条件的

split()和rsplit()

split()表示从左边开始分割，rsplit()表示从右边分割，分割后的结构为一个列表

s = pd.Series(['a,b,c,d',np.nan,['a..c'],'1,2,3'])

print(s.str.split(','))   #对Seris中的元素按照,分割，即对'a,b,c'、np.nan、['a..c']、'1,2,3'按照,分割

print(s.str.split(',').str[0])   #获取每个元素分割后的第一个值，分割后的结果也为Seris，也需要通过str来获取每个元素

print(s.str.split(',',expand=True,n=1))  #expand为True表示将原列按照分割符拆分为㢵列，n表示拆分次数，默认不拆分，如果拆分默认拆分最多次

# 0    [a, b, c, d]

# 1             NaN

# 2             NaN

# 3       [1, 2, 3]

# dtype: object

# 0      a

# 1    NaN

# 2    NaN

# 3      1

# dtype: object

#      0      1

# 0    a  b,c,d

# 1  NaN    NaN

# 2  NaN    NaN

# 3    1    2,3

python处理文本数据的更多相关文章

用python处理文本数据学到的一些东西
最近写了一个python脚本,用TagMe的api标注文本,并解析返回的json数据.在这个过程中遇到了很多问题,学到了一些新东西,总结一下. 1. csv文件处理 csv是一种格式化的文件,由行和列 ...
Python的文本数据
字符串的一些方法! 1.text.endswith(".jpg") 如果字符串是以给定子字符串结尾的,就返回值True. 2. text.upper(): ...
python读取文本数据某一列
import codecs f = codecs.open('test1 - 副本.txt', mode='r', encoding='utf-8') # 打开txt文件,以'utf-8'编码读取 l ...
Python文本数据互相转换（pandas and win32com）
(工作之后,就让自己的身心都去休息吧) 今天介绍一下文本数据的提取和转换,这里主要实例的转换为excel文件(.xlsx)转换world文件(.doc/docx),同时需要使用win32api,同py ...
[Python] 糗事百科文本数据的抓取
[Python] 糗事百科文本数据的抓取源码 https://github.com/YouXianMing/QiuShiBaiKeText import sqlite3 import time im ...
Python之读写文本数据
知识点不多一:普通操作 # rt 模式的 open() 函数读取文本文件 # wt 模式的 open() 函数清除覆盖掉原文件,write新文件 # at 模式的 open() 函数添加write ...
python多种格式数据加载、处理与存储
多种格式数据加载.处理与存储实际的场景中,我们会在不同的地方遇到各种不同的数据格式(比如大家熟悉的csv与txt,比如网页HTML格式,比如XML格式),我们来一起看看python如何和这些格式的数 ...
python matplotlib plot 数据中的中文无法正常显示的解决办法
转发自:http://blog.csdn.net/laoyaotask/article/details/22117745?utm_source=tuicool python matplotlib pl ...
如何使用 scikit-learn 为机器学习准备文本数据
欢迎大家前往云+社区,获取更多腾讯海量技术实践干货哦~ 文本数据需要特殊处理,然后才能开始将其用于预测建模. 我们需要解析文本,以删除被称为标记化的单词.然后,这些词还需要被编码为整型或浮点型,以用作 ...

随机推荐

Scrapy框架简介及小项目应用
今天来总结一下Scrapy框架的用法.scrapy的架构如下: Engine :引擎,处理整个系统的数据流处理.触发事务,是整个框架的核心. Items :项目,它定义了爬取结果的数据结构,爬取的数 ...
JavaWeb项目在浏览器点击几次就阻塞了
问题描述在学习JavaWeb项目时,通过IDE启动项目后,在浏览器点击几次页面中的链接就阻塞了,浏览器一直转圈圈无法加载,后台日志也没有输出. 第一次遇见这种情况,没有日志完全无法分析到底是什么问题 ...
python编码--解码
在py3中只有两种数据类型:str bytes str: 存unicode(万国码)编码--全球通用的 bytes:存的是16进制的 1.str s='ehllo 丽庆' --->它存在内 ...
09 . Kubernetes之pv、pvc及使用nfs网络存储应用
PV,PVC概述 PV的全称是: PersistentVolume (持久化卷),是对底层的共享存储的一种抽象,PV由管理员进行创建和配置,它和具体的底层的共享存储技术的实现方式有关,比如Ceph.G ...
关于数据文件的文件头2-P2
文章目录 1 疑问点 2 实验验证 2.1 实验环境 2.2 创建统一区大小管理表空间 2.2.1 统一区大小40k 2.2.2 统一区大小56k 2.2.3 统一区大小64k 2.2.4 统一区大小 ...
css如何让文字不换行显示？
在CSS中,可以通过white-space属性来实现文字不换行显示:只要将white-space属性的值为nowrap就可强制文字不换行. white-space属性指定元素内的空白怎样处理.它有以下 ...
CSS通过text-transform实现大写、小写和首字母大写转换
再日常项目中可能会用到一些特殊的样式,比如大写字母转小写.小写字母转大写.首字母大写等. 可以通过 CSS 的 text-transform 属性来实现: text-transform 转换不同的文本 ...
如何科学地完成一场 AR 发布会？全在这份超细节活动策划 Xmind 里了
你们在哪个酒店搭的景? 5 月 28 日,网易智慧企业完成了一场实景人物拍摄 + 虚拟舞台渲染的 AR 线上见面会.非常有趣的是,在直播过程中,不止一位观众问我们,“你们是在哪个酒店搭的景?”.看来我 ...
java 面向对象（四十）：反射（四）反射应用一：创建运行时类的对象
1.代码举例Class<Person> clazz = Person.class; Person obj = clazz.newInstance();System.out.println( ...
史上最强vue总结~万字长文---面试开发全靠它了
vue框架篇 vue的优点轻量级框架:只关注视图层,是一个构建数据的视图集合,大小只有几十kb: 简单易学:国人开发,中文文档,不存在语言障碍 ,易于理解和学习: 双向数据绑定:保留了angular ...

python处理文本数据

python处理文本数据的更多相关文章

随机推荐

热门专题