处理文本数据,主要是通过Seris的str访问。遇到NaN时不做任何处理,保留结果为NaN,遇到数字全部处理为NaN。

str是Seris的方法,DataFrame不能直接使用,但是通过索引选择DataFrame中的某一行或者某一列,结果为Seris,然后就可以使用了。

例如定义一个Seris和DataFrame如下

s = pd.Series([' ab',1,' bb ',np.nan,'bc '])
dic = {'one':[0,2,2,4],'two':[2,np.nan,4,6],'three':['a','b',np.nan,2]}
df = pd.DataFrame(dic,index=['d','e','f','g'])

将上述s全部变成大写字母,将df的列名称变成大写。

s = s.str.upper()
df.columns = df.columns.str.upper()

以下都以Seris做示例,这些方法与python字符串的操作类似

print(s.str.lower())   #将s中的各字符串全部变为小写
print(s.str.upper()) #将s中的各字符串全部变为大写
print(s.str.capitalize()) #将s中的各字符串全部变为首字母大写
print(s.str.len()) #求s中各字符串的长度
print(s.str.count('b')) #求s中的各字符串元素包含几个b
print(s.str.startswith('a')) #判断s中的各字符串是否以a开始
print(s.str.endswith('a')) #判断s中的各字符串是否以a结束
print(s.str.contains('b')) #判断s中的各字符串是否包含b
print(s.str.strip()) #去掉s中字符串元素两边的空格
print(s.str.lstrip()) #去掉s中字符串元素左边的空格
print(s.str.rstrip()) #去掉s中字符串元素右边的空格
print(s.str.replace('原字符','替换字符',1)) #将原字符串替换为指定字符串,默认替换所有满足条件的,n表示替换前n个满足条件的

split()和rsplit()

split()表示从左边开始分割,rsplit()表示从右边分割,分割后的结构为一个列表

s = pd.Series(['a,b,c,d',np.nan,['a..c'],'1,2,3'])
print(s.str.split(',')) #对Seris中的元素按照,分割,即对'a,b,c'、np.nan、['a..c']、'1,2,3'按照,分割
print(s.str.split(',').str[0]) #获取每个元素分割后的第一个值,分割后的结果也为Seris,也需要通过str来获取每个元素
print(s.str.split(',',expand=True,n=1)) #expand为True表示将原列按照分割符拆分为㢵列,n表示拆分次数,默认不拆分,如果拆分默认拆分最多次
# 0 [a, b, c, d]
# 1 NaN
# 2 NaN
# 3 [1, 2, 3]
# dtype: object
# 0 a
# 1 NaN
# 2 NaN
# 3 1
# dtype: object
# 0 1
# 0 a b,c,d
# 1 NaN NaN
# 2 NaN NaN
# 3 1 2,3

python处理文本数据的更多相关文章

  1. 用python处理文本数据 学到的一些东西

    最近写了一个python脚本,用TagMe的api标注文本,并解析返回的json数据.在这个过程中遇到了很多问题,学到了一些新东西,总结一下. 1. csv文件处理 csv是一种格式化的文件,由行和列 ...

  2. Python的文本数据

    字符串的一些方法! 1.text.endswith(".jpg")        如果字符串是以给定子字符串结尾的,就返回值True. 2. text.upper():       ...

  3. python读取文本数据某一列

    import codecs f = codecs.open('test1 - 副本.txt', mode='r', encoding='utf-8') # 打开txt文件,以'utf-8'编码读取 l ...

  4. Python文本数据互相转换(pandas and win32com)

    (工作之后,就让自己的身心都去休息吧) 今天介绍一下文本数据的提取和转换,这里主要实例的转换为excel文件(.xlsx)转换world文件(.doc/docx),同时需要使用win32api,同py ...

  5. [Python] 糗事百科文本数据的抓取

    [Python] 糗事百科文本数据的抓取 源码 https://github.com/YouXianMing/QiuShiBaiKeText import sqlite3 import time im ...

  6. Python之读写文本数据

    知识点不多 一:普通操作  # rt 模式的 open() 函数读取文本文件 # wt 模式的 open() 函数清除覆盖掉原文件,write新文件 # at 模式的 open() 函数添加write ...

  7. python多种格式数据加载、处理与存储

    多种格式数据加载.处理与存储 实际的场景中,我们会在不同的地方遇到各种不同的数据格式(比如大家熟悉的csv与txt,比如网页HTML格式,比如XML格式),我们来一起看看python如何和这些格式的数 ...

  8. python matplotlib plot 数据中的中文无法正常显示的解决办法

    转发自:http://blog.csdn.net/laoyaotask/article/details/22117745?utm_source=tuicool python matplotlib pl ...

  9. 如何使用 scikit-learn 为机器学习准备文本数据

    欢迎大家前往云+社区,获取更多腾讯海量技术实践干货哦~ 文本数据需要特殊处理,然后才能开始将其用于预测建模. 我们需要解析文本,以删除被称为标记化的单词.然后,这些词还需要被编码为整型或浮点型,以用作 ...

随机推荐

  1. Executors框架之ScheduledExecutorService实现定时任务

    一.简介 An ExecutorService that can schedule commands to run after a given delay, or to execute periodi ...

  2. .NET Core控制台利用【Options】读取Json配置文件

    创建一个 .NET Core控制台程序 添加依赖 Microsoft.Extensions.Configuration Microsoft.Extensions.Configuration.FileE ...

  3. 二.5vue服务器展示

    1.展示服务器列表前端页面 (1)写视图模版views/resources/servers.vue <template> <div class="resources-ser ...

  4. visual studio 项目中使用EF创建的数据库,后续更新数据库操作(生产已经部署,不能删除数据库重新创建)

    情景:SharePoint项目(其他类型的项目道理也一样),数据库是用EF(版本:6.0.0.0)创建的,生产环境已经使用,所以后续修改数据库,只能通过更新来实现. 下面是具体的操作方式: 1.vis ...

  5. 多线程下的list

    前言 list 是 Python 常用的几个基本数据类型之一.正常情况下我们会对 list 有增删改查的操作,显然易见不会有任何问题.那么如果我们试着在多线程下操作list 会有问题吗? 多线程下的 ...

  6. NOIp (on line) 入门组 2020 总结

    得分情况 : 估分: 100+30+30=160: 实际: 95+70+25=190: T1 : 题意: 有n块钱,买三种文具,分别为 a:7元.b:4元.c:3元,问怎么买能让n元钱全部用完,而且使 ...

  7. postcss.config.js not found

    https://github.com/ElemeFE/element/issues/10249

  8. Java并发编程(06):Lock机制下API用法详解

    本文源码:GitHub·点这里 || GitEE·点这里 一.Lock体系结构 1.基础接口简介 Lock加锁相关结构中涉及两个使用广泛的基础API:ReentrantLock类和Condition接 ...

  9. day23 常用模块(中)

    目录 一.json&pickle模块 1 什么是序列化 2 为什么要序列化 2.1 持久保存状态 2.2 跨平台数据交互 3 如何序列化 二.shelve模块 三.configparser模块 ...

  10. 大话一个CPU(沙子是如何影响未来的)

    大话一个CPU(沙子是如何影响未来的) CPU是个啥? 先大体上了解一下 中央处理器 (英语:Central Processing Unit,缩写:CPU),是计算机的主要设备之一,功能主要是解释计算 ...