Pandas系列(四)-文本数据处理
内容目录
- 1. 为什么要用str属性
- 2. 替换和分割
- 3. 提取子串
- 3.1 提取第一个匹配的子串
- 3.2 匹配所有子串
- 3.3 测试是否包含子串
- 3.4 生成哑变量
- 3.5 方法摘要
一、为什么要用str属性?
# 导入相关库
import numpy as np
import pandas as pd index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name")
data = {
"age": [18, 30, np.nan, 40, np.nan, 30],
"city": ["Bei Jing ", "Shang Hai ", "Guang Zhou", "Shen Zhen", np.nan, " "],
"sex": [None, "male", "female", "male", np.nan, "unknown"],
"birth": ["2000-02-10", "1988-10-17", None, "1978-08-08", np.nan, "1988-10-17"]
}
user_info = pd.DataFrame(data=data, index=index)
# 将出生日期转为时间戳
user_info["birth"] = pd.to_datetime(user_info.birth)
user_info
Out[203]:
age city sex birth
name
Tom 18.0 Bei Jing None 2000-02-10
Bob 30.0 Shang Hai male 1988-10-17
Mary NaN Guang Zhou female NaT
James 40.0 Shen Zhen male 1978-08-08
Andy NaN NaN NaN NaT
Alice 30.0 unknown 1988-10-17
在之前已经了解过,在对 Series 中每个元素处理时,我们可以使用 map 或 apply 方法。比如,我想要将每个城市都转为小写,可以使用如下的方式。
In [3]: user_info.city.map(lambda x:x.lower())#报错
-------------------------------------------------------------------------
AttributeError Traceback (most recent call las
<ipython-input-3-d3c01aca317c> in <module>()
----> 1 user_info.city.map(lambda x:x.lower())#报错 d:\pytho3.6\lib\site-packages\pandas\core\series.py in map(self, arg, na_ 2996 """
2997 new_values = super(Series, self)._map_values(
-> 2998 arg, na_action=na_action)
2999 return self._constructor(new_values,
3000 index=self.index).__finalize__(s d:\pytho3.6\lib\site-packages\pandas\core\base.py in _map_values(self, ma
a_action)
1002
1003 # mapper is a function
-> 1004 new_values = map_f(values, mapper)
1005
1006 return new_values pandas/_libs/src\inference.pyx in pandas._libs.lib.map_infer() <ipython-input-3-d3c01aca317c> in <lambda>(x)
----> 1 user_info.city.map(lambda x:x.lower())#报错 AttributeError: 'float' object has no attribute 'lower' In [4]: user_info.city.str.lower()
Out[4]:
name
Tom bei jing
Bob shang hai
Mary guang zhou
James shen zhen
Andy NaN
Alice
Name: city, dtype: object In [5]: user_info.city.str.len()#字符串能用len,series,dataframe用size
Out[5]:
name
Tom 9.0
Bob 10.0
Mary 10.0
James 9.0
Andy NaN
Alice 1.0
Name: city, dtype: float64
二、替换和分割
使用 .srt 属性也支持替换与分割操作。
先来看下替换操作,例如:将空字符串替换成下划线。
replace 方法还支持正则表达式,例如将所有开头为 S 的城市替换为空字符串。
再来看下分割操作,例如根据空字符串来分割某一列。
分割列表中的元素可以使用 get 或 [] 符号进行访问:
设置参数 expand=True 可以轻松扩展此项以返回 DataFrame。
user_info.city.str.replace(' ','_')
user_info.city.str.replace('^S.*','')
user_info.city.str.split(" ")
user_info.city.str.split(" ").str.get(0)
user_info.city.str.split(" ").str[1]
user_info.city.str.split(" ", expand=True)
三、提取子串
既然是在操作字符串,很自然,你可能会想到是否可以从一个长的字符串中提取出子串。答案是可以的。
- 3.1 提取第一个匹配的子串
extract 方法接受一个正则表达式并至少包含一个捕获组,指定参数 expand=True 可以保证每次都返回 DataFrame。
例如,现在想要匹配空字符串前面的所有的字母,可以使用如下操作:如果使用多个组提取正则表达式会返回一个 DataFrame,每个组只有一列。
In [6]: user_info.city.str.extract("(\w+)\s+", expand=True)
Out[6]:
0
name
Tom Bei
Bob Shang
Mary Guang
James Shen
Andy NaN
Alice NaN
例如,想要匹配出空字符串前面和后面的所有字母,操作如下
In [7]: user_info.city.str.extract("(\w+)\s+(\w+)", expand=True)
Out[7]:
0 1
name
Tom Bei Jing
Bob Shang Hai
Mary Guang Zhou
James Shen Zhen
Andy NaN NaN
Alice NaN NaN
- 3.2 匹配所有子串
extract 只能够匹配出第一个子串,使用 extractall 可以匹配出所有的子串。
例如,将所有组的空白字符串前面的字母都匹配出来,可以如下操作。
In [8]: user_info.city.str.extractall("(\w+)\s+")
Out[8]:
0
name match
Tom 0 Bei
1 Jing
Bob 0 Shang
1 Hai
Mary 0 Guang
James 0 Shen
- 3.3 测试是否包含子串
除了可以匹配出子串外,我们还可以使用 contains 来测试是否包含子串。例如,想要测试城市是否包含子串 “Zh”。
In [9]: user_info.city.str.contains("Zh")
Out[9]:
name
Tom False
Bob False
Mary True
James True
Andy NaN
Alice False
Name: city, dtype: object
In [10]: user_info.city.str.contains("^S")
Out[10]:
name
Tom False
Bob True
Mary False
James True
Andy NaN
Alice False
Name: city, dtype: object
- 3.4 生成哑变量
这是一个神奇的功能,通过 get_dummies 方法可以将字符串转为哑变量,sep 参数是指定哑变量之间的分隔符。来看看效果吧。
In [11]: user_info.city.str.get_dummies(sep=" ")
Out[11]:
Bei Guang Hai Jing Shang Shen Zhen Zhou
name
Tom 1 0 0 1 0 0 0 0
Bob 0 0 1 0 1 0 0 0
Mary 0 1 0 0 0 0 0 1
James 0 0 0 0 0 1 1 0
Andy 0 0 0 0 0 0 0 0
Alice 0 0 0 0 0 0 0 0
- 3.5 方法摘要
这里列出了一些常用的方法摘要。 方法 描述
cat() 连接字符串
split() 在分隔符上分割字符串
rsplit() 从字符串末尾开始分隔字符串
get() 索引到每个元素(检索第i个元素)
join() 使用分隔符在系列的每个元素中加入字符串
get_dummies() 在分隔符上分割字符串,返回虚拟变量的DataFrame
contains() 如果每个字符串都包含pattern / regex,则返回布尔数组
replace() 用其他字符串替换pattern / regex的出现
repeat() 重复值(s.str.repeat(3)等同于x * 3 t2 >)
pad() 将空格添加到字符串的左侧,右侧或两侧
center() 相当于str.center
ljust() 相当于str.ljust
rjust() 相当于str.rjust
zfill() 等同于str.zfill
wrap() 将长长的字符串拆分为长度小于给定宽度的行
slice() 切分Series中的每个字符串
slice_replace() 用传递的值替换每个字符串中的切片
count() 计数模式的发生
startswith() 相当于每个元素的str.startswith(pat)
endswith() 相当于每个元素的str.endswith(pat)
findall() 计算每个字符串的所有模式/正则表达式的列表
match() 在每个元素上调用re.match,返回匹配的组作为列表
extract() 在每个元素上调用re.search,为每个元素返回一行DataFrame,为每个正则表达式捕获组返回一列
extractall() 在每个元素上调用re.findall,为每个匹配返回一行DataFrame,为每个正则表达式捕获组返回一列
len() 计算字符串长度
strip() 相当于str.strip
rstrip() 相当于str.rstrip
lstrip() 相当于str.lstrip
partition() 等同于str.partition
rpartition() 等同于str.rpartition
lower() 相当于str.lower
upper() 相当于str.upper
find() 相当于str.find
rfind() 相当于str.rfind
index() 相当于str.index
rindex() 相当于str.rindex
capitalize() 相当于str.capitalize
swapcase() 相当于str.swapcase
normalize() 返回Unicode标准格式。相当于unicodedata.normalize
translate() 等同于str.translate
isalnum() 等同于str.isalnum
isalpha() 等同于str.isalpha
isdigit() 相当于str.isdigit
isspace() 等同于str.isspace
islower() 相当于str.islower
isupper() 相当于str.isupper
istitle() 相当于str.istitle
isnumeric() 相当于str.isnumeric
isdecimal() 相当于str.isdecimal
Pandas系列(四)-文本数据处理的更多相关文章
- SQL Server 2008空间数据应用系列四:基础空间对象与函数应用
原文:SQL Server 2008空间数据应用系列四:基础空间对象与函数应用 友情提示,您阅读本篇博文的先决条件如下: 1.本文示例基于Microsoft SQL Server 2008 R2调测. ...
- VSTO之旅系列(四):创建Word解决方案
原文:VSTO之旅系列(四):创建Word解决方案 本专题概要 引言 Word对象模型 创建Word外接程序 小结 一.引言 在上一个专题中主要为大家介绍如何自定义我们的Excel 界面的,然而在这个 ...
- 系列四TortoiseSvn客户端软件
原文:系列四TortoiseSvn客户端软件 TortoiseSvn介绍 TortoiseSvn 是 Subversion 版本控制系统的一个免费开源客户端,可以超越时间的管理文件和目录.文件保存在中 ...
- sed修炼系列(四):sed中的疑难杂症
本文目录:1 sed中使用变量和变量替换的问题2 反向引用失效问题3 "-i"选项的文件保存问题4 贪婪匹配问题5 sed命令"a"和"N" ...
- Pandas系列之入门篇
Pandas系列之入门篇 简介 pandas 是 python用来数据清洗.分析的包,可以使用类sql的语法方便的进行数据关联.查询,属于内存计算范畴, 效率远远高于硬盘计算的数据库存储.另外pand ...
- 分布式系列四: HTTP及HTTPS协议
分布式系列四: HTTP及HTTPS协议 非常全面的一篇HTTP的文章: 关于HTTP协议,一篇就够了 还有一个帮助理解HTTPS的文章: 也许,这样理解HTTPS更容易 本文的一些描述摘自这篇文章 ...
- 转:arcgis api for js入门开发系列四地图查询
原文地址:arcgis api for js入门开发系列四地图查询 arcgis for js的地图查询方式,一般来说,总共有三种查询方式:FindTask.IdentifyTask.QueryTas ...
- [转]C# 互操作性入门系列(四):在C# 中调用COM组件
传送门 C#互操作系列文章: C# 互操作性入门系列(一):C#中互操作性介绍 C# 互操作性入门系列(二):使用平台调用调用Win32 函数 C# 互操作性入门系列(三):平台调用中的数据封送处理 ...
- Paddle Graph Learning (PGL)图学习之图游走类模型[系列四]
Paddle Graph Learning (PGL)图学习之图游走类模型[系列四] 更多详情参考:Paddle Graph Learning 图学习之图游走类模型[系列四] https://aist ...
- 前端构建大法 Gulp 系列 (四):gulp实战
前端构建大法 Gulp 系列 (一):为什么需要前端构建 前端构建大法 Gulp 系列 (二):为什么选择gulp 前端构建大法 Gulp 系列 (三):gulp的4个API 让你成为gulp专家 前 ...
随机推荐
- Oracle的ORA-02292报错:违反完整性约束,已找到子记录
第一种方法: 第一步就是找到子表的记录: select a.constraint_name, a.table_name, b.constraint_name from user_constraints ...
- c/c++ 继承与多态 由子类向父类的转换规则
问题1:子类B可以有3种方式(public, protected, private)继承父类A,用哪种方式继承,用户代码才能把子类B的对象转换成父类A的对象呢? 只用当子类B以public方式继承父类 ...
- python--继承--方法的重写---和父类的扩展
1.方法的重写 父类的方法不能满足子类的需要,可以对方法重写 具体的实现方式,就相当于在子类中定义了一个和父类同名的方法并实现 重写之后只会对子类的方法调用,而不会调用父类封装的方法 2.对父类方法进 ...
- 微信js-sdk开发获取签名和获取地理位置接口示例
###微信js-sdk开发获取签名和获取地理位置接口示例 前言:在做微信公众号开发时需要获取用户的地理位置信息,之前通过高德或者百度.腾讯等地图的api时发现经常获取不到,毕竟第三方的东西,后来改为采 ...
- php分页实现
<?php header("content-type:text/html;charset=utf8"); include 'conn.php'; //每页显示的数据条数 $p ...
- Django REST framework基础:视图和路由
DRF中的Request 在Django REST Framework中内置的Request类扩展了Django中的Request类,实现了很多方便的功能--如请求数据解析和认证等. 比如,区别于Dj ...
- 网络二十四题 之 P2756 飞行员配对方案问题
题目背景 第二次世界大战时期.. 题目描述 英国皇家空军从沦陷国征募了大量外籍飞行员.由皇家空军派出的每一架飞机都需要配备在航行技能和语言上能互相配合的2 名飞行员,其中1 名是英国飞行员,另1名是外 ...
- (四)Exploring Your Cluster
The REST API Now that we have our node (and cluster) up and running, the next step is to understand ...
- Redtiger SQL注入练习(二)
第六关: 点击 click me,构造url:user=1',返回user not found.user=1'',同样. 猜测是数字型注入,构造order by , user=1 order by ...
- PHP处理XML文档,没有CDATA部分数据处理
在博客备份时,导出了所有文章,导出是xml文档,文章内容在CDATA部分. 这里介绍下XML中CDATA: 所有 XML 文档中的文本均会被解析器解析.只有 CDATA 区段(CDATA sectio ...