使用Pandas: str.replace() 进行文本清洗

前段时间参加了Kaggle上的Mercari Price Suggestion Challenge比赛，收获良多，过些时候准备进行一些全面的总结，本篇文章先谈一个比赛中用到的小技巧。

这个比赛数据中有一个特征叫做 "item_description"，大致是一些商品描述，比如什么时候买的、新旧程度如何、什么牌子的等等。因为大部分都是Mercari这个网站（这个类似于国内的二手商品交易网站）上的用户自己填的商品描述，所以是极尽杂乱之能事，会出现很多夸张的符号，比如这样：

另外的一大问题是用语规范不统一，比如 $1.100 和 $1.1 其实是一个意思，然而在对文本进行特征提取时就会被当成两个特征，这会使特征变得过于稀疏，对模型的效果也会产生影响。所幸Pandas中提供了str.replace()这个方法，可以高效处理此类问题。

str.replace()的作用基本与re.sub()等同，区别在于re.sub()一次只能处理一个字符串，而str.replace()可以一次处理一整个Series，因而效率要高很多。str.replace()的正式形式为 Series.str.replace(pat, repl) ，其中pat为想要寻找的模式，一般为正则表达式，repl为要替换进去的字符串或函数。

下面是几个简单的例子，X代表一个Series，repl皆为字符串：

X.str.replace(r"iphone\s+7", "iphone7")  #为了将iphone7视为一个词，把iphone 7转换为iphone7，去除空格。

X.str.replace(r"16gbiphone", "16gb iphone")  #将16gbiphone转换无16gb iphone，增加空格。

X.str.replace(r"fl\s?\.?\s?oz", "floz")  #将fl.oz或fl . oz转换为floz

如果是一些比较复杂的情况，则需要将repl自定义为函数：

1) 将1.101000变为1.101，即将后面的"0"去掉。

remove0 = lambda m:m.group(0).rstrip("0")

X.str.replace(r"\d\.\d*[1-9]+0+", remove0)

上例中将repl定义为一个匿名函数，m.group(0)为匹配到的所有字符串，注意其不会匹配到1.000的情况，因为pat中存在[1-9]。

2) 将1.000kg变为1kg，这里因为要去除的.和0两个字符位于中间，所以无法用上面的rstrip()。

table1 = str.maketrans("","","0.")

remove1 = lambda m:m.group(0).translate(table1)

X.str.replace(r"\.0+[a-z]+", remove1)

上例中使用str.maketrans()方法指定想要删除的字符，再用translate()删除。这是python 3的写法，python 2中可直接使用translate()：

# python 2

remove1 = lambda m:m.group(0).translate(None,"0.")

X.str.replace(r"\.0+[a-z]+", remove1)

3) 将0.0300kg转换为0.03kg。这里由于0.03本身存在0，所以不能用str.maketrans()了，因为会将所有0都删除。所以这里用两个正则表达式分别找到0.03和kg，再拼接起来：

def remove2(data):

    al1 = re.findall(r"\d+\.\d*[1-9]+0+",data.group(0))

    al2 = re.findall(r"[a-z]+",data.group(0))

    return al1[0].rstrip("0") + al2[0]

X.str.replace(r"\d+\.\d*[1-9]+0+[a-z]+", remove2)

4) 将1.100%转换为1 100%，这么做的目的是1.100%可能会被转换为一个词，而实际想要提取的肯定只有100%：

def remove3(data):

    al1 = re.findall(r"\d+(?=\.)", data.group(0))  # 这里使用了零宽断言(?=)，是为了去除”.“

    al2 = re.findall(r"100%", data.group(0))

    return al1[0]+" "+al2[0]

X.str.replace(r"\d+\.100%", remove3)

5) 商品中有很多衣服鞋子之类的，一般都标有尺码，比如3",15”等。这里要把后面的尺码符号‘ ” ’提取出来并用“colon”表示，让模型识别出前面的数字3和15是代表尺码大小。

def findcolon(data):

    al1 = re.findall(r'\d{1,2}\.\d{1,3}|\d{1,2}|1\d{2}', data.group(0))

    return al1[0]+" colon "

X.str.replace(r'(?:\d{1,2}\.\d{1,3}|\d{1,2}|1\d{2})(?:\s?\")', findcolon) # 匹配2.3“, 55", 132"等，转换为2.3 colon

由此，本文结合比赛中的例子介绍了几种清洗文本的方法，另外Pandas中还提供了其他很多有用的处理文本的方法，详见文档 Working with Text Data 。

使用Pandas: str.replace() 进行文本清洗的更多相关文章

Pandas: 使用str.replace() 进行文本清洗
str.replace()可以一次处理一整个Series.str.replace()的正式形式为 Series.str.replace(pat, repl) ,其中pat为想要寻找的模式,一般为正则表 ...
str.replace()和re.sub()/calendar.month_abbr/re.subn()/upper和lower和capitalize/贪婪匹配和费贪婪匹配/re.S和re.DOTALL 笔记
str.replace()可以进行简单的替换 >>> a = 'one.txt, index.py, index.php, index.html, index.js' >> ...
Uncaught TypeError: str.replace is not a function
在做审核页面时,点击审核通过按钮不执行后来F12控制台查看发现有报错是因为flisnullandxyzero未执行然后找出这个方法,此方法为公共方法,将这个方法复制出来然后使用console. ...
str.replace替换变量名的字符串
网易云课堂该课程链接地址 https://study.163.com/course/courseMain.htm?share=2&shareId=400000000398149&cou ...
replace限制文本框只能输入数字，数字和字母等的正则表达式
1.文本框只能输入数字代码(小数点也不能输入) <input onkeyup="this.value=this.value.replace(/\D/g,'')" onafte ...
SQL用replace替换文本部分内容
替换文本内容 update tk_question set stem=replace(cast(stem as varchar(max)) ,'被替换文本','替换文本') 查询字段内容长度 sele ...
Excel常见文本清洗函数
1.=LEFT(text,[num_chars]) 函数RIGHT具有相似功能例如选出K列中,从左数前一个字符:= LEFT(k2,1) 2.=FIND(find_text,within_tex ...
sql server REPLACE 替换文本中的回车和换行符
--替换回车符 REPLACE(exp, CHAR(13), '') --替换换行符 REPLACE(exp, CHAR(10), '') --水平制表符 REPLACE(exp, CHAR( ...
js实现千位分隔符——str.replace()用法
/*js*/function commafy(num){ return num && num.toString().replace(/(\d{1,3})(?=(\d{3})+(?:$| ...

随机推荐

python模块之shutil高级文件操作
简介 shutil模块提供了大量的文件的高级操作.特别针对文件拷贝和删除,主要功能为目录和文件操作以及压缩操作.对单个文件的操作也可参见os模块. 注意即便是更高级别的文件复制函数(shutil.co ...
mac终端显示日历信息命令
cal 命令: 用法: usage: cal [-jy] [[month] year] cal [-j] [-m month] [year] ncal [-Jjpwy] [-s country_cod ...
R语言基本语法
R语言基本语法基本数据类型数据类型向量 vector 矩阵 matrix 数组 array 数据框 data frame 因子 factor 列表 list 向量单个数值(标量)没有单独的数据 ...
java一些基本的方法
一,Java中,next();和nextLine();有什么区别举个例子,你就会明白了.如,你输入的一行:abc cde efg注意,其中abc和cde之间有空格,cde和efg之间也有空格这样,n ...
2.5 The Object Model -- Observers
Ember支持监视任何属性,包括计算的属性.你可以使用Ember.observer为一个对象设置一个监视者: Person = Ember.Object.extend({ //these will b ...
MySQL中特有的函数If函数
上面我们已经知道了case函数可以实现逻辑判断,可以是很复杂的逻辑判断,但是如果我们只想实现的是如果这个条件成立就返回A否则就返回B这样简单的逻辑如果用case的话,未免复杂了.我们可以使用if函数来 ...
InFusion错误类型分析
1 God Class 1.1 特征上帝类通常过多的操纵其他类的数据,从而破坏了类的封装性.上帝类从其他类中获得功能,同时增加了自身的耦合性,通常会导致自己具有规模过大和较高的复 ...
php时间戳函数mktime()
在项目开发中,偶尔会遇到跨周期.跨月的的时间操作.PHP为我们提供了一个很方便的函数->mktime,可以很简单的获取制定日期的时间戳了. mktime(hour,minute,second,m ...
poj1942 Paths on a Grid（无mod大组合数）
poj1942 Paths on a Grid 题意:给定一个长m高n$(n,m \in unsigned 32-bit)$的矩形,问有几种走法.$n=m=0$时终止. 显然的$C(m+n,n)$ 但 ...
配置zbar识别二维码（转载）
原文地址:http://blog.csdn.net/dcrmg/article/details/52108258 二维码解码器Zbar+VS2012开发环境配置 Zbar条码解码器是一个开源的二维码 ...

使用Pandas: str.replace() 进行文本清洗

使用Pandas: str.replace() 进行文本清洗的更多相关文章

随机推荐

热门专题