脏数据清洗，pandas.apply()的应用

原数据如下所示：

IMAGETYPE count

.?+? 1713

Jh.5? 100

.??U 38

.11.1 1

.13.1 1

.15.11 2

IMAGETYPE	count
.?+?	1713
Jh.5?	100
.??U	38
.11.1	1
.13.1	1
.15.11	2

我需要对数据内的带有特殊符号，且第一个逗号前的数据进行清洗。

分析清洗条件：

1.含有字符如：?,<,>,),(,=,# 的数据全部清洗drop

2.第一个逗号前面，得满足条件1）可以带有首字母a或A；2）数字部分不能大于29

分析思路：

1.创建函数，判断字符串，由于用的Series，所以用apply()就可以对每个元素进行判断操作，读进来是一个字符串，如果是dataframe格式，需要使用applymap()才能读到每个元素

2.首先判断读进来的字符串是否含有特殊字符，这里用了一个循环判断

3.然后切割字符串，判断第一个元素是不是空；是不是含有A或a；是不是数字小于29

4.如果不满足上述条件的，都返回 None，方便在dataframe中使用dropna()删除脏数据

完整代码如下：

import pandas as pd

df = pd.read_csv(r'Result_6.csv')

def re(x):

    list1 = ["-","?","=","@","*","(",">"]

    for i in list1:

        if i in x:

            return None

    a = x.split(".")

    try:

        if a[0] == '':

            return None

        elif a[0][0] == 'a' or a[0][0] == 'A':

                if int(a[0][1:]) > 29:

                    return None

        elif int(a[0]) > 29:

            return None

    except:

        return None

    return x

df["IMAGETYPE"] = df["IMAGETYPE"].apply(re)

df = df.dropna(axis=0, how="any")

df.to_csv('clean3.csv', encoding='utf-8')

脏数据清洗，pandas.apply()的应用的更多相关文章

[数据清洗]- Pandas 清洗“脏”数据（二）
概要了解数据分析数据问题清洗数据整合代码了解数据在处理任何数据之前,我们的第一任务是理解数据以及数据是干什么用的.我们尝试去理解数据的列/行.记录.数据格式.语义错误.缺失的条目以及错误的 ...
[数据清洗]- Pandas 清洗“脏”数据（三）
预览数据这次我们使用 Artworks.csv ,我们选取 100 行数据来完成本次内容.具体步骤: 导入 Pandas 读取 csv 数据到 DataFrame(要确保数据已经下载到指定路径) D ...
[数据清洗]-Pandas 清洗“脏”数据（一）
概要准备工作检查数据处理缺失数据添加默认值删除不完整的行删除不完整的列规范化数据类型必要的转换重命名列名保存结果更多资源 Pandas 是 Python 中很流行的类库,使用它可 ...
pandas apply()函数参数 args
#!/usr/bin/python import pandas as pd data = {'year':[2000,2001,2002,2001,2002],'value':[1.5,1.7,3.6 ...
pandas,apply并行计算的一个demo
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2018-10-11 17:55:26 # @Author : Sheldon (thi ...
pandas.apply()函数
1.介绍 apply函数是pandas里面所有函数中自由度最高的函数.该函数如下: DataFrame.apply(func, axis=0, broadcast=False, raw=False, ...
学习pandas apply方法，看这一篇就够了，你该这么学，No.10
最近好忙啊,好忙啊,忙的写不动博客了时间过得飞快一晃,一周就过去了本着不进步就倒退的性格我成功的在技术上面划水了一周今天要学习的还是groupby的高级进阶说是高级,其实就是比初级复杂了一 ...
pandas apply 添加进度条
Way:from tqdm import tqdmimport pandas as pdtqdm.pandas(desc='pandas bar')df['title_content'] = df.p ...
[数据清洗]-使用 Pandas 清洗“脏”数据
概要准备工作检查数据处理缺失数据添加默认值删除不完整的行删除不完整的列规范化数据类型必要的转换重命名列名保存结果更多资源 Pandas 是 Python 中很流行的类库,使用它可 ...

随机推荐

Netty学习(二)使用及执行流程
Netty简单使用 1.本文先介绍一下 server 的 demo 2.(重点是这个)根据代码跟踪一下 Netty 的一些执行流程和事件传递的 pipeline. 首先到官网看一下Netty Se ...
VTK读取数据
#include <vtkSmartPointer.h> #include <vtkSimplePointsReader.h> #include <vtkPolyData ...
python 装饰器的使用
装饰器本质上是一个Python函数,它可以让其他函数在不需要做任何代码变动的前提下增加额外功能,装饰器的返回值也是一个函数对象.它经常用于有切面需求的场景,比如:插入日志.性能测试.事务处理.缓存.权 ...
『现学现忘』Docker基础 — 27、Docker镜像的commit操作
目录 1.commit命令作用 2.commit命令说明 3.示例演示 1.commit命令作用在运行的容器中,并在镜像的基础上做了一些修改,我们希望保存起来,封装成一个新的镜像,方便我们以后使用, ...
CVE-2015-5531（目录遍历漏洞）
vulhub漏洞环境搭建 https://blog.csdn.net/qq_36374896/article/details/84102101 启动docker环境 cd vulhub-master/ ...
C 上楼梯中国石油大学新生训练赛#11
问题 C: 上楼梯时间限制: 1 Sec 内存限制: 128 MB提交状态题目描述明明上n 级台阶可用四种步幅, 当然每种步幅花费的体力也不一样, 对应关系如下明明开始有m 个体力, 求他最 ...
分治FFT/NTT
粘板子: #include<cstdio> #include<cstring> #include<algorithm> using namespace std; t ...
TypeScript编译tsconfig.json配置
配置预览 { "include": ["src/**/*"], "exclude": ["ndoe_modules", ...
深入理解Java虚拟机-走进Java
一.Java技术体系从广义上讲, Clojure. JRuby. Groovy等运行于Java虚拟机上的语言及其相关的程序都属于Java技术体系中的一员. 如果仅从传统意义上来看, Sun官方所定义 ...
Linux的权限总结
一般权限和特殊权限可控制文件所有者.所有组.其他人的读写执行权限, 而隐藏权限则可以进行补充权限,可限制文件内容只能追加内容,不更新属性等信息 ACL则可以进行让某个用户或组或other拥有指定文 ...

脏数据清洗，pandas.apply()的应用

脏数据清洗，pandas.apply()的应用的更多相关文章

随机推荐

热门专题