pandas dataframe 过滤——apply最灵活！！！

按照某特定string字段长度过滤：

import pandas as pd

df = pd.read_csv('filex.csv')

df['A'] = df['A'].astype('str')

df['B'] = df['B'].astype('str')

mask = (df['A'].str.len() == 10) & (df['B'].str.len() == 10)

df = df.loc[mask]

print(df)

Applied to filex.csv:

A,B

123,abc

1234,abcd

1234567890,abcdefghij

the code above prints

            A           B

2  1234567890  abcdefghij

或者是：

data={"names":["Alice","Zac","Anna","O"],"cars":["Civic","BMW","Mitsubishi","Benz"],

     "age":["1","4","2","0"]}

df=pd.DataFrame(data)

"""

df:

  age        cars  names

0   1       Civic  Alice

1   4         BMW    Zac

2   2  Mitsubishi   Anna

3   0        Benz      O

Then:

"""

df[

df['names'].apply(lambda x: len(x)>1) &

df['cars'].apply(lambda x: "i" in x) &

df['age'].apply(lambda x: int(x)<2)

  ]

"""

We will have :

  age   cars  names

0   1  Civic  Alice

"""

最灵活的是用apply：

def load_metadata(dir_name):

    columns_index_list = [

        MetaIndex.M_METADATA_ID_INDEX,

        MetaIndex.M_SRC_IP_INDEX,

        MetaIndex.M_DST_IP_INDEX,

        MetaIndex.M_SRC_PORT_INDEX,

        MetaIndex.M_DST_PORT_INDEX,

        MetaIndex.M_PROTOCOL_INDEX,

        MetaIndex.M_HEADER_H,

        MetaIndex.M_PAYLOAD_H,

        MetaIndex.M_TCP_FLAG_H,

        MetaIndex.M_FLOW_FIRST_PKT_TIME,

        MetaIndex.M_FLOW_LAST_PKT_TIME,

        MetaIndex.M_OCTET_DELTA_COUNT_FROM_TOTAL_LEN,

    ]

    columns_name_list = [

        "M_METADATA_ID_INDEX",

        "M_SRC_IP_INDEX",

        "M_DST_IP_INDEX",

        "M_SRC_PORT_INDEX",

        "M_DST_PORT_INDEX",

        "M_PROTOCOL_INDEX",

        "M_HEADER_H",

        "M_PAYLOAD_H",

        "M_TCP_FLAG_H",

        "M_FLOW_FIRST_PKT_TIME",

        "M_FLOW_LAST_PKT_TIME",

        "M_OCTET_DELTA_COUNT_FROM_TOTAL_LEN",

    ]

    def metadata_parse_filter(row):

        try:

            if row['M_PROTOCOL_INDEX'] != 6:

                return False

            if len(row['M_HEADER_H']) < 2 or len(row['M_PAYLOAD_H']) < 2 or not is_l34_tcp_metadata(row['M_METADATA_ID_INDEX']):

                return False

            first_time = row['M_FLOW_FIRST_PKT_TIME'].split('-')

            last_time = row['M_FLOW_LAST_PKT_TIME'].split('-')

            flow_first_pkt_time = int(first_time[0])

            rev_flow_first_pkt_time = int(first_time[1])

            flow_last_pkt_time = int(last_time[0])

            rev_flow_last_pkt_time = int(last_time[1])

            if flow_first_pkt_time > flow_last_pkt_time or rev_flow_first_pkt_time > rev_flow_last_pkt_time:

                return False

            return True

        except Exception as e:

            return False

    for root, dirs, files in os.walk(dir_name):

        for filename in files:

            file_path = os.path.join(root, filename)

            df = pd.read_csv(file_path, delimiter='^', usecols=columns_index_list, names=columns_name_list, encoding='utf-8', error_bad_lines=False, warn_bad_lines=True, header=0, lineterminator="\n")

            filter_df = df.loc[df.apply(metadata_parse_filter, axis=1)]

            yield filter_df

　直接按照row过滤！　

pandas dataframe 过滤——apply最灵活！！！的更多相关文章

pandas DataFrame apply()函数(1)
之前已经写过pandas DataFrame applymap()函数还有pandas数组(pandas Series)-(5)apply方法自定义函数 pandas DataFrame 的 app ...
pandas DataFrame apply()函数(2)
上一篇pandas DataFrame apply()函数(1)说了如何通过apply函数对DataFrame进行转换,得到一个新的DataFrame. 这篇介绍DataFrame apply()函数 ...
Pandas DataFrame数据的增、删、改、查
Pandas DataFrame数据的增.删.改.查 https://blog.csdn.net/zhangchuang601/article/details/79583551 #删除列 df_2 = ...
Pandas DataFrame 函数应用和映射
apply Numpy 的ufuncs通用函数(元素级数组方法)也可用于操作pandas对象: 另一个常见的操作是,将函数应用到由各列或行所形成的一维数组上.Dataframe的apply方法即可实现 ...
【338】Pandas.DataFrame
Ref: Pandas Tutorial: DataFrames in Python Ref: pandas.DataFrame Ref: Pandas:DataFrame对象的基础操作 Ref: C ...
更改 pandas dataframe 中两列的位置
更改 pandas dataframe 中两列的位置: 把其中的某列移到第一列的位置. 原来的 df 是: df = pd.read_csv('I:/Papers/consumer/codeandpa ...
pandas DataFrame的查询方法（loc,iloc,at,iat,ix的用法和区别）
pandas DataFrame的增删查改总结系列文章: pandas DaFrame的创建方法 pandas DataFrame的查询方法 pandas DataFrame行或列的删除方法 pand ...
pandas.DataFrame对象解析
pandas.DataFrame对象类型解析 df = pd.DataFrame([[1,"2",3,4],[5,"6",7,8]],columns=[&quo ...
pandas.DataFrame学习系列1——定义及属性
定义: DataFrame是二维的.大小可变的.成分混合的.具有标签化坐标轴(行和列)的表数据结构.基于行和列标签进行计算.可以被看作是为序列对象(Series)提供的类似字典的一个容器,是panda ...

随机推荐

Oracle Initialzation error instantclient_11_2 32位客户端问题
本地安装完oracle 用PLSql 连接是一堆的问题,折腾一上午终于解决了下载一个 instantclient_11_2 32位的oracle客户端.放在oracle安装目录product下,在把 ...
dataTables使用整理(一)
初次使用dataTables,对一些用到的属性及遇到的问题做一个简要的记录参考资料: http://blog.csdn.net/mickey_miki/article/details/8240477 ...
设计模式（八）Proxy Parttern 代理模式
核心作用: 通过代理,控制对对象的访问可以详细控制某个对象的方法,在调用这个方法做前置处理,调用这个方法后做后置处理(AOP的微观实现) AOP(Aspect Oriented Programmin ...
img 下方的4px像素问题
问题:在一个div块里面放了一个图片,图片下面有内容,可以不管怎么调试,在火狐浏览器,IE6下.图片img底部多出了4个像素解决:img样式中 vertical-align: top/middl ...
Windows上结合使用Flume和Kafka
Win7+Flume1.8.0 + Kafka1.0.0 1.目标 ①使用Flume作为Kafka的Producer: ②使用Kafka作为Flume的Sink: 其实以上两点是同一个事情在Flume ...
vue-循环标记列表元素
<el-col :lg="4" class="list" v-for="(item,index) in picList"> &l ...
Java模拟POST请求发送二进制数据
在进行程序之间数据通信时我们有时候就需要自定义二进制格式,然后通过HTTP进行二进制数据交互.交互的示例代码如下: public static void main(String[] args) { S ...
python三级菜单实例（傻瓜版和进阶版）
程序: python三级菜单要求: : 1.打印省.市.县三级菜单 2.可返回上一级 3.可随时退出程序方案一:傻瓜版(其实傻瓜版考察的主要是思路!思路清楚了,那才不是傻瓜!O(∩_∩)O哈哈~) ...
[mybatis-spring] Transaction 事务/事务处理/事务管理器
使用mybatis-spring的主要原因之一就是: mybatis-spring允许mybatis参与到spring 事务中. mybatis-spring leverage[use (someth ...
spring cloud: Hystrix（五）：如禁止单个FeignClient使用hystrix
spring cloud: Hystrix(五):如禁止单个FeignClient使用hystrix 首先application.yml / applicatoin.propreties的配置项:fe ...

pandas dataframe 过滤——apply最灵活！！！

pandas dataframe 过滤——apply最灵活！！！的更多相关文章

随机推荐

热门专题