Python 中的一些小技巧
这里是本人收集的一些 Python 小技巧,目前主要是一些实用函数,适合有一定基础的童鞋观看(不会专门介绍使用到的标准库函数)。。
一、函数式编程
函数式编程用来处理数据,感觉很方便。(要是再配上管道操作符 |
或者 Java 的那种链式调用,超级爽!可惜 Python 都没有。。需要借助第三方库)
1. 分组/group
数据处理中一个常见的操作,是将列表中的元素,依次每 k 个分作一组。
def group_each(a, size: int):
"""
将一个可迭代对象 a 内的元素, 每 size 个分为一组
group_each([1,2,3,4], 2) -> [(1,2), (3,4)]
"""
iterators = [iter(a)] * size # 将新构造的 iterator 复制 size 次(浅复制)
return zip(*iterators) # 然后 zip
这个函数之前在 Python 拾遗 - 奇技淫巧 中就写过,记得是某次 Google 时在 stackoverflow 上发现的,不过它的最初来源应该是 Python 官方文档的某个角落。
顺便如果某个 size 比较常用(比如 2),还可以用 partial
封装一下
from functools import partial # 每两个分一组group_each_2 = partial(group_each, size=2) # 等同于 group_each_2 = lambda a: group_each(a, 2)
2. 扁平版本的 map
稍微接触过函数式应该都知道 flat_map,可 Python 标准库却没有提供。下面是我在 stackoverflow 上找到的实现,其实很简单
from itertools import chaindef flat_map(f, items):
return chain.from_iterable(map(f, items))
它和 map 的差别在于是不是扁平(flat) 的(废话。。),举个例子
>>> list(map(list, ['123', '456']))
[['1', '2', '3'], ['4', '5', '6']]
>>> list(flat_map(list, ['123', '456']))
['1', '2', '3', '4', '5', '6']
3. 上述函数的应用举例
在做爬虫工作时,有时会遇到这样的 table 元素:
对这种 html 元素,我一般会直接把它转换成 list,结果如下:
table = [['label1', 'value1', 'label2', 'value2'],
['label3', 'value3'],
['label4', 'value4', 'label5', 'value5'],
...
]
为了方便索引,现在我需要把上面的数据转换成下面这个样子的 dict
{ 'label1': 'value1', 'label2': 'value2', 'label3': 'value3', 'label4': 'value4', 'label5': 'value5'}
如果是平常,大概需要写循环了。不过如果用刚刚说到的几个函数的话,会变得异常简单
# 1. 分组groups = flat_map(group_each_2, table)# 1.1 flat_map 返回的是迭代器,list 后内容如下:# [('label1', 'value1'),# ('label2', 'value2'),# ('label3', 'value3'),# ('label4', 'value4'),# ('label5', 'value5')]# 2. 转换成 dictkey_values = dict(groups) # 得到的 key_values 与上面需要的 dict 别无二致。
相关模块
迭代器:itertools
高级数据结构:colletions
这几个模块都和可迭代对象(列表、集合等)有关,熟悉了应该可以大大改善 Python 使用姿势。
二、其他
1. 多 dict 的去重
假设我们有一个 dict 的列表,里面可能有内容一模一样的 dict,我们需要对它做去重。叉车公司哪家好
容易想到的方法就是使用 set,可是 set 中的元素必须是 hashable 的,而 dict 是 unhashable 的,因此不能直接放进 set 里。
>>> a = [{'a': 1}, {'a': 1}, {'b': 2}]>>> set(a)
Traceback (most recent call last):
File "/usr/local/lib/python3.7/site-packages/IPython/core/interactiveshell.py", line 2961, in run_code
exec(code_obj, self.user_global_ns, self.user_ns)
File "<ipython-input-5-5b4c643a6feb>", line 1, in <module>
set(a)TypeError: unhashable type: 'dict'
难道就必须手写递归了么?未必,我在 stackoverflow 看到这样一个小技巧
import jsondef unique_dicts(data_list: list):
"""unique a list of dict
dict 是 unhashable 的,不能放入 set 中,所以先转换成 str
unique_dicts([{'a': 1}, {'a': 1}, {'b': 2}]) -> [{'a': 1}, {'b': 2}]
"""
data_json_set = set(json.dumps(item) for item in data_list) return [json.loads(item) for item in data_json_set]
2. str 的 startswith 和 endswith 两个函数的参数可以是元组
In[7]: a = "bb.gif"In[8]: b = 'a.jpg'In[9]: a.endswith(('.jpg', '.gif'))Out[9]: TrueIn[10]: b.startswith(('bb', 'a'))Out[10]: True
Python 中的一些小技巧的更多相关文章
- Python中的一些小技巧
1.Boolean值可以当做一个数值 a = [5,6,7,8,9] print(a[True]) #prints 6 print(a[False]) #prints 5 2.两种方法实现 a = 1 ...
- python 中 for使用小技巧
testDict = {i: i * i for i in xrange(10)} testSet = {i * 2 for i in xrange(10)} print(testSet) print ...
- 一些Python的惯用法和小技巧:Pythonic
Pythonic其实是个模糊的含义,没有确定的解释.网上也没有过多关于Pythonic的说明,我个人的理解是更加Python,更符合Python的行为习惯.本文主要是说明一些Python的惯用法和小技 ...
- 关于Python ,requests的小技巧
版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/xie_0723/article/details/52790786 关于 Python Request ...
- python - opencv 的一些小技巧备忘
python - opencv 的一些小技巧备忘 使用python-opencv来处理图像时,可以像matlab一样,将一幅图像看成一个矩阵,进行矢量操作,以加快代码运行速度. 下面记录几个常用的操作 ...
- Python语言防坑小技巧
Python语言防坑小技巧 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.赋值即定义 1>.运行以下代码会出现报错 #!/usr/bin/env python #_*_ ...
- python实用30个小技巧
python实用30个小技巧 展开1.原地交换两个数字Python 提供了一个直观的在一行代码中赋值与交换(变量值)的方法,请参见下面的示例: In [1]: x,y = 10 ,20 In [2]: ...
- 填坑总结:python内存泄漏排查小技巧
摘要:最近服务遇到了内存泄漏问题,运维同学紧急呼叫解决,于是在解决问题之余也系统记录了下内存泄漏问题的常见解决思路. 本文分享自华为云社区<python内存泄漏排查小技巧>,作者:luti ...
- ACM 做题过程中的一些小技巧。
ACM做题过程中的一些小技巧. 1.一般用C语言节约空间,要用C++库函数或STL时才用C++; cout.cin和printf.scanf最好不要混用. 2.有时候int型不够用,可以用long l ...
随机推荐
- CentOS中配置VNC Server
环境:CentOS 6.4 1.安装tigervnc-server及相关软件 首先检查系统中是否安装tigervnc-server安装包 rpm -qa tigervnc-server 如果没有就直接 ...
- CentOS 6.4 编译安装 gcc 4.8.1
今天在isocpp上看到“GCC 4.8.1 released, C++11 feature complete”这个消息,非常兴奋.终于有一个全面支持C++11语言特性的编译器了! 当然了,gcc仅仅 ...
- c++赋值运算符为什么要返回引用?
为什么赋值运算符要返回引用?? 因为赋值操作会改变左值,而 + 之类的运算符不会改变操作数,所以说赋值运算符重载要返回引用以用于类似 (a=b)=c 这样的再次对a=b进行写操作的表达式.+ 返回一个 ...
- Liunx信息显示与文件搜索
. uname 显示系统相关信息,如内核版本号,硬件架构 -a # 显示系统所有相关信息 -m # 显示计算机硬件架构 -n # 显示主机名称 -r # 显示内核发行版本号 -s # 显示内核名称 - ...
- 版本管理工具git与svn简介
版本管理工具 版本管理工具简介 常见版本管理工具 cvs(Concurrent Versions System) vss(Visual SourceSafe) svn 常用的版本管理工具 git 流行 ...
- JavaWeb总结(七)
Web状态管理 - HTTP协议使用的是无状态的连接 - 对容器而言,每一个请求都来自于一个新的客户 解决方案-表单隐藏字段 <input type=”hidden” name=”session ...
- 如何启动 EDB*Plus
磨砺技术珠矶,践行数据之道,追求卓越价值 回到上一级页面: PostgreSQL基础知识与基本操作索引页 回到顶级页面:PostgreSQL索引页 由于EnterpriseDB公司的网站上讲的 ...
- 【转载】COM 组件设计与应用(四)——简单调用组件
原文:http://vckbase.com/index.php/wv/1211.html 一.前言 同志们.朋友们.各位领导,大家好. VCKBASE 不得了, 网友众多文章好. 组件设计怎么学? 知 ...
- Kubernetes学习之路(十一)之Pod状态和生命周期管理
一.什么是Pod? Pod是kubernetes中你可以创建和部署的最小也是最简的单位.一个Pod代表着集群中运行的一个进程. Pod中封装着应用的容器(有的情况下是好几个容器),存储.独立的网络IP ...
- Openstack入门篇(十五)之如何创建生产使用的openstack镜像
在linux-node1节点上: [root@linux-node1 ~]# yum install -y openstack-nova-compute [root@linux-node1 ~]# y ...