这里是本人收集的一些 Python 小技巧,目前主要是一些实用函数,适合有一定基础的童鞋观看(不会专门介绍使用到的标准库函数)。。

一、函数式编程

函数式编程用来处理数据,感觉很方便。(要是再配上管道操作符 | 或者 Java 的那种链式调用,超级爽!可惜 Python 都没有。。需要借助第三方库)

1. 分组/group

数据处理中一个常见的操作,是将列表中的元素,依次每 k 个分作一组。

def group_each(a, size: int):
    """
        将一个可迭代对象 a 内的元素, 每 size 个分为一组
        group_each([1,2,3,4], 2) -> [(1,2), (3,4)]
    """
    iterators = [iter(a)] * size  # 将新构造的 iterator 复制 size 次(浅复制)
    return zip(*iterators)  # 然后 zip

这个函数之前在 Python 拾遗 - 奇技淫巧 中就写过,记得是某次 Google 时在 stackoverflow 上发现的,不过它的最初来源应该是 Python 官方文档的某个角落。

顺便如果某个 size 比较常用(比如 2),还可以用 partial 封装一下

from functools import partial # 每两个分一组group_each_2 = partial(group_each, size=2)  # 等同于 group_each_2 = lambda a: group_each(a, 2)

2. 扁平版本的 map

稍微接触过函数式应该都知道 flat_map,可 Python 标准库却没有提供。下面是我在 stackoverflow 上找到的实现,其实很简单

from itertools import chaindef flat_map(f, items):
    return chain.from_iterable(map(f, items))

它和 map 的差别在于是不是扁平(flat) 的(废话。。),举个例子

>>> list(map(list, ['123', '456']))
[['1', '2', '3'], ['4', '5', '6']]
>>> list(flat_map(list, ['123', '456']))
['1', '2', '3', '4', '5', '6']

3. 上述函数的应用举例

在做爬虫工作时,有时会遇到这样的 table 元素:

对这种 html 元素,我一般会直接把它转换成 list,结果如下:

table = [['label1', 'value1', 'label2', 'value2'],
         ['label3', 'value3'],
         ['label4', 'value4', 'label5', 'value5'],
         ...
         ]

为了方便索引,现在我需要把上面的数据转换成下面这个样子的 dict

{    'label1': 'value1',    'label2': 'value2',    'label3': 'value3',    'label4': 'value4',    'label5': 'value5'}

如果是平常,大概需要写循环了。不过如果用刚刚说到的几个函数的话,会变得异常简单

 # 1. 分组groups = flat_map(group_each_2, table)# 1.1 flat_map 返回的是迭代器,list 后内容如下:# [('label1', 'value1'),#  ('label2', 'value2'),#  ('label3', 'value3'),#  ('label4', 'value4'),#  ('label5', 'value5')]# 2. 转换成 dictkey_values = dict(groups)   # 得到的 key_values 与上面需要的 dict 别无二致。

相关模块

  1. 迭代器:itertools

  2. 高级数据结构:colletions

  3. 函数式:functools 常和 opreator 一起用

这几个模块都和可迭代对象(列表、集合等)有关,熟悉了应该可以大大改善 Python 使用姿势。

二、其他

1. 多 dict 的去重

假设我们有一个 dict 的列表,里面可能有内容一模一样的 dict,我们需要对它做去重。叉车公司哪家好
容易想到的方法就是使用 set,可是 set 中的元素必须是 hashable 的,而 dict 是 unhashable 的,因此不能直接放进 set 里。

>>> a = [{'a': 1}, {'a': 1}, {'b': 2}]>>> set(a)
Traceback (most recent call last):
  File "/usr/local/lib/python3.7/site-packages/IPython/core/interactiveshell.py", line 2961, in run_code
    exec(code_obj, self.user_global_ns, self.user_ns)
  File "<ipython-input-5-5b4c643a6feb>", line 1, in <module>
    set(a)TypeError: unhashable type: 'dict'

难道就必须手写递归了么?未必,我在 stackoverflow 看到这样一个小技巧

import jsondef unique_dicts(data_list: list):
    """unique a list of dict
        dict 是 unhashable 的,不能放入 set 中,所以先转换成 str
        
        unique_dicts([{'a': 1}, {'a': 1}, {'b': 2}])  ->  [{'a': 1}, {'b': 2}]
    """
    data_json_set = set(json.dumps(item) for item in data_list)    return [json.loads(item) for item in data_json_set]

2. str 的 startswith 和 endswith 两个函数的参数可以是元组

In[7]: a = "bb.gif"In[8]: b = 'a.jpg'In[9]: a.endswith(('.jpg', '.gif'))Out[9]: TrueIn[10]: b.startswith(('bb', 'a'))Out[10]: True

Python 中的一些小技巧的更多相关文章

  1. Python中的一些小技巧

    1.Boolean值可以当做一个数值 a = [5,6,7,8,9] print(a[True]) #prints 6 print(a[False]) #prints 5 2.两种方法实现 a = 1 ...

  2. python 中 for使用小技巧

    testDict = {i: i * i for i in xrange(10)} testSet = {i * 2 for i in xrange(10)} print(testSet) print ...

  3. 一些Python的惯用法和小技巧:Pythonic

    Pythonic其实是个模糊的含义,没有确定的解释.网上也没有过多关于Pythonic的说明,我个人的理解是更加Python,更符合Python的行为习惯.本文主要是说明一些Python的惯用法和小技 ...

  4. 关于Python ,requests的小技巧

    版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/xie_0723/article/details/52790786 关于 Python Request ...

  5. python - opencv 的一些小技巧备忘

    python - opencv 的一些小技巧备忘 使用python-opencv来处理图像时,可以像matlab一样,将一幅图像看成一个矩阵,进行矢量操作,以加快代码运行速度. 下面记录几个常用的操作 ...

  6. Python语言防坑小技巧

    Python语言防坑小技巧 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.赋值即定义  1>.运行以下代码会出现报错 #!/usr/bin/env python #_*_ ...

  7. python实用30个小技巧

    python实用30个小技巧 展开1.原地交换两个数字Python 提供了一个直观的在一行代码中赋值与交换(变量值)的方法,请参见下面的示例: In [1]: x,y = 10 ,20 In [2]: ...

  8. 填坑总结:python内存泄漏排查小技巧

    摘要:最近服务遇到了内存泄漏问题,运维同学紧急呼叫解决,于是在解决问题之余也系统记录了下内存泄漏问题的常见解决思路. 本文分享自华为云社区<python内存泄漏排查小技巧>,作者:luti ...

  9. ACM 做题过程中的一些小技巧。

    ACM做题过程中的一些小技巧. 1.一般用C语言节约空间,要用C++库函数或STL时才用C++; cout.cin和printf.scanf最好不要混用. 2.有时候int型不够用,可以用long l ...

随机推荐

  1. [转]地图投影的N种姿势

    此处直接给出原文链接: 1.地图投影的N种姿势 2.GIS理论(墨卡托投影.地理坐标系.地面分辨率.地图比例尺.Bing Maps Tile System)

  2. React实战一

    目录 1. 搭建环境 2. React知识点 1. 组件 1.1 定义一个组件 1.2 组合与拆分组件 1.3 组件传值 1.4 state 1.5 生命周期函数 1.6 无状态组件 1.7 List ...

  3. 关于Linux的交叉编译环境配置中的问题

    Linux的交叉编译arm-linux-gcc搭建时,安装结束却无法查看版本.输入以下命令查看Ubuntu的版本: uname -a 可以看到此Ubuntu为64位16.04.1版本,所以需要下载32 ...

  4. golang cgo 使用总结

    原文地址 CGO 提供了 golang 和 C 语言相互调用的机制.某些第三方库可能只有 C/C++ 的实现,完全用纯 golang 的实现可能工程浩大,这时候 CGO 就派上用场了.可以通 CGO ...

  5. Scala-列表操作

    package com.bigdata object ListO { def main(args: Array[String]): Unit = { println() } val list = Li ...

  6. SpringIDE的安装

    要安装SpringIDE,需要先知道当前eclipse的版本,打开Eclipse,Help -> About Eclipse 然后去 http://spring.io/tools/sts/all ...

  7. django学习笔记(2)

    Part 2: The admin site ====> Creating an admin user$ python manage.py createsuperuser   Username: ...

  8. novaclient开发中遇到的问题小结

    1. 使用官网实例代码,并不能新建client; from novaclient import client nova = client.Client(VERSION, USERNAME, PASSW ...

  9. 关于DP和背包

    听说过动态规划(DP)的同学应该都知道有背包问题的存在. 首先我们来了解一下动态规划 基本思想: 动态规划算法通常用于求解具有某种最优性质的问题. 在这类问题中, 可能会有很多可行解.每一个解都对应于 ...

  10. 03、 forms组件

    1.校验字段功能 1.reg页面准备 models from django.db import models class UserInfo(models.Model): useranme = mode ...