Python学习笔记——数据结构和算法（二）

1、字典中一个键映射多个值

　　可以使用collections中的defaultdict来实现，defalultdict接受list或者set为参数

from collections import defaultdict

d = defaultdict(list)

d['a'].append(1)

d['a'].append(2)

d['b'].append(4)

>>> d
defaultdict(<type 'list'>, {'a': [1, 2], b: [4]})

2、字典排序

　　使用 collections 模块中的 OrderedDict 类，会保持元素的插入顺序。可以控制json编码后的程序

from collections import OrderedDict

d = OrderedDict()

d['foo'] = 1

d['bar'] = 2

d['spam'] = 3

d['grok'] = 4

# Outputs "foo 1", "bar 2", "spam 3", "grok 4"

>>> import json

>>> json.dumps(d)

'{"foo": 1, "bar": 2, "spam": 3, "grok": 4}'

　　注意，一个 OrderedDict 的大小是一个普通字典的两倍，因为它内部维护着另外一个链表。

3、字典的运算

　　d = {'a':1}，d.keys()、d.values(), d.items()在python 2中返回的是列表。在python3中，d.items()在返回的是一个个包含(键，值)对的元素视图对象，支持集合操作，d.keys()返回一个展现键集合的键视图对象，同样支持集合操作，d.values()返回值得视图对象，但是不支持集合操作。

　　如在python3中

# Find keys in common

a.keys() & b.keys() # { 'x', 'y' }

# Find keys in a that are not in b

a.keys() - b.keys() # { 'z' }

# Find (key,value) pairs in common

a.items() & b.items() # { ('y', 2) }

4、删除序列相同元素并保持顺序

　　如果序列上的值都是 hashable 类型，可以用下面的方式来实现：

def dedupe(items):

    seen = set()

    for item in items:

        if item not in seen:
            yield item
            seen.add(item)

　　如果序列的元素不是hashable的，则不能直接放进set中，我们可以通过传入一个转换成hashable的方法来处理序列中的元素。上面的实例改成下面的样子：

def dedupe(items, key=None):

    seen = set()

    for item in items:

        val = item if not key else key(item)

        if val not in item:

            yield item

            seen.add(val)

>>> a = [ {'x':1, 'y':2}, {'x':1, 'y':3}, {'x':1, 'y':2}, {'x':2, 'y':4}]

>>> dedupe(a, key=lambda d: (d['x'],d['y']))

#同样可以过来文件中重复行

with open(somefile,'r') as f:

for line in dedupe(f):

    ...

5、序列中出现次数最多的元素

　　可以使用循环和一个字典进行统计，也可以直接使用collections.Counter 类来完成。Counter底层也是用字典来实现的。

words = [

    'look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes',

    'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not', 'around', 'the',

    'eyes', "don't", 'look', 'around', 'the', 'eyes', 'look', 'into',

    'my', 'eyes', "you're", 'under'

]

from collections import Counter

word_counts = Counter(words)

# 出现频率最高的3个单词

top_three = word_counts.most_common(3)

>>>word_counts

Counter({'eyes': 8, 'the': 5, 'look': 4, 'into': 3, 'my': 3, 'around': 2, "you're": 1, "don't": 1, 'under': 1, 'not': 1})

morewords = ['why','are','you','not','looking','in','my','eyes']

#更新

word_counts.update(morewords)

#运算

a = Counter(words)

b = Counter(morewords)

a+b

a-b

6、通过字段将记录分组

　　itertools.groupby() 函数对于这样的数据分组操作非常实用。

rows = [

    {'address': '5412 N CLARK', 'date': '07/01/2012'},

    {'address': '5148 N CLARK', 'date': '07/04/2012'},

    {'address': '5800 E 58TH', 'date': '07/02/2012'},

    {'address': '2122 N CLARK', 'date': '07/03/2012'},

    {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},

    {'address': '1060 W ADDISON', 'date': '07/02/2012'},

    {'address': '4801 N BROADWAY', 'date': '07/01/2012'},

    {'address': '1039 W GRANVILLE', 'date': '07/04/2012'},

]

from operator import itemgetter

from itertools import groupby

# Sort by the desired field first

rows.sort(key=itemgetter('date')) # 等同于rows.sort(key=lambda item:item.get('date'))

# Iterate in groups

for date, items in groupby(rows, key=itemgetter('date')):

    print date

    for i in items:

        print i

　　注意，groupby() 仅仅检查连续的元素，所以序列必须先排序。

　　groupby() 函数扫描整个序列并且查找连续相同值(或者根据指定key函数返回值相同)的元素序列。在每次迭代的时候，它会返回一个值和一个迭代器对象，这个迭代器对象可以生成元素值全部等于上面那个值的组中所有对象。

　　如果想构造分组并允许随机访问，可以考虑使用defaultdict()。

7、过滤序列元素

　　通常使用列表推导式或者生成器表达式，可以过滤或者缩短序列，同时过滤的同时可以转换元素。

>>> mylist = [1, 4, -5, 10, -7, 2, 3, -1]

>>> [n * n for n in mylist if n > 0]

[1, 16, 100, 4, 9]

>>> [n if n > 0 else 0 for n in mylist]

[1, 4, 0, 10, 0, 2, 3, 0]

　　对于复杂的过滤，可以考虑filter函数，接受一个过滤函数作用域序列每个元素，仅返回序列中结果为True的值。

values = ['', '', '-3', '-', '', 'N/A', '']

def is_int(val):

    try:

        x = int(val)

        return True

    except ValueError:

        return False

ivals = list(filter(is_int, values))

print(ivals)

# Outputs ['1', '2', '-3', '4', '5']

8、从字典中提取子集

　　使用字典推导式可以快速实现需求

prices = {

    'ACME': 45.23,

    'AAPL': 612.78,

    'IBM': 205.55,

    'HPQ': 37.20,

    'FB': 10.75

}

# Make a dictionary of all prices over 200

p1 = {key: value for key, value in prices.items() if value > 200}

9、命名元组

　　collections.namedtuple()提供了可以通过名称访问元组中元素的方式，可以使代码易于阅读。

>>> from collections import namedtuple

>>> Subscriber = namedtuple('Subscriber', ['addr', 'joined'])

>>> sub = Subscriber('jonesy@example.com', '2012-10-19')

>>> sub

Subscriber(addr='jonesy@example.com', joined='2012-10-19')

>>> sub.addr

'jonesy@example.com'

>>> sub.joined

'2012-10-19'

Python学习笔记——数据结构和算法（二）的更多相关文章

Python学习笔记——数据结构和算法（一）
1.解压序列赋值给多个变量任何的序列(或者是可迭代对象)可以通过一个简单的赋值语句解压并赋值给多个变量. 唯一的前提就是变量的数量必须跟序列元素的数量是一样的. >>> data ...
学习JavaScript数据结构与算法 (二)
学习JavaScript数据结构与算法的笔记包含第四章队列, 第五章链表本人所有文章首发在博客园: http://www.cnblogs.com/zhangrunhao/ 04队列实现基本队列 ...
Python学习笔记之递归、二维数组顺时针旋转90°、正则表达式
递归.二维数组顺时针旋转90°.正则表达式 1. 递归算法是一种直接或间接调用自身算法的过程. 特点: 递归就是在过程或函数里调用自身明确的递归结束条件,即递归出口简洁,但是不提倡递归次数多 ...
python学习笔记11（函数二）：参数的传递、变量的作用域
一.函数形参和实参的区别形参全称是形式参数,在用def关键字定义函数时函数名后面括号里的变量称作为形式参数. 实参全称为实际参数,在调用函数时提供的值或者变量称作为实际参数. >>> ...
python学习笔记之数据类型（二）
上一篇博客,小波介绍了python的入门和简单流程控制,这次写python的数据类型和各种数据类型的内置方法. 一.数据类型是何方神圣? 计算机顾名思义就是可以做数学计算的机器,因此,计算机程序理所当 ...
python学习笔记（MD5算法）
博主最近进度停滞了对web开发理解欠缺好多内容今天整理下MD5算法,这个涉及到mysql数据库存储用户表密码字段的时候一般是带有加密的 # -*- coding: utf-8 -*- impor ...
Python学习笔记【第十二篇】：Python异常处理
什么是异常异常就是程序运行时发生错误的信号,在python中,错误触发的异常如下错误类型分为两种:语法错误和业务逻辑错. 异常的类型 AttributeError 试图访问一个对象没有的树形,比如 ...
python学习笔记——线程threading （二）重写run()方法和守护进程daemon()
1 run()方法 1.1 单个线程在threading.Thread()类中有run()方法. from time import ctime,sleep import threading # 定义 ...
Python学习笔记（三十二）常用内建模块（1）— datetime
>>> from datetime import datetime >>> now = datetime.now() # 获取当前datetime >> ...

随机推荐

NOI2013 矩阵游戏【数论】
题目描述婷婷是个喜欢矩阵的小朋友,有一天她想用电脑生成一个巨大的n行m列的矩阵(你不用担心她如何存储).她生成的这个矩阵满足一个神奇的性质:若用F[i][j]来表示矩阵中第i行第j列的元素,则F[i ...
电子商务(电销)平台中商品模块(Product)数据库设计明细
以下是自己在电子商务系统设计中的数据库设计经验总结,而今发表出来一起分享,如有不当,欢迎跟帖讨论~ 商品表 (product)|-- 自动编号 (product_id)|-- 商品名称 (produc ...
bzoj3748 Kwadraty
Claris 当然是要用来%的但是,,其他dalao,,比如JL的红太阳commonc.题解能不能稍微加几句话,蒟蒻看不懂啊. 在这里解释一下,Claris的题解.(因为我弱,想了半天才明白,所以觉 ...
【bzoj4036】按位或
Portal --> bzoj4036 Solution 感觉容斥的东西内容有点qwq多啊qwq还是以题目的形式来慢慢补档好了这里补的是min-max容斥其实min-max容斥 ...
dorado重置按钮事件
// @Bind #btnReset.onClick!function(self, arg) { var subNo = view.get("#dsQueryCriteria"). ...
《剑指offer》— JavaScript（2）替换空格
替换空格题目描述请实现一个函数,将一个字符串中的空格替换成"%20".例如,当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy. 实现 ...
JSP2 特性
JSP2 新特性 1.直接配置 JSP 属性 2.表达式语言 3.简化的自定义标签 API 4.Tag 文件语法如果要使用 JSP2 语法,web.xml 文件必须使用 Servlet2.4 以上版 ...
golang设置代理
http://note.youdao.com/noteshare?id=a8df0ec2d623f282a782dbe937bdae9f
11.UiAutomator 相关JAVA知识
一.封装方法与模块化用例 1.方法: 在JAVA中,方法就好比日常生活中的一个动作,由动作组合成一系列完整的操作. 方法结构: 方法修饰符方法返回值类型方法名 { 方法体 } 比如: public ...
wx.showToast 延时跳转~~~
//提交预约订单 wx.request({ url: 'http://www.pusonglin.cn/app/index.php?i=2&c=entry&do=api&op= ...

Python学习笔记——数据结构和算法（二）

Python学习笔记——数据结构和算法（二）的更多相关文章

随机推荐

热门专题