用过spark,对wordcount这个演示程序记忆犹新,于是想试着实现一个简单的wordcount.又因为在学习函数式编程,希望可以把数据看成一个整体,在现有的函数上进行操作.于是就有了这一行代码. 这行代码包括对单词的粗略处理,包括全部转化为小写,去除标点符号等.接下来用filter去掉了空行,最后使用Counter进行计数,实在是很方便快捷啊. import re from collections import Counter input = """As we know…
首先脚本文件: mapper.py: #!/usr/bin/env python import sys for line in sys.stdin: line = line.strip() words = line.split() for word in words: print(word,1) reducer.py: #!/usr/bin/env python from operator import itemgetter import sys current_word = None wo…
我知道你能做到: try: # do something that may fail except: # do this if ANYTHING goes wrong 你也可以这样做: try: # do something that may fail e…
一行搞定-统计一句话中每个单词出现的个数 >>> s'i am a boy a bood boy a bad boy' 方式一:>>> dict([(i,s.split().count(i)) for i in s.split()]){'a': 3, 'boy': 3, 'i': 1, 'am': 1, 'bad': 1, 'bood': 1} >>> set([(i,s.split().count(i)) for i in s.split()])se…
整理了网络上的一些方法,一般有两种方法:第一种:是先把文件读入内存,在内存中修改后再写入源文件. 例子:将内容包含“123”的所有行删去: with open('C:/Users/lai/Desktop/1.txt','r') as r: lines=r.readlines()with open('C:/Users/lai/Desktop/1.txt','w') as w: for l in lines: if '123' not in l: w.write(l) 第二种:我们可以使用 open…
Python实现MapReduce 下面使用mapreduce模式实现了一个简单的统计日志中单词出现次数的程序: from functools import reduce from multiprocessing import Pool from collections import Counter def read_inputs(file): for line in file: line = line.strip() yield line.split() def count(file_name…
python 运行后出现core dump产生core.**文件,可通过gdb来调试 Using GDB with a core dump having found build/python/core., we can now launch GDB: gdb programname coredump i.e. gdb /usr/bin/python2 build/python/core. A lot of information might scroll by. At the end, you'…
Simple Usage如果你已经安装了Selenium Python,你可以通过Python这样使用: #coding=gbk ''' Created on 2014年5月6日 @author: user ''' from selenium import webdriver from selenium.webdriver.common.keys import Keys driver = webdriver.Firefox() driver.get("http://www.python.org&…
人生苦短,我玩蛇0.0! Python(英语发音:/ˈpaɪθən/), 是一种面向对象.解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年,Python 源代码同样遵循 GPL(GNU General Public License)协议.Python语法简洁而清晰,具有丰富和强大的类库.它常被昵称为胶水语言,能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起.常见的一种应用情形是,使用Python快速生成程序的原型…