实际上是这样,将获取到网页中表单内容与汉字字符串作比较,即: a = request.POST['a'] if a == '博客园': print 'ok' else: print 'false' a是表单内容,假设为"博客园",内容输出理论上为ok,但为false,这是为什么了,带着疑问,百度了一下,发现是python编码的问题,代码改成这样就解决了: a = request.POST['a'] if a == u'博客园': print 'ok' else: print 'fals
# -*- coding: utf-8 -*- import urllib2 import re import time import jieba url="http://www.baidu.com" html=urllib2.urlopen(url).read() html=unicode(html,'utf-8') word=re.findall(ur"[\u4e00-\u9fa5]+",html) s="" for w in word: s
re为正则表达式模组 re.findall在字符串中查找所有匹配的模式,返回一个list urllib2提供了使用简单的url工具 urllib2.urlopen发送url请求,返回一个文件流 import urllib2 import re req=urllib2.urlopen(r'http://www.imooc.com/course/list') buf=req.read() urls=re.findall(r'src="http.+?\.jpg',buf) i=0 for url in