re为正则表达式模组 re.findall在字符串中查找所有匹配的模式,返回一个list urllib2提供了使用简单的url工具 urllib2.urlopen发送url请求,返回一个文件流 import urllib2 import re req=urllib2.urlopen(r'http://www.imooc.com/course/list') buf=req.read() urls=re.findall(r'src="http.+?\.jpg',buf) i=0 for url in…
一 概述 参考http://www.cnblogs.com/abelsu/p/4540711.html 弄了个Python捉取单一网页的图片,但是Python已经升到3+版本了.参考的已经失效,基本用不上.修改了下,重新实现网页图片捉取. 二 代码 #coding=utf-8 #urllib模块提供了读取Web页面数据的接口 import urllib #re模块主要包含了正则表达式 import re import urllib.parse import urllib.request #定义一…
Python用做数据处理还是相当不错的,如果你想要做爬虫,Python是很好的选择,它有很多已经写好的类包,只要调用,即可完成很多复杂的功能,此文中所有的功能都是基于BeautifulSoup这个包. 1 Pyhton获取网页的内容(也就是源代码) page = urllib2.urlopen(url) contents = page.read() #获得了整个网页的内容也就是源代码 print(contents) url代表网址,contents代表网址所对应的源代码,urllib2是需要用到…
Python爬虫基础 1.获取网页文本 通过urllib2包,根据url获取网页的html文本内容并返回 #coding:utf-8 import requests, json, time, re, os, sys, time import urllib2 #设置为utf-8模式 reload(sys) sys.setdefaultencoding( "utf-8" ) def getHtml(url): response = urllib2.urlopen(url) html = r…
在requests获取网页的编码格式时,有两种方式,而结果也不同,通常用apparent_encoding更合适 注:推荐一个大佬写的关于获取网页编码格式以及requests中text()和content()的区别,以及转码的一些问题 http://xiaorui.cc/2016/02/19/代码分析python-requests库中文编码问题/…
获取网页html代码: import requests res = requests.get('https://www.cnblogs.com/easyidea/p/10214559.html') res.encoding = 'utf-8' print(res.text) 如果不能正常获取说明你还没有安装 requests库,安装requests方法很简单,Windows电脑打开cmd 输入 pip install requests 回车即可,Macos(苹果电脑)打开终端输入 pip ins…
#!/usr/bin/pythonimport reimport urllib def getHtml(url):    page=urllib.urlopen(url)    html=page.read()    #print html    return html def getImg(html):    reg =r'(/.*?(jpg|gif|png|bmp))'    imgre=re.compile(reg)    imglist=re.findall(imgre,html)   …
实际上是这样,将获取到网页中表单内容与汉字字符串作比较,即: a = request.POST['a'] if a == '博客园': print 'ok' else: print 'false' a是表单内容,假设为"博客园",内容输出理论上为ok,但为false,这是为什么了,带着疑问,百度了一下,发现是python编码的问题,代码改成这样就解决了: a = request.POST['a'] if a == u'博客园': print 'ok' else: print 'fals…
最近一直在看KDD的论文,不过,由于老师并没有什么合理的方向性,所以考虑把kdd中的大部分内容都利用python将所有标题.摘要获取下来. 还有一个原因在于,看acm上的摘要,都只显示了两行,再看多点儿,就需要点击expand,觉得非常不爽,所以就用python脚本把html标签删掉.. 想到的方法自然是通过python利用正则表达式对ACM的KDD网页进行字符串匹配,获得相应的网页字符串,然后将所有html的标签删除(例如<div></div>等), 将这些标签删除之后,就能够得…
import java.io.File;import java.io.FileOutputStream;import java.io.InputStream;import java.net.URL;import java.net.URLConnection;import java.util.ArrayList;import java.util.List;import java.util.regex.Matcher;import java.util.regex.Pattern;/*** * jav…