python 网页爬虫+保存图片+多线程+网络代理

今天，又算是浪费了一天了。python爬虫，之前写过简单的版本，那个时候还不懂原理，现在算是收尾吧。

以前对网页爬虫不了解，感觉非常神奇，但是解开这面面纱，似乎里面的原理并不是很难掌握。首先，明白一个概念，HTTP协议，为什么叫超文本协议。超文本的概念，是所有的数据几乎都使用文本模式传输，包括文字，图像等，然后在一个网页中，需要做的是解析这些字符数据，并还原成原始的文件。

爬虫的概念，是以一个网页作为起点，从中发现更多的链接和数据信息，并依此以树形展开，可以想象成为一颗树，对每一个网页，需要按照需求对数据进行筛选(找图片，呢还是找关键字，或者找音频等)，最后，根据筛选出的URL，对数据进行下载。大致步骤为：

网页==》网页树==》筛选信息==》下载

笔者这里就以网页图片作为例子：

比如，一张网页里，可能有很多张图片，首先最基本的是对这一张网页中所有的图片链接要能够识别出来，这里一般的方法是对网页文本根据正规式进行匹配，从而搜集包含图片的链接。eg：reg = r"""src\s*="?(\S+)\.jpg"""。其次，对于这些链接进行文件。看起来很抽象的东西，这两步就能实现。接着，网页树就有点难，需要从网页中找到有用的网页链接，然后对这些连接又一次进行筛选，有点像递归。这里的难点很多，比如，当网页链接数量非常多的时候，如何有效筛选有效连接，如何控制搜索深度，如何分配进程等等。

另外，由于目前很多国外的网站是上不去的，所以，有些网页数据下载需要通过代理；另外，考虑到有些机器性能较好，也实现了多线程的机制。笔者进行了一天的调研，终于调试通过。以下是代码：

import re

import os

import sys

import time

import threading

import socket

import urllib

import urllib2

server = '127.0.0.1'

port = '8087'

timeout = 720

socket.setdefaulttimeout(timeout)

class timer(threading.Thread): #The timer class is derived from the class threading.Thread

	def __init__(self, num, interval,dir,url):

		threading.Thread.__init__(self)

		self.thread_num = num

		self.interval = interval

		self.url = url

		self.dir = dir

		self.thread_stop = False

	def run(self): #Overwrite run() method, put what you want the thread do here

		#while not self.thread_stop:

			DownloadImgs(self.interval,self.url,self.dir)

		#print 'Thread Object(%d), Time:%s' %(self.thread_num, time.ctime())

		#time.sleep(self.interval)

	def stop(self):

		self.thread_stop = True 

def getContent(url,type):

	print(">>start connecting:%s" % url)

	from urllib2 import Request, urlopen, URLError, HTTPError

	proxy = urllib2.ProxyHandler({'http':'http://127.0.0.1:8087'})

	opener = urllib2.build_opener(proxy,urllib2.HTTPHandler)

	urllib2.install_opener(opener)

	try:

		urlHandler = urllib2.urlopen(url)

		headers = urlHandler.info().headers

		length = 0

		for header in headers:

			if header.find('Length') != -1:

				length = header.split(':')[-1].strip()

				length = int(length)

		if(type=="img" and length<15000):

			print(" >>>>>>>>%d" % length)

			dataStr = 'EOF'

		else:

			print(" ++++++++%d" % length)

			dataStr = urlHandler.read()

	except HTTPError, e:

		print 'The server couldn\'t fulfill the request.'

		print 'Error code: ', e.code

	except URLError, e:

		print 'We failed to reach a server.'

		print 'Reason: ', e.reason

	else:

#	print("%s" % dataStr)

#	f = open("text.txt",'wb')

#	f.write(dataStr)

#	f.close()

		return dataStr

def DownloadImgs(interval,url,dir):

	dataStr = getContent(url,"html")

	print("...:%s" % url)

	if(os.path.isdir(dir) == False):

		os.mkdir(dir);

	reg = r"""src\s*="?(\S+)\.jpg"""

	imgre = re.compile(reg)

	imglist = imgre.findall(dataStr)

	x = 0

	for imgurl in imglist:

		imgurl =''.join('%s.jpg' % imgurl)

		if(imgurl.find('http:')>=0):

			print ("\tdownloading: %s,%s" % (x,imgurl))

			imgdata=getContent(imgurl,"img")

			if(imgdata != 'EOF'):

				outputFile = '%s/%s.jpg' % (dir,x)

				f = open(outputFile,'wb')

				f.write(imgdata)

				f.close()

				x = x + 1

		else:

			print ("\tcannot connect: %s" % imgurl)

		time.sleep(interval)

url_="http://tieba.baidu.com/p/";

id=2460150866;

n=1;

thread=[]

for i in range(0, n):

	url=''.join('%s%d' % (url_,id + i))

	dir=''.join('PIC%d' % (id+i) )

	print("######dir = %s, id = %d" % (dir,id+i))

	thread.append(timer(1, 1,dir,url))

for i in range(0, n):

	thread[i].start()

#for i in range(0, n):

#	url=''.join('%s%d' % (url_,id + i))

#	dir=''.join('PIC%d' % i)

#	print("######dir = %s, id = %d" % (dir,id))

#	DownloadImgs(0.1,url,dir)

python 网页爬虫+保存图片+多线程+网络代理的更多相关文章

Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱（转）
原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开 ...
【Python】Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
本文转载自:https://www.cnblogs.com/colipso/p/4284510.html 好文 mark http://www.52nlp.cn/python-%E7%BD%91%E9 ...
Python网页爬虫（一）
很多时候我们想要获得网站的数据,但是网站并没有提供相应的API调用,这时候应该怎么办呢?还有的时候我们需要模拟人的一些行为,例如点击网页上的按钮等,又有什么好的解决方法吗?这些正是python和网页爬 ...
python网页爬虫开发之七-多线程爬虫示例01
from urllib.request import quote import urllib.request from bs4 import BeautifulSoup import re impor ...
python网页爬虫开发之二
1.网站robots robotparser模块首先加载robots.txt文件,然后通过can_fetch()函数确定指定的用户代理是否允许访问网页. 2.识别网站技术 3.下载网页使用urlli ...
python网页爬虫
1. 静态页面爬取这类最简单啦,右键->查看页面源码时,想下载的信息都能够显示在这里,这时只需要直接down页面源码,代码如下: # Simple open web import urllib ...
python网页爬虫小项目开发
这是我最近接的一个小项目,花了是整整四天多时间. 任务是将http://www.examcoo.com/index/detail/mid/7网站下所有的试卷里的试题全部提取出来,首先按照题型进行分类, ...
使用Python SocketServer快速实现多线程网络服务器
Python SocketServer使用介绍 1.简介: SocketServer是python的一个网络服务器框架,可以减少开发人员编写网络服务器程序的工作量. SocketServer总共有4个 ...
python网页爬虫开发之三
1.抓取目录页后用lxml进行页面解析,获取抓取列表 python3.6 urlparse模块变为urllib.parse 2.Python中有一个专门生成各类假数据的库:Faker 3.python ...

随机推荐

杭电oj1236 排名
Tips:此题比较简单,最好将每一个学生的信息构建一个结构体,另外需要注意的是,若分数相同,排序按姓名排序,我看网上很多都是使用<algorithm>中的sort算法,只需重写cmp函数即 ...
Java导出excel并下载功能
我们使用的导出并下载功能是利用一个插件叫POI的插件提供的导出功能,很实用:首先先导入Jar包: Jar包下载地址:http://poi.apache.org/ 官方文档地址:http://poi ...
网易云课堂_C++程序设计入门(上)_第5单元：万类霜天竞自由 – 对象和类的更多内容_第5单元作业【4】 - 在线编程（难度：难）
第5单元作业[4] - 在线编程(难度:难) 查看帮助 返回温馨提示: 1.本次作业属于Online Judge题目,提交后由系统即时判分. 2.学生可以在作业截止时间之前不限次数提交答案,系 ...
python Debug 单步调试
一直犯愁的是python的调试,曾经写c都是编译完了用gdb直接调试了,轻松愉快.如今遇到这么一个解释型的程序.不知道怎么办了.用log吧,有时就是一个小程序,不想写这么多代码.打屏吧.有时屏幕翻得快 ...
Malloc碎碎念
(以前为给同学分享写的点东西,很基础.)现在的比赛中堆溢出非常常见,对于glibc下malloc的理解也要深入一些. malloc_chunk的对齐属性在glibc中,malloc_chunk以 2 ...
js方法在对象中的状态
在C#中,只有对象的字段存储在堆中,而方法则存储在一个方法表中.当实例化多个对象时,为字段分配了内存空间,而方法都指向一个方法表中的同一个方法. 如而在JS中,字段和方法都属于值类型,都存储在堆中. ...
mongodb简单初级操作
学习之余记录,仅供参考 mongodb启动: mongodb安装在D:\mongodb 目录下,启动时在该目录bin文件夹下打开命令行窗口在启动数据库时,将datapath参数指向db目录输入 ...
EditText默认不显示光标，不可编辑，点击它，进入编辑状态，光标显示
设置EditText不可编辑,光标不可见: et.setCursorVisible(false); 设置EditText可编辑,光标可见: et.setOnClickListener(new OnCl ...
Android开发学习笔记——HelloWorld
Day01 1.java开发过程———————————————不建议先用ECLIPSE写代码,因为它的函数式自动生成的,不利于找寻编程手感打开记事本写完程序后,修改扩展名为.java然后在DOS控制台 ...
JavaScript Dispatch Event
<html> <head> <script type="text/javascript"> function performClick(elem ...

python 网页爬虫+保存图片+多线程+网络代理

python 网页爬虫+保存图片+多线程+网络代理的更多相关文章

随机推荐

热门专题