python 豆瓣图片的爬取

豆瓣图片的抓取：在python中实现生产者和消费者模型的实现，大家可以参考这篇文章 http://www.bkjia.com/Pythonjc/978391.html

个人认为是讲的比较易懂的，只要看看仿写几个例子，感觉这一块就差不多了。下面的代码并没有抓取豆瓣相册的全部，这是找了一个推荐较多的抓取来玩玩，也只抓取前面20页，每页有30张图片，所以可以根据这个去跟新url。维护了一个list来保存图片的url，一个消费者函数来下载图片，一个生产者函数来取图片的url , 下面看代码：

# _*_coding:utf-8_*_

import urllib2

import cookielib

from bs4 import BeautifulSoup

import re

import time

import threading

start = start_time = time.ctime()

s = []

max_length = 30

condition = threading.Condition()

class Producer(threading.Thread):

    def run(self):

        for i in xrange(20):

            condition.acquire()

            if len(s) == max_length:

                print 's is full'

                condition.wait()

            request_url = 'https://site.douban.com/widget/public_album/86320/?start=%s' % (i*30) #推荐相册的url

            headers = {

                    'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36',

                }

            opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookielib.CookieJar()))

            response = urllib2.Request(request_url, headers=headers)

            html = opener.open(response)

            soup = BeautifulSoup(html)

            img_urls = soup.find_all('a', {'class': 'album_photo'})

            for item in img_urls:

                p = re.compile(r'src="(.*?)"')

                img_url = p.search(str(item.find('img'))).group(1)  #图片的url

                s.append(img_url)

                print 'producer somthing'

            condition.notify()

class Consumer(threading.Thread):

    def run(self):

        count = 0

        while True:

            if condition.acquire():

                if not s:

                    print 's is empty wait'

                    condition.wait()

                img_url = s.pop(0)

                print 'consumer something'

                with open('E:\\douban\\%s.jpg' %count, 'wb') as fp:

                    try:

                        response_img = urllib2.urlopen(img_url).read() #下载图片

                        fp.write(response_img)

                    except Exception:

                        print 'error'

                count += 1

                condition.notify()

                condition.release()

t1 = Producer()

c1 = Consumer()

t1.start()

c1.start()

嗯，差不多就这样，大家还可以多开几个线程，使得下载速度更快点，毕竟如果抓取大量的图片的话，io操作会比较耗时。

这是图片的部分截图：

python 豆瓣图片的爬取的更多相关文章

Python 爬虫-图片的爬取
2017-07-25 22:49:21 import requests import os url = 'https://wallpapers.wallhaven.cc/wallpapers/full ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax: ...
豆瓣电影信息爬取(json)
豆瓣电影信息爬取(json) # a = "hello world" # 字符串数据类型# b = {"name":"python"} # ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python 爬虫入门之爬取妹子图
Python 爬虫入门之爬取妹子图来源:李英杰链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...
Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...

随机推荐

DataFrame的构建及一些操作
一.DataFrame构建 1.用多个列表构建 #构建DataFrame #self._stkpool_uni.codes.end_date(这些list用append填充值,保证各个list中元素个 ...
-webkit-tap-highlight-color处理元素点击默认高亮
-webkit-tap-highlight-color:transparent; 或者 -webkit-tap-highlight-color: rgba(0, 0, 0, 0);
Android学习笔记（一）Git相关配置及使用
一.配置打开Git Bash, git config --global user.name "username" git config --global user.email & ...
C#动态创建两个按钮，btn2复制btn1的Click事件，匿名委托
现在有一个按钮btn1,要动态创建出一个btn2,需要btn2点击时调用btn1的点击. 在delphi中这种操作很简单:btn2.onClick:=btn1.onClick,因为onClick就是个 ...
linux中如何查看某一进程的启动时间
mark下: ps -p PID -o lstart 其中PID是进程的pid ps的参数好多啊,够摸索一下了
ie7,IE8不支持document.getElmentsByClassName的问题
if (!document.getElementsByClassName) { document.getElementsByClassName = function(className, elemen ...
java 异常的捕获及处理
在没有异常处理的程序中如果要回避异常,需要使用大量的判断语句,配合所想到的错误状况来捕捉程序中可能发生的错误.但是这样势必会导致程序运行效率降低.java异常处理机制具有易于使用,可自定义异常类,处理 ...
使用Jax-rs 开发RESTfull API 入门
使用Jax-rs 开发RESTfull API 入门本文使用 Jersey 2开发RESTfull API.Jersey 2 是 JAX-RS 接口的参考实现使用到的工具 Eclipse Neon ...
Redis 数据序列化方法 serialize, msgpack, json, hprose 比较
最近弄 Redis ,涉及数据序列化存储的问题,对比了:JSON, Serialize, Msgpack, Hprose 四种方式 1. 对序列化后的字符串长度对比: 测试代码: $arr = [0, ...
JavaScript基础（更新第二波）
下面接着说JavaScript打开新的窗口. open()方法可以查找一个已经存在或者新建的浏览器窗口. 语法: window.open([URL]),[窗口名称],[参数字符串] 参数说明: URL ...

python 豆瓣图片的爬取

python 豆瓣图片的爬取的更多相关文章

随机推荐

热门专题