Python3多线程爬取meizitu的图片

python环境：python3

运行环境：win10和linux都可以，其他系统没测

1 安装依赖

pip install requests

pip install lxml

pip install feedparser

2 创建一个新文件夹

3 运行该脚本

python mzitu.py

源码如下：

# -*- coding: UTF-8 –*-

import feedparser

import requests

from lxml import etree

import threading

import random

import os

 

def get_url():

 

    rss_url = 'https://www.mzitu.com/feed/'

    feeds = feedparser.parse(rss_url)

 

    page_url = []

    for i in range(20):

        page_url.append(feeds.entries[i]['link'])

 

    return page_url

 

def download(dirname, imgurl):

 

    headers = {

    'referer':'https://www.mzitu.com/',

    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'

    }

 

    filename = imgurl.split('/')[-1]

 

    r = requests.get(imgurl, headers = headers, stream=True)

    if os.path.exists(dirname):

        with open(dirname + '/' + filename, 'wb') as f:

            for chunk in r.iter_content(chunk_size=32):

                f.write(chunk)

            print('下载:%s中' % filename)

    else:

        os.mkdir(dirname)

        with open(dirname + '/' + filename, 'wb') as f:

            for chunk in r.iter_content(chunk_size=32):

                f.write(chunk)

            print('下载:%s中' % filename)

 

def get_img(url):

 

    r = requests.get(url)

    page = etree.HTML(r.text)

    span = page.xpath('/html/body/div[2]/div[1]/div[4]/a[5]/span')

    hs = page.xpath('//h2[@class="main-title"]')

    for h in hs:

        title = h.text

    for a in span:

        pages = a.text

    try:

        for i in range(int(pages)+1):

            if i == 1:

                pass

            else:

                imgpage = url + '/' + str(i)

                r1 = requests.get(imgpage)

                page1 = etree.HTML(r1.text)

                x_href = page1.xpath('/html/body/div[2]/div[1]/div[3]/p/a/img')

                for href in x_href:

                    imgurl = href.get('src')

                    download(title, imgurl)

    except KeyboardInterrupt:

        pass

    except:

        pass

 

def main():

 

    urls = get_url()

    threads=[]

    for i in range(len(urls)):

        t = threading.Thread(target=get_img, args=(urls[0+i],))

        threads.append(t)

 

    for i in threads:

        i.start()

 

    for i in threads:

        i.join()

 

if __name__ == '__main__':

    main()

如果遇到问题，源码请到百度网盘下载；百度网盘提取码：7pv8

4 升级版（可下载所有组图）

源码如下：

# -*- coding: UTF-8 鈥?-

import feedparser

import requests

from lxml import etree

import threading

import random

import os

def get_url2():

        rss_url = 'https://www.mzitu.com/all/'

        r = requests.get(rss_url)

        page = etree.HTML(r.text)

        result =page.xpath('/html/body/div[2]/div[1]/div[2]/ul/li/p[2]/a')

        print('鏈?d缁勫浘'%len(result))

        page_url = []

        for x in result:

                page_url.append(x.get('href'))

                #print(x.get('href'))

        return page_url

def download(dirname, imgurl):

    headers = {

    'referer':'https://www.mzitu.com/',

    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'

    }

    filename = imgurl.split('/')[-1]

    r = requests.get(imgurl, headers = headers, stream=True)

    if os.path.exists(dirname):

        with open(dirname + '/' + filename, 'wb') as f:

            for chunk in r.iter_content(chunk_size=32):

                f.write(chunk)

            print('涓嬭浇:%s涓? % filename)

    else:

        os.mkdir(dirname)

        with open(dirname + '/' + filename, 'wb') as f:

            for chunk in r.iter_content(chunk_size=32):

                f.write(chunk)

            print('涓嬭浇:%s涓? % filename)

def get_img(url):

    r = requests.get(url)

    page = etree.HTML(r.text)

    span = page.xpath('/html/body/div[2]/div[1]/div[4]/a[5]/span')

    hs = page.xpath('//h2[@class="main-title"]')

    for h in hs:

        title = h.text

    for a in span:

        pages = a.text

    try:

        for i in range(int(pages)+1):

            if i == 1:

                pass

            else:

                imgpage = url + '/' + str(i)

                r1 = requests.get(imgpage)

                page1 = etree.HTML(r1.text)

                x_href = page1.xpath('/html/body/div[2]/div[1]/div[3]/p/a/img')

                for href in x_href:

                    imgurl = href.get('src')

                    download(title, imgurl)

    except KeyboardInterrupt:

        pass

    except:

        pass

def main():

    urls = get_url2()

    threads=[]

    for i in range(len(urls)):

        t = threading.Thread(target=get_img, args=(urls[0+i],))

        threads.append(t)

    for i in threads:

        i.start()

    for i in threads:

        i.join()

if __name__ == '__main__':

    main()

如果遇到问题，源码请到百度网盘下载；百度网盘提取码：nxoo

注意：经测试，4 升级版在运行时，会大量占用内存，内存小的电脑估计抗不住。。

Python3多线程爬取meizitu的图片的更多相关文章

Python3 多线程爬取梨视频
多线程爬取梨视频 from threading import Thread import requests import re # 访问链接 def access_page(url): respons ...
python3 urllib爬取wallhalla网站图片
点我去我的github上看源码简单使用静态方法爬取https://wallhalla.com/网站的图片参考: https://blog.csdn.net/cquptcmj/article/det ...
Python3 urllib 爬取花瓣网图片
点我去我的github上看源码 **花瓣网是动态的,所以要抓包分析,,但我真的累的不行,不想写教程了,我源码里有注释
python 爬虫入门----案例爬取上海租房图片
前言对于一个net开发这爬虫真真的以前没有写过.这段时间学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup. ...
Python3从零开始爬取今日头条的新闻【一、开发环境搭建】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python爬虫入门教程 14-100 All IT eBooks多线程爬取
All IT eBooks多线程爬取-写在前面对一个爬虫爱好者来说,或多或少都有这么一点点的收集癖 ~ 发现好的图片,发现好的书籍,发现各种能存放在电脑上的东西,都喜欢把它批量的爬取下来. 然后放着 ...
Python爬虫入门教程 13-100 斗图啦表情包多线程爬取
斗图啦表情包多线程爬取-写在前面今天在CSDN博客,发现好多人写爬虫都在爬取一个叫做斗图啦的网站,里面很多表情包,然后瞅了瞅,各种实现方式都有,今天我给你实现一个多线程版本的.关键技术点 aioht ...
Python3从零开始爬取今日头条的新闻【四、模拟点击切换tab标签获取内容】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3从零开始爬取今日头条的新闻【三、滚动到底自动加载】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...

随机推荐

JavaScript（6）—— 返回特征数字
案例要求根据业务情况,要把核心的东西变成一个模块便于复用,慢慢沉淀后,能够更快更高效地编程. 业务核心算法: /* 数字检测 @return 返回2,能被3和7整除返回1,能够被3整除返回0,不 ...
.NET中的简单的并行
https://www.cnblogs.com/hdwgxz/p/6129419.html https://www.cnblogs.com/hueychan/p/10575907.html
【VS开发】VC++ 获取系统时间、程序运行时间(精确到秒，毫秒)的五种方法
1.使用CTime类(获取系统当前时间,精确到秒) CString str; //获取系统时间 CTime tm; tm=CTime::GetCurrentTime();//获取系统日期 str=tm ...
PHP学习（6）——代码重用与函数编写的一些注意事项
一个新的项目是这样创建的:它将已有的可重新利用的组件进行组合,并将新的开发难度降低到最小. 代码重用的好处:降低成本.提升可靠性和一致性. 1.使用require()和include()函数使用一条 ...
JQ scrollTop 无效的场景
先要设置DOM为显示,然后在设置scrollTop,先后顺序不能调换.
java面试指导2019-9-16
说说List,Set,Map三者的区别? List(对付顺序的好帮手): List接口存储一组不唯一(可以有多个元素引用相同的对象),有序的对象 Set(注重独一无二的性质): 不允许重复的集合.不会 ...
选择排序的Python代码实现
对于a[0]~a[n]的数组, 默认a[i]最小,和后面的a[i+1]~a[n]进行比较,把最小的和a[i]交换位置,保证本次循环结束后a[i]是上一次未排序的数据中最小的写法1 a=[12,2,2 ...
浅析C语言中printf(),sprintf(),scanf(),sscanf()的用法和区别
printf语法: #include <stdio.h>int printf( const char *format, ... ); printf()函数根据format(格式)给出的格式 ...
ABC044 Digit Sum
题目链接我的思路略复杂,这里介绍一个比较简洁的做法. 对于 $b \le \sqrt{N}$,暴力枚举 $b$.对于 $b > \sqrt{N}$, 注意到在 $b$ 进制下 $N$ 至多有 ...
百度音乐接口api
百度音乐接口百度音乐全接口 http://tingapi.ting.baidu.com/v1/restserver/ting 请求方式:GET 参数处理:format=json&calb ...

Python3多线程爬取meizitu的图片

1 安装依赖

2 创建一个新文件夹

3 运行该脚本

4 升级版（可下载所有组图）

Python3多线程爬取meizitu的图片的更多相关文章

随机推荐

热门专题