Python爬虫入门教程 13-100 斗图啦表情包多线程爬取

斗图啦表情包多线程爬取-写在前面

今天在CSDN博客，发现好多人写爬虫都在爬取一个叫做斗图啦的网站，里面很多表情包，然后瞅了瞅，各种实现方式都有，今天我给你实现一个多线程版本的。关键技术点 aiohttp ，你可以看一下我前面的文章，然后在学习一下。

网站就不分析了，无非就是找到规律，拼接URL，匹配关键点，然后爬取。

斗图啦表情包多线程爬取-撸代码

首先快速的导入我们需要的模块，和其他文章不同，我把相同的表情都放在了同一个文件夹下面，所以需要导入os模块

import asyncio

import aiohttp

from lxml import etree

import os

编写主要的入口方法

if __name__ == '__main__':

    url_format = "http://www.doutula.com/article/list/?page={}"

    urls = [url_format.format(index) for index in range(1,586)]

    loop = asyncio.get_event_loop()

    tasks = [x_get_face(url) for url in urls]

    results = loop.run_until_complete(asyncio.wait(tasks))

我们是为了学习，不是为了攻击别人服务器，所以限制一下并发数量

sema = asyncio.Semaphore(3)

async def x_get_face(url):

    with(await sema):

        await get_face(url)

最后，一顿操作猛如虎，把所有的代码补全，就搞定了，这部分没有什么特别新鲜的地方，找图片链接，然后下载。

headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"}

async def get_face(url):

    print("正在操作{}".format(url))

    async with aiohttp.ClientSession() as s:

        async with s.get(url,headers=headers,timeout=5) as res:

            if res.status==200:

                html = await res.text()

                html_format = etree.HTML(html)

                hrefs = html_format.xpath("//a[@class='list-group-item random_list']")

                for link in hrefs:

                    url = link.get("href")

                    title = link.xpath("div[@class='random_title']/text()")[0]  # 获取文件头部

                    path = './biaoqings/{}'.format(title.strip())  # 硬编码了，你要先在项目根目录创建一个biaoqings的文件夹

                    if not os.path.exists(path):

                        os.mkdir(path)

                    else:

                        pass

                    async with s.get(url, headers=headers, timeout=3) as res:

                        if res.status == 200:

                            new_html = await res.text()

                            new_html_format = etree.HTML(new_html)

                            imgs = new_html_format.xpath("//div[@class='artile_des']")

                            for img in imgs:

                                try:

                                    img = img.xpath("table//img")[0]

                                    img_down_url = img.get("src")

                                    img_title = img.get("alt")

                                except Exception as e:

                                    print(e)

                                async with s.get(img_down_url, timeout=3) as res:

                                    img_data = await res.read()

                                    try:

                                        with open("{}/{}.{}".format(path,img_title.replace('\r\n',""),img_down_url.split('.')[-1]),"wb+") as file:

                                            file.write(img_data)

                                    except Exception as e:

                                        print(e)

                        else:

                            pass

            else:

                print("网页访问失败")

等着，大量的表情包就来到了我的碗里。

爬虫源码下载地址

Python爬虫入门教程 13-100 斗图啦表情包多线程爬取的更多相关文章

Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider
1. 微医挂号网专家团队数据----写在前面今天尝试使用一个新的爬虫库进行数据的爬取,这个库叫做pyspider,国人开发的,当然支持一下. github地址: https://github.com ...
Python爬虫入门教程 32-100 B站博人传评论数据抓取 scrapy
1. B站博人传评论数据爬取简介今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...
requests入门实践02_下载斗图拉最新表情包
新版本移步:https://www.cnblogs.com/zy7y/p/13376228.html 下载斗图拉最新表情包要爬取的目标所在网址:http://www.doutula.com/phot ...
Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分
1. Python爬虫入门教程爬取背景 2019年1月10日深夜,打开了百思不得姐APP,想了一下是否可以爬呢?不自觉的安装到了夜神模拟器里面.这个APP还是比较有名和有意思的. 下面是百思不得姐的 ...
Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分
1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应 ...
Python爬虫入门教程 10-100 图虫网多线程爬取
图虫网-写在前面经历了一顿噼里啪啦的操作之后,终于我把博客写到了第10篇,后面,慢慢的会涉及到更多的爬虫模块,有人问scrapy 啥时候开始用,这个我预计要在30篇以后了吧,后面的套路依旧慢节奏的, ...
Python爬虫入门教程 37-100 云沃客项目外包网数据爬虫 scrapy
爬前叨叨 2019年开始了,今年计划写一整年的博客呢~,第一篇博客写一下一个外包网站的爬虫,万一你从这个外包网站弄点外快呢,呵呵哒数据分析官方网址为 https://www.clouderwor ...
Python爬虫入门教程 36-100 酷安网全站应用爬虫 scrapy
爬前叨叨 2018年就要结束了,还有4天,就要开始写2019年的教程了,没啥感动的,一年就这么过去了,今天要爬取一个网站叫做酷安,是一个应用商店,大家可以尝试从手机APP爬取,不过爬取APP的博客,我 ...
Python爬虫入门教程 19-100 51CTO学院IT技术课程抓取
写在前面从今天开始的几篇文章,我将就国内目前比较主流的一些在线学习平台数据进行抓取,如果时间充足的情况下,会对他们进行一些简单的分析,好了,平台大概有51CTO学院,CSDN学院,网易云课堂,慕课网 ...

随机推荐

SQL注入绕WAF总结
0x00 前言在服务器客户端领域,曾经出现过一款360主机卫士,目前已停止更新和维护,官网都打不开了,但服务器中依然经常可以看到它的身影.从半年前的测试虚拟机里面,翻出了360主机卫士Apache版 ...
通过zabbix的API接口获取服务器列表
Zabbix API说明 1) 基于Web的API,作为Web前端的一部分提供,使用JSON-RPC 2.0协议 2) 身份认证Token:在访问Zabbix中的任何数据之前,需要登录并获取身份验证令 ...
linux系统，关于Python多版本共存
http://www.cnblogs.com/Yiutto/p/5962906.html 给个地址直接看八~
封装PDO函数
funPDO.php <?php /** * @title: 封装PDO函数 * * @Features: * 1. 封装 SELECT ,INSERT,DELETE,UPDATE 操作 @do ...
SDN网络虚拟化中有效协调的映射算法
来自论文An efficient and coordinated mapping algorithm in virtualized SDN networks,来自期刊<信息与电子工程前沿> ...
Vue 随机分配的打扫卫生H5 ：打扫让我快乐
情况是这样子的,每周四是我们小组打扫卫生,一共有四件活,7个人分配. 活分别是 : 扫地拖地倒垃圾擦桌子人分别是: '军', '春', '龙', '东', '贤', '磊','卿' 但是,每次 ...
shell基础及变量
一 Shell概述 1.Shell的作用——命令解释器,“翻译官” shell作为一个人机接口,用于解释用户输入的命令,将命令解释为Linux内核可以执行的2进制代码,并将执行的结果返回在标准终端上. ...
使用Bandwagon服务器ftp解决git clone速度慢的问题
写在前面 git clone速度往往很慢,我们可以先在身处美国的服务器上git clone,然后把文件用ftp传回来即可. 开始我们以opencv为例 git clone https://githu ...
在ASP.NET Core中使用brotli压缩
Brotli是一种全新的数据格式,可以提供比Zopfli高20-26%的压缩比.据谷歌研究,Brotli压缩速度同zlib的Deflate实现大致相同,而在Canterbury语料库上的压缩密度比LZ ...
用Java实现给图片添加文字
package image; import java.awt.Color; import java.awt.Font; import java.awt.Graphics2D; import java. ...

Python爬虫入门教程 13-100 斗图啦表情包多线程爬取

斗图啦表情包多线程爬取-写在前面

斗图啦表情包多线程爬取-撸代码

Python爬虫入门教程 13-100 斗图啦表情包多线程爬取的更多相关文章

随机推荐

热门专题