python3爬虫-通过requests爬取图虫网

import requests

from fake_useragent import UserAgent

from requests.exceptions import Timeout

from urllib.parse import quote, unquote

import re, json, os, hashlib

from lxml import etree

import time

from multiprocessing import Process, Queue, Pool     # 之前想使用多进程，通过队列处理图片下载。没有实现

userAgent = UserAgent()

headers = {

    "User-Agent": userAgent.random,

    "Host": "tuchong.com",

    "Referer": "https://tuchong.com/explore/"

}

baseUrl = "https://tuchong.com/rest/tag-categories/"

baseTagUrl = "https://tuchong.com/rest/tags/"

tagReferer = "https://tuchong.com/tags/"

timeout = 5

s = requests.Session()

dic = {

    "subject": [],

    "style": [],

    "equipment": [],

    "location": [],

}

categoriesDict = {

    "subject": "题材",

    "style": "风格",

    "equipment": "器材",

    "location": "地区",

}

def getCategoryPage(url, category, page=1):

    try:

        url = url + category

        params = {

            "page": page,

            "count": 20

        }

        response = s.get(url=url, headers=headers, timeout=timeout, params=params)

        if response.status_code == 200:

            response.category = category

            return response

    except Timeout as e:

        print(e)

        return None

def getTagNameUrl(response):

    if not response:

        return None

    data_dict = response.json()

    tag_list = data_dict.get("data").get("tag_list")

    tag_name_list = [tag.get("tag_name") for tag in tag_list]

    return tag_name_list

def getNextPageUrl(response):

    if not response:

        return []

    data_dict = response.json()

    pages = int(data_dict.get("data").get("pages"))

    for page in range(2, pages + 1):

        yield page

def getAllTag():

    global dic

    s.get(url="https://tuchong.com/explore/", headers=headers, timeout=timeout)

    for category in categoriesDict.keys():

        print("获取 -{}- 第 <{}> 页tagName信息.........".format(categoriesDict.get(category), 1))

        response = getCategoryPage(url=baseUrl, category=category)

        tag_name_list = getTagNameUrl(response) or []

        dic.get(category).extend(tag_name_list)

        time.sleep(1)

        for page in getNextPageUrl(response):

            print("获取 -{}- 第 <{}> 页tagName信息.........".format(categoriesDict.get(category), page))

            response = getCategoryPage(url=baseUrl, category=category, page=page)

            tag_name_list = getTagNameUrl(response) or []

            dic.get(category).extend(tag_name_list)

            time.sleep(1)

def getTagPage(url, tag, page):

    tag = quote(tag)

    url = url + tag + "/posts"

    params = {

        "page": page,

        "count": 20,

        "order": "weekly"

    }

    headers["Referer"] = tagReferer + tag + "/"

    try:

        response = requests.get(url=url, params=params, headers=headers, timeout=timeout)

        if response.status_code == 200:

            return response

    except Timeout as e:

        print(e)

        return None

def getImagesInfo(response):

    print('---')

    if not response:

        return None

    result = response.json().get("result")

    if result == "INVALID":

        print("数据取完了")

        return None

    postList = response.json().get("postList")

    imageUrlList = [dic.get("url") for dic in postList]

    titleList = [dic.get("title").strip() for dic in postList]

    for img_url_title in zip(titleList, imageUrlList):

        img_url_title = list(img_url_title)

        yield img_url_title

def get_md5(img_url):

    m = hashlib.md5()

    m.update(bytes(img_url, encoding="utf-8"))

    return m.hexdigest()

def download(imgsUrl):

    if imgsUrl:

        for img_url in imgsUrl:

            response = requests.get(url=img_url)

            name = get_md5(img_url)

            print("正在下载{}...".format(img_url))

            with open(os.path.join(BASE_PATH, name) + ".jpg", "wb") as f:

                f.write(response.content)

def gogo(tagname):

    page = 1

    while True:

        response = getTagPage(url=baseTagUrl, tag=tagname, page=page)

        print("开始爬取 {} 第 {} 页...".format(tagname, page))

        info = getImagesInfo(response) or []

        if not response:

            return

        for info_tuple in info:

            imgsUrl = putImageUrl(info_tuple)

            download(imgsUrl)

        page += 1

        time.sleep(5)

def putImageUrl(img_url_title_list):

    if img_url_title_list:

        img_url = img_url_title_list[1]

        try:

            response = s.get(url=img_url, headers=headers, timeout=timeout)

            html = etree.HTML(response.text)

            imgsUrl = html.xpath("//article[@class='post-content']/img/@src")

            return imgsUrl

        except requests.exceptions.ConnectionError as e:

            print(e)

            return None

def downloadImage():

    for key in dic:

        tagname_list = dic.get(key)

        for tagname in tagname_list:

            gogo(tagname)

def run():

    getAllTag()

    print("所有tag信息获取完毕.........")

    print("开始获取每个tag的内容.........")

    downloadImage()

if __name__ == '__main__':

    BASE_PATH = r"D:\tuchong"

    run()

python3爬虫-通过requests爬取图虫网的更多相关文章

爬取图虫网示例网址 https://wangxu.tuchong.com/23892889/
#coding=gbk import requests from fake_useragent import UserAgent from lxml import etree import urlli ...
python3爬虫-使用requests爬取起点小说
import requests from lxml import etree from urllib import parse import os, time def get_page_html(ur ...
python3爬虫-通过requests爬取西刺代理
import requests from fake_useragent import UserAgent from lxml import etree from urllib.parse import ...
Python3爬虫使用requests爬取lol英雄皮肤
本人博客:https://xiaoxiablogs.top 此次爬取lol英雄皮肤一共有两个版本,分别是多线程版本和非多线程版本. 多线程版本 # !/usr/bin/env python # -*- ...
爬虫 Scrapy框架爬取图虫图片并下载
items.py,根据需求确定自己的数据要求 # -*- coding: utf-8 -*- # Define here the models for your scraped items # # S ...
Python爬虫训练：爬取酷燃网视频数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理项目目标爬取酷燃网视频数据 https://krcom.cn/ 环境 Py ...
python爬虫基础应用----爬取校花网视频
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
python3 爬虫教学之爬取链家二手房（最下面源码） //以更新源码
前言作为一只小白,刚进入Python爬虫领域,今天尝试一下爬取链家的二手房,之前已经爬取了房天下的了,看看链家有什么不同,马上开始. 一.分析观察爬取网站结构这里以广州链家二手房为例:http:/ ...
【Python3爬虫】我爬取了七万条弹幕，看看RNG和SKT打得怎么样
一.写在前面直播行业已经火热几年了,几个大平台也有了各自独特的“弹幕文化”,不过现在很多平台直播比赛时的弹幕都基本没法看的,主要是因为网络上的喷子还是挺多的,尤其是在观看比赛的时候,很多弹幕不是喷选 ...

随机推荐

浏览器根对象window之值为字符串的属性
1. string属性 1.1 origin window.origin使用返回的是当前网页的网址.打开百度首页,并在控制台中输入 window.origin 控制台中会输出"https:/ ...
Angular入门教程二
4 功能介绍 4.1数据绑定 AngularJS的双向数据绑定,意味着你可以在Mode(JS)中改变数据,而这些变动立刻就会自动出现在View上,反之亦然.即:一方面可以做到model变化驱动了DOM ...
解决servlet在web.xml中的路径跳转问题
<?xml version="1.0" encoding="UTF-8"?> <web-app version="3.0" ...
Hadoop、Hive、Spark 之间关系
作者:Xiaoyu Ma ,大数据工程师大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它比作一个厨房所以需要的各种工具.锅碗 ...
控制HTML页面内容不能选中的方法
方法有二一: css 方法 user-seletct: none;-webkit-user-seletct: none;-moz-user-seletct: none;-ms-user-seletc ...
一、Asp.Net Core WebAPI——修改默认监听端口
参考文档添加host.json文件 { "urls": "https://localhost:44389;http://localhost:44380" } ...
卸载Sharepoint2016后。重新安装提示系统从以前的安装重新启动，或更新正在等待错误
卸载Sharepoint2016 重启N遍,不停地重启.需要删除注册表项下的 .将PendingFileRenameOperations键项删除,再重新安装就可以安装成功.
按钮在执行frame动画的时候怎么响应触发事件？
按钮在执行frame动画的时候怎么响应触发事件? 代码中效果(请注意,我并没有点击到按钮,而是点击到按钮的终点frame值处): 对应的代码: // // ViewController.m // Ta ...
ubuntu13.04更新源
最近163的源出问题了,又要换一次源. 报错如下: 查更新源的命令查了好多次,这次还是记下来吧,估计以后还会用到很多次. 常规来说,是要先备份的,不过感觉备份也没什么用,所以就直接跳过吧.. 1 打 ...
计算机作业（Excel工资表）物联网王罗红

python3爬虫-通过requests爬取图虫网

python3爬虫-通过requests爬取图虫网的更多相关文章

随机推荐

热门专题