python3爬虫-分析Ajax，抓取今日头条街拍美图

# coding=utf-8

from urllib.parse import urlencode

import requests

from requests.exceptions import RequestException,Timeout

import json

from bs4 import BeautifulSoup

from pymongo import MongoClient

from multiprocessing import Pool

import os

import string

from hashlib import md5

def get_response(url):

    try:

        headers = {

            "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36"

        }

        # proxies = {'http':'118.11.2.3:8080'}

        response = requests.get(url, headers=headers, timeout=5)

        print(url + 'request success')

        return response

    except Timeout:

        print(url + 'request timeout')

def get_page_index(offset, keyword):

    data = {

        "offset": offset,

        "format": "json",

        "keyword": keyword,

        "autoload": "true",

        "count": "20",

        "cur_tab": "1",

        "from":"search_tab"

    }

    url = "https://www.toutiao.com/search_content/?" + urlencode(data)

    print(url)

    try:

        response = get_response(url)

        print(response.status_code)

        if response.status_code == 200:

            return response.text

        return None

    except RequestException:

        print('request error')

        return None

def conn_mongodb():

    client = MongoClient('localhost', 27017)

    db = client['jiepai']

    jiepai = db['jiepai']

    return jiepai

def save_image_url(data):

    jiepai = conn_mongodb()

    jiepai.update({'title':data.get('title')}, {'$set':data}, upsert=True)

def get_image_url():

    jiepai = conn_mongodb()

    data = jiepai.find({}, {'title': 1, 'images_list': 1, '_id': 0})

    return data

def download_image(data):

    base_dir = os.path.abspath(os.path.dirname(__file__))

    if not os.path.exists(base_dir + '\jiepai'):

        os.mkdir(base_dir + '\jiepai')

    for item in data:

        print(item.get('title'))

        title = item.get('title')

        images_list = item.get('images_list')

        print('images_lsit',images_list)

        # every file name

        file_name = title.strip(string.punctuation)

        file_name = str(file_name).replace('?','')

        if not os.path.exists(base_dir + '\jiepai/' + file_name):

            os.mkdir(base_dir + '\jiepai\\' + file_name)

        # save images path

        file_path = base_dir + '\jiepai\\' + file_name

        for image_url in images_list:

            print(image_url)

            response = get_response(image_url)

            html = response.content

            image_name = md5(html).hexdigest() + '.jpg'

            with open(file_path + '\\' + image_name, 'wb') as f:

                f.write(html)

                print('download success')

def parse_page_index(html):

    data = json.loads(html)

    if data and 'data' in data.keys():

        for item in data.get('data'):

            a_gourp_image_detail = {}

            images_list = []

            title = item.get('title')

            # print(title)

            if title is not None:

                a_gourp_image_detail['title'] = title

                images = item.get('image_detail')

                # print(images)

                if images:

                    for image in images:

                        # print(image.get('url'))

                        images_list.append(image.get('url'))

            # if images_list:

            a_gourp_image_detail['images_list'] = list(set(images_list))

            print(a_gourp_image_detail)

            save_image_url(a_gourp_image_detail)

def main(offset):

    html = get_page_index(offset, '街拍')

    # print(html)

    parse_page_index(html)

if __name__ == "__main__":

    # 多进程爬取图片链接，并保存到 Mongodb

    # groups = [x*20 for x in range(0,5)]

    # pool = Pool()

    # pool.map(main, groups)

    # 从 mongodb 中获取链接，多进程下载图片，并保存

    data = get_image_url()

    datas = [item for item in data]

    pool = Pool()

    pool.map(download_image, data)

    # download_image()

python3爬虫-分析Ajax，抓取今日头条街拍美图的更多相关文章

分析Ajax抓取今日头条街拍美图
spider.py # -*- coding:utf-8 -*- from urllib import urlencode import requests from requests.exceptio ...
【Python3网络爬虫开发实战】分析Ajax爬取今日头条街拍美图
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:haoxuan10 本节中,我们以今日头条为例来尝试通过分析Ajax请求 ...
分析Ajax爬取今日头条街拍美图-崔庆才思路
站点分析源码及遇到的问题代码结构方法定义需要的常量关于在代码中遇到的问题 01. 数据库连接 02.今日头条的反爬虫机制 03. json解码遇到的问题 04. 关于response.tex ...
关于爬虫的日常复习（9）—— 实战：分析Ajax抓取今日头条接拍美图
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图（七）
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图一.分析网站 1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏. 2.按F12打开开发者工具,刷新网页,这时网页回弹到综合 ...
15-分析Ajax请求并抓取今日头条街拍美图
流程框架: 抓取索引页内容:利用requests请求目标站点,得到索引网页HTML代码,返回结果. 抓取详情页内容:解析返回结果,得到详情页的链接,并进一步抓取详情页的信息. 下载图片与保存数据库:将 ...
Python Spider 抓取今日头条街拍美图
""" 抓取今日头条街拍美图 """ import os import time import requests from hashlib ...
分析Ajax请求并抓取今日头条街拍美图
项目说明本项目以今日头条为例,通过分析Ajax请求来抓取网页数据. 有些网页请求得到的HTML代码里面并没有我们在浏览器中看到的内容.这是因为这些信息是通过Ajax加载并且通过JavaScript渲 ...
【Python3网络爬虫开发实战】6.4-分析Ajax爬取今日头条街拍美图【华为云技术分享】
[摘要] 本节中,我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法.这次要抓取的目标是今日头条的街拍美图,抓取完成之后,将每组图片分文件夹下载到本地并保存下来. 1. 准备工作在本节 ...
转：【Python3网络爬虫开发实战】6.4-分析Ajax爬取今日头条街拍美图
[摘要] 本节中,我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法.这次要抓取的目标是今日头条的街拍美图,抓取完成之后,将每组图片分文件夹下载到本地并保存下来. 1. 准备工作在本节 ...

随机推荐

J2EE的体系架构——J2EE
J2EE是Java2平台企业版(Java 2 Platform,Enterprise Edition),它的核心是一组技术规范与指南,提供基于组件的方式来设计.开发.组装和部署企业应用.J2EE使用多 ...
TensorFlow学习笔记补充1——InteractiveSession
InteractiveSession 大家有时候在阅读代码时会看见InteractiveSession而不是熟悉的Session,这是什么东东呢? 其实,它们只有一点不同..... Interacti ...
JSONP（转）
1 什么是Jsonp? JSONP(JSON with Padding)是数据格式JSON的一种“使用模式”,可以让网页从别的网域要数据.另一个解决这个问题的新方法是跨来源资源共享. 由于同源策略,一 ...
项目实践中--Git服务器的搭建与使用指南
一.前言 Git是一款免费.开源的分布式版本控制系统,用以有效.高速的处理从很小到非常大的项目版本管理.在平时的项目开发中,我们会使用到Git来进行版本控制. Git的功能特性: 从一般开发者的角度来 ...
C#协变与逆变
http://zh.wikipedia.org/wiki/%E5%8D%8F%E5%8F%98%E4%B8%8E%E9%80%86%E5%8F%98 协变与逆变是程序设计语言中的类型系统的一对概念.类 ...
怎样正确写网站title、keywords、description比较标准。
一.title title,也就是标题,是在浏览器上面显示出来的,方便用户了解这个页面的内容;特别是搜索引擎判断你网页内容的主要根据.搜索引擎就很大部分是依靠网站title来判断你网站是关于什么内容的 ...
用@spy模拟真实对象的部分行为
1.说明在某些情况下,我们需要使用一个真实对象.但是,我们同时需要自定义该对象的部分行为,此时用@spy 就可以帮我们达到这个目的. 2.用法: categoryService = PowerMoc ...
IOS MagicRecord 详解 (转载)
2014-10-22 14:37 6137人阅读评论(6) 收藏举报 IOSMagicRecordCoreData 目录(?)[+] 刚开始接触IOS不久,尝试着翻译一些博客,积累技术,与大家共享 ...
es6中顶层对象属性≠全局属性
先思考一下下面代码的输出结果是什么 const a = { x:1, fn:()=>this.x+=1 } const x = 1 a.fn() console.log(a.x,x) 正确答案为 ...
php或js判断网站访问者来自手机或者pc端源码
很多时候也可以通过逻辑程序来进行判断,如PHP.JS是常用的两种识别访问设备类型的常用方法. 原理都是采用识别访问客户端的HTTP_USER_AGENT,然后进行关键字匹配进行确定设备类型,对于伪造H ...

python3爬虫-分析Ajax，抓取今日头条街拍美图

python3爬虫-分析Ajax，抓取今日头条街拍美图的更多相关文章

随机推荐

热门专题