【Python爬虫案例学习】分析Ajax请求并抓取今日头条街拍图片

1.抓取索引页内容

利用requests请求目标站点，得到索引网页HTML代码，返回结果。

from urllib.parse import urlencode

from requests.exceptions import RequestException

import requests

'''

遇到不懂的问题？Python学习交流群：821460695满足你的需求，资料都已经上传群文件，可以自行下载！

'''

def get_page_index(offset, keyword):

    headers = { 'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36' }

    data = {

        'format': 'json',

        'offset': offset,

        'keyword': keyword,

        'autoload': 'true',

        'count': 20,

        'cur_tab': 1,

        'from': 'search_tab',

        'pd': 'synthesis',

    }

    url = 'https://www.toutiao.com/search_content/?' + urlencode(data)

    response = requests.get(url, headers=headers);

    try:

        if response.status_code == 200:

            return response.text

        return None

    except RequestException:

        print('请求索引页失败')

        return None

def main():

    html = get_page_index(0,'街拍')

    print(html)

if __name__=='__main__':

    main()

2.抓取详情页内容

解析返回结果，得到详情页的链接，并进一步抓取详情页的信息。

获取页面网址：

def parse_page_index(html):

  data = json.loads(html)

  if data and 'data' in data.keys():

    for item in data.get('data'):

      yield item.get('article_url')

单个页面代码：

def get_page_detail(url):

  headers = { 'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36' }

  try:

    response = requests.get(url, headers=headers)

    if response.status_code == 200:

      return response.text

    return None

  except RequestException:

    print('请求详情页页失败')

    return None

图片地址

def parse_page_detail(html,url):

  soup = BeautifulSoup(html,'lxml')

  title = soup.select('title')[0].get_text()

  images_pattern = re.compile('gallery: JSON.parse\((.*?)\)', re.S)

  result = re.search(images_pattern, html)

  if result:

    data = json.loads(result.group(1))

    data = json.loads(data) #将字符串转为dict，因为报错了

    if data and 'sub_images' in data.keys():

      sub_images = data.get('sub_images')

      images = [item.get('url') for item in sub_images]

      for image in images: download_image(image)

      return {

        'title': title,

        'images':images,

        'url':url

      }

3.下载图片与保存数据库

将图片下载到本地，并把页面信息及图片URL保存到MongDB。

# 存到数据库

def save_to_mongo(result):

  if db[MONGO_TABLE].insert(result):

    print('存储到MongoDb成功', result)

    return True

  return False

# 下载图片

def download_image(url):

  print('正在下载',url)

  headers = { 'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.    36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36' }

  try:

    response = requests.get(url, headers=headers)

    if response.status_code == 200:

      save_image(response.content)

    return None

  except RequestException:

    print('请求图片失败', url)

    return None

def save_image(content):

  file_path = '{0}/{1}.{2}'.format(os.getcwd(),md5(content).hexdigest(),'jpg')

  if not os.path.exists(file_path):

    with open(file_path,'wb') as f:

      f.write(content)

4.开启循环及多线程

对多页内容遍历，开启多线程提高抓取速度。

groups = [x*20 for x in range(GROUP_START, GROUP_END+1)]

    pool = Pool()

    pool.map(main,groups)

完整代码：

from urllib.parse import urlencode

from requests.exceptions import RequestException

from bs4 import BeautifulSoup

from hashlib import md5

from multiprocessing import Pool

from config import *

import pymongo

import requests

import json

import re

import os

'''

遇到不懂的问题？Python学习交流群：821460695满足你的需求，资料都已经上传群文件，可以自行下载！

'''

client = pymongo.MongoClient(MONGO_URL)

db = client[MONGO_DB]

def get_page_index(offset, keyword):

  headers = { 'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36' }

  data = { 'format': 'json','offset': offset,'keyword': keyword,'autoload': 'true','count': 20,'cur_tab': 1,'from': 'search_tab','pd': 'synthesis' }

  url = 'https://www.toutiao.com/search_content/?' + urlencode(data)

  try:

    response = requests.get(url, headers=headers)

    if response.status_code == 200:

      return response.text

    return None

  except RequestException:

    print('请求索引页失败')

    return None

def parse_page_index(html):

  data = json.loads(html)

  if data and 'data' in data.keys():

    for item in data.get('data'):

      yield item.get('article_url')

def get_page_detail(url):

  headers = { 'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36' }

  try:

    response = requests.get(url, headers=headers)

    if response.status_code == 200:

      return response.text

    return None

  except RequestException:

    print('请求详情页页失败')

    return None

def parse_page_detail(html,url):

  soup = BeautifulSoup(html,'lxml')

  title = soup.select('title')[0].get_text()

  images_pattern = re.compile('gallery: JSON.parse\((.*?)\)', re.S)

  result = re.search(images_pattern, html)

  if result:

    data = json.loads(result.group(1))

    data = json.loads(data) #将字符串转为dict，因为报错了

    if data and 'sub_images' in data.keys():

      sub_images = data.get('sub_images')

      images = [item.get('url') for item in sub_images]

      for image in images: download_image(image)

      return {

        'title': title,

        'images':images,

        'url':url

      }

def save_to_mongo(result):

  if db[MONGO_TABLE].insert(result):

    print('存储到MongoDb成功', result)

    return True

  return False

def download_image(url):

  print('正在下载',url)

  headers = { 'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.    36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36' }

  try:

    response = requests.get(url, headers=headers)

    if response.status_code == 200:

      save_image(response.content)

    return None

  except RequestException:

    print('请求图片失败', url)

    return None

def save_image(content):

  file_path = '{0}/{1}.{2}'.format(os.getcwd(),md5(content).hexdigest(),'jpg')

  if not os.path.exists(file_path):

    with open(file_path,'wb') as f:

      f.write(content)

def main(offset):

  html = get_page_index(offset,KEYWORD)

  for url in parse_page_index(html):

     html = get_page_detail(url)

     if html:

       result = parse_page_detail(html,url)

       if isinstance(result,dict):

         save_to_mongo(result)

if __name__=='__main__':

    groups = [x*20 for x in range(GROUP_START, GROUP_END+1)]

    pool = Pool()

    pool.map(main,groups)

config.py

MONGO_URL = 'localhost'

MONGO_DB = 'toutiao'

MONGO_TABLE = 'jiepai'

GROUP_START = 1

GROUP_END = 20

KEYWORD = '街拍'

~

【Python爬虫案例学习】分析Ajax请求并抓取今日头条街拍图片的更多相关文章

Python爬虫系列-分析Ajax请求并抓取今日头条街拍图片
1.抓取索引页内容利用requests请求目标站点,得到索引网页HTML代码,返回结果. 2.抓取详情页内容解析返回结果,得到详情页的链接,并进一步抓取详情页的信息. 3.下载图片与保存数据库将 ...
分析Ajax请求并抓取今日头条街拍美图
项目说明本项目以今日头条为例,通过分析Ajax请求来抓取网页数据. 有些网页请求得到的HTML代码里面并没有我们在浏览器中看到的内容.这是因为这些信息是通过Ajax加载并且通过JavaScript渲 ...
分析 ajax 请求并抓取今日头条街拍美图
首先分析街拍图集的网页请求头部: 在 preview 选项卡我们可以找到 json 文件,分析 data 选项,找到我们要找到的图集地址 article_url: 选中其中一张图片,分析 json 请 ...
2.分析Ajax请求并抓取今日头条街拍美图
import requests from urllib.parse import urlencode # 引入异常类 from requests.exceptions import RequestEx ...
python爬虫知识点总结（十）分析Ajax请求并抓取今日头条街拍美图
一.流程框架
15-分析Ajax请求并抓取今日头条街拍美图
流程框架: 抓取索引页内容:利用requests请求目标站点,得到索引网页HTML代码,返回结果. 抓取详情页内容:解析返回结果,得到详情页的链接,并进一步抓取详情页的信息. 下载图片与保存数据库:将 ...
PYTHON 爬虫笔记九:利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集（实战项目二）
利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集目标站点分析今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方 ...
爬虫七之分析Ajax请求并爬取今日头条
爬取今日头条图片这里只讨论出现的一些问题,代码在最下面github链接里. 首先,今日头条取消了"图集"这一选项,因此对于爬虫来说效率降低了很多: 在所有代码都完成后,也许是爬取 ...
分析 ajax 请求并抓取 “今日头条的街拍图”
今日头条抓取页面: 分析街拍页面的 ajax 请求: 通过在 XHR 中查看内容,获取 url 链接,params 参数信息,将两者进行拼接后取得完整 url 地址.data 中的 article_u ...

随机推荐

windows 命令
1.查看端口占用: netstat -ano|findstr 8080 2.查看网络端口:ipconfig/all
H5制作显示轮播图的方法Swiper
1.需要引入Swiper插件  <link rel="stylesheet" href="https://unpkg. ...
python函数 | 列表生成式
在编写程序或者查看别人的程序时,经常会遇到列表生成式,这个使用起来并不复杂,但是非常有用,使我们的代码更加简洁灵活.很多python使用者并不太会使用它.今天,就给大家详细讲解列表生成式和生成器表达式 ...
常用方法 DataTable转换为Entitys
备注:摘自网上有附地址 public static List<T> DataTableToEntities<T>(this DataTable dt) where T : c ...
如何使用git把本地代码上传到远程仓库上
初始化 git init 查看当前仓库状态 git status 将项目的文件添加到仓库中 git add test.txt git add -A git add . 将add的文件commit到仓库 ...
Gamma阶段第一次scrum meeting
每日任务内容队员昨日完成任务明日要完成的任务张圆宁 #91 用户体验与优化:发现用户体验细节问题https://github.com/rRetr0Git/rateMyCourse/issues ...
APISIX系列 | 使用 docker-apisix 安装APISIX服务
官方仓库:https://github.com/iresty/docker-apisix 官方仓库拉取 git clone git@github.com:iresty/docker-apisix.g ...
避免git clone和push时每次都需要输入用户名和密码
有三种方式解决git clone时每次都需要输入用户名和密码, 1. SSH免密方式使用git bash ssh-keygen或puttygen.exe生成公钥. 2. 配置全局开机存储认证信息下 ...
malloc分配到一块内存，读写操作时却发生segmentation falt的奇怪问题。
期初现象:malloc一块内存,读写操作时发生segmentation falt.一般来讲malloc倘若失败应该抛出异常,所以malloc返回一个指针后,这个指针应该都是可用的,况且是进行读操作. ...
jdk8 stream实现sql单表select a,b,sum(),avg(),max() from group by a,b order by a,b limit M offset N及其性能
之所以要测该场景,是因为merge多数据源结果的时候,有时候只是单个子查询结果了,而此时采用sql数据库处理并不一定能够合理(网络延迟太大). 测试数据10万行,结果1000行 limit 20 of ...

【Python爬虫案例学习】分析Ajax请求并抓取今日头条街拍图片

完整代码：

【Python爬虫案例学习】分析Ajax请求并抓取今日头条街拍图片的更多相关文章

随机推荐

热门专题