15-分析Ajax请求并抓取今日头条街拍美图

流程框架：

抓取索引页内容：利用requests请求目标站点，得到索引网页HTML代码，返回结果。

抓取详情页内容：解析返回结果，得到详情页的链接，并进一步抓取详情页的信息。

下载图片与保存数据库：将图片下载到本地，并把页面信息及图片URL保存至MongoDB。

开启循环及多线程：对多页内容遍历，开启多线程提高抓取速度。

jiepai_picture.py

'''有些网页直接请求得到的HTML代码，并没有包括在浏览器中直接看到的内容，因为一些信息通过Ajax加载、通过JS渲染生成的，此时要分析网页请求。
本次用到的工具：
网络库：requests、解析库：beautifulsoup和正则表达式、存储数据库：mongoDB、pymongo库。
目标站点分析：
'''
from urllib.parse import urlencode
import requests
from requests.exceptions import RequestException
import json
from bs4 import BeautifulSoup
import re

import pymongo
import sys
sys.path.append('D://ASoft/Python/PycharmProjects/pachong/15-分析Ajax请求并抓取今日头条街拍美图')  #将自己写的config.py的路径加入到系统路径中以便导入。
from config import *
client = pymongo.MongoClient(MONGO_URL,connect=False)  #生成一个Mongo客户端，多进程时候connect=False，每个进程启动时才连接
db = client[MONGO_DB]   #定义一个DB

import os
from hashlib import md5
from multiprocessing import Pool    #引入进程池开启多进程
from json.decoder import JSONDecodeError

'''抓取索引页内容'''
def get_page_index(offset,keyword): #使offset和keyword变成可变参数传递进来
    #得到网页请求的参数，参数见图1，注意：抓取的是“图集”标题页的内容
    data = {
        'offset': offset,
        'format': 'json',
        'keyword': keyword,
        'autoload': 'true',
        'count': '20',
        'cur_tab': '3',
        'from': 'gallery'   #此属性要加上，否则可能会不会返回标签“图集”的url
        # 'pd':''
    }
    #将字典对象转换为url的请求参数，是urlib库提供的一种编码方法
    url = 'https://www.toutiao.com/search_content/?' + urlencode(data)  #链接见图2
    try:
        #利用requests请求这个url
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        else:
            return None
    except RequestException:
        print('请求索引页出错')
        return None

'''解析索引页信息'''
def parse_page_index(html):
    try:
        data = json.loads(html) #生成一个json对象。
        if data and 'data' in data.keys():
            for item in data.get('data'):
                yield item.get('article_url')   #生成器
    except JSONDecodeError:
        pass

'''得到详情页详细信息'''
def get_page_detail(url):
    headers = {
        # 'User-Agent': 'Mozilla/4.0(compatible;MSIE 5.5;Windows NT)'     #这个user-agent可以，有的user-agent可能会导致爬取到的源码不全。
        # 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36'
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko'
    }
    try:
        #利用requests请求这个url，注意此处直接传入url来请求网页内容由于反爬机制可能会得不到网页内容，所以要requests.get方法要加入headers参数。
        response = requests.get(url=url,headers=headers)
        if response.status_code == 200:
            return response.text
        else:
            return None
    except RequestException:
        print('请求详情页出错')
        return None

'''解析详情页信息：根据想要得到的信息，在爬取到的网页源码中搜索想要的信息，找到信息的标签位置，然后利用选择器或正则表达式解析。'''
def parse_page_detail(html,url):
    soup = BeautifulSoup(html,'lxml')   #由于图片链接信息在原始的网页源代码中可以找到，见图3，所以用Beautiful库解析，以lxml方式解析html
    try:
        title = soup.select('title')[0].get_text()  #得到图片的名称
    except IndexError:
        print('title获取失败',url)
    # images_pattern = re.compile('var gallery = (.*?);', re.S)  # 利用正则表达式解析图片链接地址
    images_pattern = re.compile('JSON.parse("(.*?)"),', re.S)
    # print(html)
    result = re.search(images_pattern,html)
    if not result:
        images_pattern = re.compile('JSON.parse("(.*?)"),', re.S)
        result = re.search(images_pattern,html)
    if result:
        data = json.loads(result.group(1))  #得到包含url的字典
        if data and 'sub_images' in data.keys():
            sub_images = data.get('sub_images')     #得到一个列表，分析得知，列表中包含很多个集合，每个集合中包含一个键为url值为图片链接的键值对。
            images = [item.get('url') for item in sub_images]   #包含网页街拍中一个组图中每张图片的链接
            #下载图片
            for image in images:
                download_image(image)
            #返回图片包含图片名称和链接的字典
            return {
                'title':title,
                'url':url,
                'images':images
            }

#定义一个存储到MONGODB的方法
def save_to_mongo(result):
    if db[MONGO_TABLE].insert(result):  #如果存储成功
        print('存储到MongoDB成功',result)
        return True
    return False

#将图片存储下来
def download_image(url):
    print('正在下载',url)
    try:
        response = requests.get(url)
        print('---------')
        if response.status_code == 200:
            save_image(response.content)    #response.content：返回二进制。response.text：返回正常网页源码结果。
        return None
    except RequestException:
        print('请求图片出错',url)
        return None

#存储为图片
def save_image(content):
    #文件路径包括三部分：路径、文件名、后缀。os.getcwd()：当前项目的路径。md5(content).hexdigest()：防止文件重复，如果图片内容相同则文件名相同。
    file_path = '{0}/{1}.{2}'.format(os.getcwd(),md5(content).hexdigest(),'jpg')
    if not os.path.exists(file_path):
        with open(file_path,'wb') as f:
            f.write(content)
            f.close()

def main(offset):
    #得到索引页信息
    html_index = get_page_index(offset,KEYWORD)
    for url in parse_page_index(html_index):   #url是每个详情页的url
       # 得到详细页信息
        html_detail = get_page_detail(url)
        if html_detail:
            result = parse_page_detail(html_detail,url)   #得到解析后的title,url,images_url
            if result:
                save_to_mongo(result)   #将得到的信息存储到数据库

if __name__ == '__main__':
    # main()
    #抓取其他索引页
    groups = [x * 20 for x in range(GROUP_START,GROUP_END + 1)]
    pool = Pool()   #声明一个进程池
    pool.map(main,groups)

config.py

'''把得到的信息存储到MONGODB中。配置信息放到配置文件中。'''
MONGO_URL = 'localhost'
MONGO_DB = 'toutiao'
MONGO_TABLE = 'toutiao'

GROUP_START = 1
GROUP_END = 20

KEYWORD = '街拍'


程序执行可能有一些问题，尚待更正。

15-分析Ajax请求并抓取今日头条街拍美图的更多相关文章

分析Ajax请求并抓取今日头条街拍美图
项目说明本项目以今日头条为例,通过分析Ajax请求来抓取网页数据. 有些网页请求得到的HTML代码里面并没有我们在浏览器中看到的内容.这是因为这些信息是通过Ajax加载并且通过JavaScript渲 ...
2.分析Ajax请求并抓取今日头条街拍美图
import requests from urllib.parse import urlencode # 引入异常类 from requests.exceptions import RequestEx ...
分析 ajax 请求并抓取今日头条街拍美图
首先分析街拍图集的网页请求头部: 在 preview 选项卡我们可以找到 json 文件,分析 data 选项,找到我们要找到的图集地址 article_url: 选中其中一张图片,分析 json 请 ...
python爬虫知识点总结（十）分析Ajax请求并抓取今日头条街拍美图
一.流程框架
Python爬虫系列-分析Ajax请求并抓取今日头条街拍图片
1.抓取索引页内容利用requests请求目标站点,得到索引网页HTML代码,返回结果. 2.抓取详情页内容解析返回结果,得到详情页的链接,并进一步抓取详情页的信息. 3.下载图片与保存数据库将 ...
【Python爬虫案例学习】分析Ajax请求并抓取今日头条街拍图片
1.抓取索引页内容利用requests请求目标站点,得到索引网页HTML代码,返回结果. from urllib.parse import urlencode from requests.excep ...
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图（七）
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图一.分析网站 1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏. 2.按F12打开开发者工具,刷新网页,这时网页回弹到综合 ...
Python Spider 抓取今日头条街拍美图
""" 抓取今日头条街拍美图 """ import os import time import requests from hashlib ...
爬虫（八）：分析Ajax请求抓取今日头条街拍美图
(1):分析网页分析ajax的请求网址,和需要的参数.通过不断向下拉动滚动条,发现请求的参数中offset一直在变化,所以每次请求通过offset来控制新的ajax请求. (2)上代码 a.通过aj ...

随机推荐

多文档界面的实现(DotNetBar的superTabControl)
private void FormMain_Load(object sender, EventArgs e) { superTabControl2.Tabs.Clear(); timer1.Start ...
关于java中assert(断言)的使用讲解
说明:写的不是很全面,有任何问题请留言,多交流,谢谢! 1.eclipse.myeclipse开启assert(断言),默认是关闭,如下: 说白了就是设置一下jvm的参数,参数是-ea或者-enabl ...
innerHTML的使用
inerHTML是html标签的属性,成对出现的标签大多数都有这个属性,用来设置或获取位于对象起始和结束标签内的HTML.(获取HTML当前标签的起始和结束里面的内容)不包括标签本身. ...
《数据库技术基础与应用（第2版）》学习笔记——第7章~
从这章开始,操作的内容开始增多,概念的东西越来越少,可能跟学校的教学目的有关,但是跟我的学习目的不匹配,就不再继续整理. 总结:这本书适合大学本科生学习和了解数据库的相关知识以及Access和SQL ...
ORM版学员管理系统2
学生信息管理展示学生信息 URL部分 url(r'^student_list/', app01_views.student_list, name="student_list"), ...
Understanding Docker
What is Docker? Docker 是一个开源的平台,设计目标是可以方便开发,方便部署和方便执行应用.使用docker可以快速分发开发好的应用.借助于Docker,你可以将开发平台和应用分 ...
css absolute同时设置top bottom
css absolute同时设置top bottom 确定div的高度,若设置了左边框,那么这条边框的高度将随着父定位上下文高度的变大而变大 http://www.webfront-js.com/ar ...
WPF自定义控件（三）の扩展控件
扩展控件,顾名思义就是对已有的控件进行扩展,一般继承于已有的原生控件,不排除继承于自定义的控件,不过这样做意义不大,因为既然都自定义了,为什么不一步到位呢,有些不同的需求也可以通过此来完成,不过类似于 ...
Linux之系统优化
查看系统版本 [root@luffy- /]# cat /etc/redhat-release CentOS release 6.9 (Final) [root@luffy- /]# uname -m ...
16.ajax_case02
# 抓取当当网书评 # http://product.dangdang.com/25340451.html import json import requests from lxml import e ...

15-分析Ajax请求并抓取今日头条街拍美图

15-分析Ajax请求并抓取今日头条街拍美图的更多相关文章

随机推荐

热门专题