站点分析

首先,打开头条,在搜索框输入关键字之后,在返回的页面中,勾选Perserve log,这玩意儿在页面发生变化的时候,不会清除之前的交互信息.

在返回的response中,我们看不到常见的HTML代码,所以初步判定,这个网站是通过ajax动态加载的.


pic-1581682361199.png

切换到XHR过滤器,进一步查看.


pic-1581682361200.png

发现随着网页的滚动,会产生类似这样的的Ajax请求出来. 仔细查看内容,可以看到与网页中条目对应的title和article_url.

所以初步思路,通过article_url字段先抓取文章条目

分析json数据,可以看到,这里有article_url,另外,这次要抓取的是图集形式的页面,所以要注意下这个has_gallery

然后我们再来看具体的页面

在具体页面的html中,我们发现,图片的所有链接直接在网页源代码中包含了,所以,我们直接拿到源码,正则匹配一下就好了.


pic-1581682361200.png

至此,页面分析完成.

开工!

源码及遇到的问题

代码结构

方法定义

def get_page_index(offset, keyword): 获取搜索结果索引页面

def parse_page_index(html): 解析索引页面,主要是解析json内容,所以需要用到json.loads方法

def get_page_detail(url): 用来获取具体图片的页面,与索引页获取差不多

def parse_page_details(html, url):解析具体图集页面

def save_to_mongo(result): 将标题,url等内容保存到mongoDB数据库. 之所以使用mongoDB数据库,因为mongoDB简单,而且是K-V方式的存储,对于字典类型很友好

def download_image(url): 下载图片

def save_img(content): 保存图片

def main(offset): 对以上各种方法的调用

需要的常量

MONGO_URL = 'localhost' # 数据库位置
MONGO_DB = 'toutiao' # 数据库名
MONGO_TABLE = 'toutiao'# 表名
GROUP_START = 1 # 循环起始值
GROUP_END = 20 # 循环结束值
KEY_WORD = '街拍' # 搜索关键字

关于在代码中遇到的问题

01. 数据库连接

第一次在python中使用数据库,而且用的还是MongoDB. 使用之前引入 pymongo库,数据库连接的写法比较简单. 传入url 然后在创建的client中直接指定数据库名称就可以了.

client = pymongo.MongoClient(MONGO_URL,connect=False)
db = client[MONGO_DB]

02.今日头条的反爬虫机制

今日头条比较有意思,反爬虫机制不是直接给个400的回应,而是返回一些错误的 无效的代码或者json. 不明白是什么原理,是请求不对,还是怎么了. 所以针对今日头条的反爬虫机制,经过尝试之后发现需要构造get的参数和请求头.

而且今日头条的请求头中,需要带上cookie信息. 不然返回的response还是有问题.

这里还要注意的就是cookie信息有时效问题,具体多长时间,我也没搞明白,几个小时应该是有的,所以在执行之前,cookie最好更新一下

同样的在获取详情页的时候也有这个问题存在. 而且还犯了一个被自己蠢哭的错误. headers没有传到requests方法中去.

def get_page_index(offset, keyword):
timestamp = int(time.time())
data = {
"aid": "24",
"app_name": "web_search",
"offset": offset,
"format": "json",
"keyword": keyword,
"autoload": "true",
"count": "20",
"en_qc": "1",
"cur_tab": "1",
"from": "search_tab",
# "pd": "synthesis",
"timestamp": timestamp
}
headers = {
# 这里小心cookie失效的问题
'cookie': 'tt_webid=6791640396613223949; WEATHER_CITY=%E5%8C%97%E4%BA%AC; tt_webid=6791640396613223949; csrftoken=4a29b1b1d9ecf8b5168f1955d2110f16; s_v_web_id=k6g11cxe_fWBnSuA7_RBx3_4Mo4_9a9z_XNI0WS8B9Fja; ttcid=3fdf0861117e48ac8b18940a5704991216; tt_scid=8Z.7-06X5KIZrlZF0PA9kgiudolF2L5j9bu9g6Pdm.4zcvNjlzQ1enH8qMQkYW8w9feb; __tasessionId=ngww6x1t11581323903383',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36'}
url = 'https://www.toutiao.com/api/search/content/?' + urlencode(data)
response = requests.get(url, headers=headers)
try:
if response.status_code == 200:
return response.text
return None
except RequestException:
print('Request failed!')
return None

03. json解码遇到的问题

由于python和java转移字符的区别(python通过''进行转义,''本身不需要转义),但是java需要\\来进行转义,也就是''本身还需要一个''来进行转义.

但是python的json.loads()方法和print方法在输出的时候都会对转义字符进行解释.

所以当初在parse_page_details()这个方法中 json.loads()报错,说json格式错误找不到'"'. 但是print出来的时候,又是一个''的样子.

后来在在debug的时候,看到了真实的json字符串的样子

所以就需要对这个json字符串进行预处理,然后再使用json.loads()进行解码.

eval(repr(result.group(1)).replace('\\\\', '\\'))

插一个小话题,那就是str()方法和repr()方法的区别. 首先两者都是把对象转换成字符串,而无论print方法还是str()方法调用的都是类中的__str__ 而repr()方法调用的是__repr__ .

简单来说,__str__方法是为了满足可读性,会对输出内容做可读性处理. 比如去掉字符串两端的引号或者自动解析''等. 但是__repr__会尽量保留原始数据格式,满足的是准确性需求. 所以这里,我们使用repr()方法拿到原始数据,然后将\\ 替换为\

ps.\\\\ 是两个\ 转义了一下. 同理两个斜杠是一个斜杠,因为也是转义的.

然后就是eval方法是能把字符串转换成对应的类型.


#字符串转换成列表
>>>a = "[[1,2], [3,4], [5,6], [7,8], [9,0]]"
>>>type(a)
<type 'str'>
>>> b = eval(a)
>>> print b
[[1, 2], [3, 4], [5, 6], [7, 8], [9, 0]]
>>> type(b)
<type 'list'>
#字符串转换成字典
>>> a = "{1: 'a', 2: 'b'}"
>>> type(a)<type 'str'
>>>> b = eval(a)
>>> print b
{1: 'a', 2: 'b'}>>> type(b)<type 'dict'>

理解repr()和eval()两个方法之后,那上面的预处理代码就好理解了,先通过repr()方法获取原始字符串,然后替换,然后再给他转换成可读的字符串. 然后在用json.loads()解码.

04. 关于response.text和response.content的区别

response.text 获取文本值

response.content 获取二进制内容

源代码

import json
import os
import re
from hashlib import md5
from multiprocessing import Pool
from urllib.parse import urlencode
import pymongo
import requests
from bs4 import BeautifulSoup
from requests.exceptions import RequestException
from config import * # mongodb 数据库对象
# connext=False表示进程启动的时候才进行连接
client = pymongo.MongoClient(MONGO_URL,connect=False)
db = client[MONGO_DB] def get_page_index(offset, keyword):
data = {
"aid": "24",
"app_name": "web_search",
"offset": offset,
"format": "json",
"keyword": keyword,
"autoload": "true",
"count": "20",
"en_qc": "1",
"cur_tab": "1",
"from": "search_tab",
# "pd": "synthesis",
# "timestamp": "1581315480994"
}
headers = {
# 这里小心cookie失效的问题
'cookie': 'tt_webid=6791640396613223949; WEATHER_CITY=%E5%8C%97%E4%BA%AC; tt_webid=6791640396613223949; csrftoken=4a29b1b1d9ecf8b5168f1955d2110f16; s_v_web_id=k6g11cxe_fWBnSuA7_RBx3_4Mo4_9a9z_XNI0WS8B9Fja; ttcid=3fdf0861117e48ac8b18940a5704991216; tt_scid=8Z.7-06X5KIZrlZF0PA9kgiudolF2L5j9bu9g6Pdm.4zcvNjlzQ1enH8qMQkYW8w9feb; __tasessionId=ngww6x1t11581323903383',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36'}
url = 'https://www.toutiao.com/api/search/content/?' + urlencode(data)
response = requests.get(url, headers=headers)
try:
if response.status_code == 200:
return response.text
return None
except RequestException:
print('Request failed!')
return None def parse_page_index(html):
data = json.loads(html)
# json.loads()方法会格式化结果,并生成一个字典类型
# print(data)
# print(type(data))
try:
if data and 'data' in data.keys():
for item in data.get('data'):
if item.get('has_gallery'):
yield item.get('article_url')
except TypeError:
pass def get_page_detail(url):
headers = {
'cookie': 'tt_webid=6791640396613223949; WEATHER_CITY=%E5%8C%97%E4%BA%AC; tt_webid=6791640396613223949; csrftoken=4a29b1b1d9ecf8b5168f1955d2110f16; s_v_web_id=k6g11cxe_fWBnSuA7_RBx3_4Mo4_9a9z_XNI0WS8B9Fja; ttcid=3fdf0861117e48ac8b18940a5704991216; tt_scid=8Z.7-06X5KIZrlZF0PA9kgiudolF2L5j9bu9g6Pdm.4zcvNjlzQ1enH8qMQkYW8w9feb; __tasessionId=yix51k4j41581315307695',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36',
# ':scheme': 'https',
# 'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
# 'accept-encoding': 'gzip, deflate, br',
# 'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-US;q=0.7'
}
try:
# 他妈的被自己蠢哭...忘了写headers了,搞了一个多小时
response = requests.get(url, headers=headers)
# print(response.status_code)
if response.status_code == 200:
return response.text
return None
except RequestException:
print("请求详情页出错!")
return None def parse_page_details(html, url):
soup = BeautifulSoup(html, 'xml')
title = soup.select('title')[0].get_text()
# print(title)
img_pattern = re.compile('JSON.parse\("(.*?)"\),', re.S)
result = re.search(img_pattern, html)
if result:
# 这里注意一下双斜杠的问题
data = json.loads(eval(repr(result.group(1)).replace('\\\\', '\\')))
if data and 'sub_images' in data.keys():
sub_images = data.get('sub_images')
images = [item.get('url') for item in sub_images]
for image in images: download_image(image)
return {
'title': title,
'url': url,
'images': images
} def save_to_mongo(result):
if db[MONGO_TABLE].insert_one(result):
print('存储到MongoDB成功', result)
return True
return False def download_image(url):
print('正在下载', url)
try:
response = requests.get(url)
if response.status_code == 200:
save_img(response.content)
return None
except RequestException:
print('请求图片出错', url)
return None def save_img(content):
file_path = '{0}/img_download/{1}.{2}'.format(os.getcwd(), md5(content).hexdigest(), 'jpg')
if not os.path.exists(file_path):
with open(file_path, 'wb') as f:
f.write(content)
f.close() def main(offset):
html = get_page_index(offset, KEY_WORD)
for url in parse_page_index(html):
html = get_page_detail(url)
if html:
result = parse_page_details(html, url)
if result: save_to_mongo(result) if __name__ == '__main__':
groups = [x * 20 for x in range(GROUP_START, GROUP_END + 1)]
pool = Pool()
pool.map(main, groups)

分析Ajax爬取今日头条街拍美图-崔庆才思路的更多相关文章

  1. 【Python3网络爬虫开发实战】 分析Ajax爬取今日头条街拍美图

    前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:haoxuan10 本节中,我们以今日头条为例来尝试通过分析Ajax请求 ...

  2. 【Python3网络爬虫开发实战】6.4-分析Ajax爬取今日头条街拍美图【华为云技术分享】

    [摘要] 本节中,我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法.这次要抓取的目标是今日头条的街拍美图,抓取完成之后,将每组图片分文件夹下载到本地并保存下来. 1. 准备工作 在本节 ...

  3. 转:【Python3网络爬虫开发实战】6.4-分析Ajax爬取今日头条街拍美图

    [摘要] 本节中,我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法.这次要抓取的目标是今日头条的街拍美图,抓取完成之后,将每组图片分文件夹下载到本地并保存下来. 1. 准备工作 在本节 ...

  4. 分析Ajax抓取今日头条街拍美图

    spider.py # -*- coding:utf-8 -*- from urllib import urlencode import requests from requests.exceptio ...

  5. 分析Ajax来爬取今日头条街拍美图并保存到MongDB

    前提:.需要安装MongDB 注:因今日投票网页发生变更,如下代码不保证能正常使用 #!/usr/bin/env python #-*- coding: utf-8 -*- import json i ...

  6. 关于爬虫的日常复习(9)—— 实战:分析Ajax抓取今日头条接拍美图

  7. python爬虫之分析Ajax请求抓取抓取今日头条街拍美图(七)

    python爬虫之分析Ajax请求抓取抓取今日头条街拍美图 一.分析网站 1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏. 2.按F12打开开发者工具,刷新网页,这时网页回弹到综合 ...

  8. 15-分析Ajax请求并抓取今日头条街拍美图

    流程框架: 抓取索引页内容:利用requests请求目标站点,得到索引网页HTML代码,返回结果. 抓取详情页内容:解析返回结果,得到详情页的链接,并进一步抓取详情页的信息. 下载图片与保存数据库:将 ...

  9. Python Spider 抓取今日头条街拍美图

    """ 抓取今日头条街拍美图 """ import os import time import requests from hashlib ...

随机推荐

  1. 在C#中使用二叉树实时计算海量用户积分排名的实现

    从何说起 前些天和朋友讨论一个问题,他们的应用有几十万会员然后对应有积分,现在想做积分排名的需求,问有没有什么好方案.这个问题也算常见,很多地方都能看到,常规做法一般是数据定时跑批把计算结果到中间表然 ...

  2. 【原创】够强!一行代码就修复了我提的Dubbo的Bug。

    这是 why 技术的第 28 篇原创文章 之前在<Dubbo 一致性哈希负载均衡的源码和 Bug,了解一下?>中写到了我发现了一个 Dubbo 一致性哈希负载均衡算法的 Bug. 对于解决 ...

  3. 基于Redis的分布式锁和Redlock算法

    1 前言 前面写了4篇Redis底层实现和工程架构相关文章,感兴趣的读者可以回顾一下: Redis面试热点之底层实现篇-1 Redis面试热点之底层实现篇-2 Redis面试热点之工程架构篇-1 Re ...

  4. 1094 谷歌的招聘 (20 分)C语言

    2004 年 7 月,谷歌在硅谷的 101 号公路边竖立了一块巨大的广告牌(如下图)用于招聘.内容超级简单,就是一个以 .com 结尾的网址,而前面的网址是一个 10 位素数,这个素数是自然常数 e ...

  5. Intellij Idea插件使用记录之Alibaba Java Coding Guidelines

    目录 Intellij Idea插件Alibaba Java Coding Guidelines 前言 使用 感谢 Intellij Idea插件Alibaba Java Coding Guideli ...

  6. Spring多数据源动态切换

    title: Spring多数据源动态切换 date: 2019-11-27 categories: Java Spring tags: 数据源 typora-root-url: ...... --- ...

  7. C#调用Fortran生成的DLL的方法报内存不足

    最近在研究一个程序,公司给的,程序是VB写的,程序里面还有一个计算的模型,用Fortran语言写的. 在调试到这个模型里面的方法时报错,说是内存不足,于是就在网上查找方法,看了两篇博客之后问题解决了. ...

  8. 让vue-router渲染为指定的标签

    <router-link :to="{name:'cart'}" tag="li"> cart </router-link> 在rout ...

  9. 更加清晰的TFRecord格式数据生成及读取

    TFRecords 格式数据文件处理流程 TFRecords 文件包含了 tf.train.Example 协议缓冲区(protocol buffer),协议缓冲区包含了特征 Features.Ten ...

  10. css文字溢出显示省略号

    1.单行文字溢出显示省略号. overflow: hidden; text-overflow: ellipsis; white-space: nowrap;//文本不换行 2.多行文本溢出显示省略号. ...