爬虫之图片懒加载技术及js加密

图片懒加载

图片懒加载概念：

图片懒加载是一种网页优化技术。图片作为一种网络资源，在被请求时也与普通静态资源一样，将占用网络资源，而一次性将整个页面的所有图片加载完，将大大增加页面的首屏加载时间。为了解决这种问题，通过前后端配合，使图片仅在浏览器当前视窗内出现时才加载该图片，达到减少首屏图片请求数的技术就被称为“图片懒加载”。

网站一般如何实现图片懒加载技术呢？在网页源码中，在img标签中首先会使用一个“伪属性”（通常使用src2，original......）去存放真正的图片链接而并非是直接存放在src属性中。当图片出现到页面的可视化区域中，会动态将伪属性替换成src属性，完成图片的加载。站长素材案例后续分析：通过细致观察页面的结构后发现，网页中图片的链接是存储在了src2这个伪属性中

案例：

1. 抓取站长素材http://sc.chinaz.com/中的图片数据

　import requests
　from urllib import request
　import re
　import os

#1.检查页面数据是否为动态加载出来的

#2.获取页面源码数据

if not os.path.exists('tupian'):

    os.mkdir('tupian')

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"

}

url = "http://sc.chinaz.com/tupian/shanshuifengjing.html"

page_text = requests.get(url=url, headers=headers).text

# print(page_text)

ex = '<img src2="(.*?)" alt=.*?></a>'

img_url_list = re.findall(ex, page_text, re.S)

# print(img_url_list)

for i in img_url_list:

    img_url = i

    img_url = img_url[:-7] + ".jpg"

    print(img_url)

    img_path = 'tupian/' + i.split('/')[-1].split(".")[0][:-2] + ".jpg"

    print(img_path)

    request.urlretrieve(url=img_url, filename=img_path)

    print(img_path+'下载成功!!!')

2.煎蛋网爬取图片、

from urllib import request

import requests

import base64

from lxml import etree

import os

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'

}

if not os.path.exists('jiandan'):

    os.mkdir('jiandan')

url = 'http://jandan.net/ooxx/page-46#comments'

page_text = requests.get(url=url,headers=headers).text

#解析scr的密文数据

#查看页面源码：发现所有图片的src值都是一样的。

#简单观察会发现每张图片加载都是通过jandan_load_img(this)这个js函数实现的。

#在该函数后面还有一个class值为img-hash的标签，里面存储的是一组hash值，该值就是加密后的img地址

#加密就是通过js函数实现的，所以分析js函数，获知加密方式，然后进行解密。

#通过抓包工具抓取起始url的数据包，在数据包中全局搜索js函数名（jandan_load_img），然后分析该函数实现加密的方式。

#在该js函数中发现有一个方法调用，该方法就是加密方式，对该方法进行搜索

#搜索到的方法中会发现base64和md5等字样，md5是不可逆的所以优先考虑使用base64解密

tree = etree.HTML(page_text)

src_code_list = tree.xpath('//span[@class="img-hash"]/text()')

for src_code in src_code_list:

    src = 'https:'+base64.b64decode(src_code).decode()

    img_path = 'jiandan/'+src.split('/')[-1]

    request.urlretrieve(url=src,filename=img_path)

    print(img_path+'下载完毕!!!')

3.梨视频爬取视屏

import requests

from urllib import request

import re

import os, time

from lxml import etree

import random

headers = {

    'User-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',

    'Connection':'close'

}

url = 'https://www.pearvideo.com/video_1502773'

if not os.path.exists('video'):

    os.mkdir('video')

response = requests.get(url,headers)

response.encoding = 'utf-8'

text = response.text

tree = etree.HTML(text)

url = tree.xpath('//*[@id="detailsbd"]/div[1]/script[1]/text()')[0]

name = tree.xpath('//*[@id="detailsbd"]/div[1]/div[2]/div/div[1]/h1/text()')[0]

print(name)

ex = 'srcUrl="(.*?)"'

url = re.findall(ex,url)[0]

file_data = requests.get(url,headers).content

with open(f"video/{name}",'wb') as f:

    f.write(file_data)

    print('下载成功')

爬虫之图片懒加载技术及js加密的更多相关文章

爬虫之图片懒加载技术、selenium和PhantomJS
爬虫之图片懒加载技术.selenium和PhantomJS 图片懒加载 selenium phantomJs 谷歌无头浏览器一.图片懒加载什么是图片懒加载? 案例分析:抓取站长素材http:/ ...
08.Python网络爬虫之图片懒加载技术、selenium和PhantomJS
引入今日概要图片懒加载 selenium phantomJs 谷歌无头浏览器知识点回顾验证码处理流程今日详情动态数据加载处理一.图片懒加载什么是图片懒加载? 案例分析:抓取站长素材ht ...
Python网络爬虫之图片懒加载技术、selenium和PhantomJS
引入图片懒加载 selenium phantomJs 谷歌无头浏览器知识点回顾验证码处理流程动态数据加载处理一.图片懒加载什么是图片懒加载? 案例分析:抓取站长素材http://sc.ch ...
Python爬虫之图片懒加载技术、selenium和PhantomJS
一.引入 2.概要图片懒加载 selenium phantomJs 谷歌无头浏览器 3.回顾验证码处理流程一.今日详情动态数据加载处理 1.图片懒加载什么是图片懒加载? 案例分析:抓取站长素 ...
爬虫之图片懒加载技术、selenium工具与PhantomJS无头浏览器
图片懒加载技术 selenium爬虫简单使用 2.1 selenium简介 2.2 selenium安装 2.3 selenium简单使用 2.3.1 selenium使用案例 2.3.2 selen ...
爬虫（七）图片懒加载技术、selenium和PhantomJS
动态数据加载处理一.图片懒加载什么是图片懒加载? 案例分析:抓取站长素材http://sc.chinaz.com/中的图片数据 #!/usr/bin/env python # -*- coding ...
python爬虫之图片懒加载、selenium和phantomJS
一.什么是图片懒加载在网页中,常常需要用到图片,而图片需要消耗较大的流量.正常情况下,浏览器会解析整个HTML代码,然后从上到下依次加载<img src="xxx"> ...
爬虫之图片懒加载, selenium , phantomJs, 谷歌无头浏览器
一.图片懒加载懒加载 : JS 代码是页面自然滚动 window.scrollTo(0,document.body.scrollHeight) (重点) bro.execute_ ...
图片懒加载插件echo.js——改造
今天做一个列表项需要用到懒加载,搜到网友推荐的echo.js,试用了一下,还不错.除了懒加载,还提供了throttle——节流,即用户快速滑动列表时,很快滑过的项的图片不会加载,只会加载最后停下来的位 ...

随机推荐

一封来自恶魔的挑战邀请函，那些你见过或者没见过的C语言指针都在这里了
前言相信大多数的同学都是第一门能接触到语言是C/C++,其中的指针也是比较让人头疼的部分了,因为光是指针都能专门出一本叫<C和指针>的书籍,足见指针的强大.但如果不慎误用指针,这些指针很 ...
2018-2019-2 实验二 Java面向对象程序设计
实验内容 1.初步掌握单元测试和TDD 2.理解并掌握面向对象三要素:封装.继承.多态 3.初步掌握UML建模 4.熟悉S.O.L.I.D原则 5.了解设计模式实验要求 1.没有Linux基础的同学 ...
i-83.net quadhost子产品
i-83.net 6$一年, 首年半价, 优惠码: APR19-NAT50 加拿大 ---------------------------------------------------------- ...
在Synology群晖上运行Frp客户端
一.Synology群晖上开启SSH 二.使用Putty连接 1,登陆管理员账户和密码 2,连接成功后输入sudo su - 输入管理员的密码切换到root权限下载:wget https://git ...
centos配置epel和remi源
来源:https://blog.csdn.net/zhang197093/article/details/52057898 CentOS 内置的yum命令安装非常的简单实用,能自动帮助我们解决依赖,但 ...
Python：python抓取豆瓣电影top250
一直对爬虫感兴趣,学了python后正好看到某篇关于爬取的文章,就心血来潮实战一把吧. 实现目标:抓取豆瓣电影top250,并输出到文件中 1.找到对应的url:https://movie.douba ...
renren-fast
一开始不成功的,多半是粗心或者对这个框架不熟悉造成的. //=============== 代码生成器中这个要填好我用了默认,但是我把它放到了 renren-fast\src\main\java\i ...
webpack : 无法将“webpack”项识别为 cmdlet、函数、脚本文件或可运行程序的名称
全局安装webpack npm install -g webpack 把node_global加入到环境变量
elk的备份与恢复【转】
elasticsearch提供了快照功能: 1.在elsticsearch的配置文件中定义一个path.repo路径配置 path.repo: ["/elk/my_backup"] ...
JUC--闭锁 CountDownLatch
CountDownLatch是一个同步辅助类,在完成一组正在其他线程中执行的操作之前,允许一个或者多个线程一直等待. 闭锁可以延迟线程的进度直到其到达终止状态,可以确保某些活动知道其他活动都完成才继续 ...

爬虫之图片懒加载技术及js加密

图片懒加载

案例：

爬虫之图片懒加载技术及js加密的更多相关文章

随机推荐

热门专题