利用字体

反爬原理

反爬原理：

1、主要利用font-family属性，例如设置为my-font

2、在HTML里面不常见（不可读）的unicode

3、在CSS字体（my-font）中将其映射到常见（可读）到字体，例如数字

4、爬虫在抓取数据的时候只能抓到unicode，而不是真实的数据

应对措施

1、下载woff字体文件，转化为tff文件

2、用百度字体编辑器打开tff文件，并确定其unicode与其实际的映射关系

3、将下载的HTML内容按照映射关系替换

4、解析HTML并获取正确的数据

难点：

有些网站会动态生成woff，这种反爬措施比较难以自动化绕开

利用背景

反爬原理

1、数据利用图片背景（雪碧图坐标）展示给用户，而不是直接文本展示

2、图片包含一张雪碧图，数据利用背景偏移量来获取（雪碧图坐标）

3、爬虫在抓取的时候看不到实际值，而只是图片

应对措施

1、下载雪碧图，手动检查数据对应的坐标值

2、找到数据对应的坐标值的映射关系

3、找到映射关系，转化为真实数据

利用伪类

反爬原理

1、不直接将内容展现到html的元素中

2、通过伪类的content属性将要展示的值展示出来

例如：鼠标悬浮的时候展示数据

应对措施

1、利用pyppeteer或者selenium这样的自动化测试工具

2、在页面上执行下面的JS代码，即可获取content

注意：before是伪类，也可能是after

JS代码：

const el = document.querySelector("类选择器")

const styles = getComputedStyle(el,'before')

console.log(styles.content)  # 打印数据值

利用元素定位

反爬原理

1、利用绝对定位，将数据用其他符号替换，偏移量

2、替换的符号随机的

3、如果直接抓取，将抓到错误的信息

应对措施

计算出替换的元素偏移量，与被替换的元素相对比，还原实际值

利用字符切割

反爬原理

1、将字符串用标签分割

2、由于是内联块级（inline-block）,可以一行展示

3、通常还混淆有不现实的标签（display:none）

应对措施

1、将内联块级标签的innerText拼接起来

2、注意过滤掉所有的display:none的属性

CSS常见反爬技术的更多相关文章

爬虫入门到放弃系列07：js混淆、eval加密、字体加密三大反爬技术
前言如果再说IP请求次数检测.验证码这种最常见的反爬虫技术,可能大家听得耳朵都出茧子了.当然,也有的同学写了了几天的爬虫,觉得爬虫太简单.没有啥挑战性.所以特地找了三个有一定难度的网站,希望可以有兴 ...
字体反爬--css+svg反爬
这个验证码很恶心,手速非常快才能通过.. 地址:http://www.dianping.com/shop/9964442 检查一下看到好多字没有了,替代的是<x class="xxx& ...
记一次css字体反爬
前段时间在看css反爬的时候,发现很多网站都做了css反爬,比如,设置字体反爬的(58同城租房版块,实习僧招聘https://www.shixiseng.com/等)设置雪碧图反爬的(自如租房http ...
Python | 常见的反爬及解决方法，值得收藏
我们都知道Python用来爬数据,为了不让自家的数据被别人随意的爬走,你知道怎么反爬吗?今天播妞带着大家一起见识见识常见的反爬技术. 很多人学习python,不知道从何学起.很多人学习python,掌 ...
Python爬虫入门教程 63-100 Python字体反爬之一，没办法，这个必须写，反爬第3篇
背景交代在反爬圈子的一个大类,涉及的网站其实蛮多的,目前比较常被爬虫coder欺负的网站,猫眼影视,汽车之家,大众点评,58同城,天眼查......还是蛮多的,技术高手千千万,总有五花八门的反爬技术 ...
python爬虫--爬虫与反爬
爬虫与反爬爬虫:自动获取网站数据的程序,关键是批量的获取. 反爬虫:使用技术手段防止爬虫程序的方法误伤:反爬技术将普通用户识别为爬虫,从而限制其访问,如果误伤过高,反爬效果再好也不能使用(例如封i ...
《C# 爬虫破境之道》：第二境爬虫应用 — 第六节：反爬策略研究
之前的章节也略有提及反爬策略,本节,我们就来系统的对反爬.反反爬的种种,做一个了结. 从防盗链说起: 自从论坛兴起的时候,网上就有很多人会在论坛里发布一些很棒的文章,与当下流行的“点赞”“分享”一样, ...
破解另一家网站的反爬机制 & HMAC 算法
零.写在前面本文涉及的反爬技术,仅供个人技术学习,禁止并做到: 干扰被访问网站的正常运行抓取受到法律保护的特定类型的数据或信息搜集到的数据禁止传播.交给第三方使用.或者牟利如有可能,在爬到数据 ...
python爬虫---详解爬虫分类,HTTP和HTTPS的区别,证书加密,反爬机制和反反爬策略,requests模块的使用,常见的问题
python爬虫---详解爬虫分类,HTTP和HTTPS的区别,证书加密,反爬机制和反反爬策略,requests模块的使用,常见的问题一丶爬虫概述通过编写程序'模拟浏览器'上网,然后通 ...

随机推荐

转载：MySQL万字总结篇
转载自:https://database.51cto.com/art/202001/609409.htm 开局一张图这张图是重点!!!咱要先对 MySQL 有一个宏观的了解,知道他的执行流程. 一条 ...
House of Orange
题目附件:https://github.com/ctfs/write-ups-2016/tree/master/hitcon-ctf-2016/pwn/house-of-orange-500 查看程序 ...
python基础格式化输出
格式化输出 '%s %d %.2f' % ('Novak', 33, 1.88) 需要逗号
LongAccumulator类的BUG——reset方法并不能保证初始值正确赋值
LongAccumulator.reset方法并不能重置重置LongAccumulator的identity:初始值正确,使其恢复原来的初始值.当初始值为0是不会发生这个问题,而当我们设置初始值如1时 ...
java 多线程-1
一.程序.进程.线程简介程序(program)是为完成特定任务.用某种语言编写的一组指令的集合.即指一段静态的代码,静态对象进程(process)是程序的一次执行过程,或是正在运行的一个程序.是一 ...
windows和linux开启防火墙时允许特定IP和端口
windows 1.进入高级安全Windows Defender防火墙,新建规则中选择自定义 2.直接下一步 3.设置协议类型.本地端口选择和端口号 4.设置允许哪些IP访问这个端口,不设置则默认任何 ...
想写一篇jvm的工具入门
为什么要写一个jvm的工具入门呢,一是自己也不会,二是因为不会所以想学一下,还有就是这个确实很重要,对学习jvm有很多的用处,对定位问题有很大的便利,以前毕业那会我记得有个笔试,知道JAVA_HOME ...
Node.js使用npm安装模块太慢，解决办法
转自淘宝 npm 地址: http://npm.taobao.org/ 如何使用有很多方法来配置npm的registry地址,下面根据不同情境列出几种比较常用的方法.以淘宝npm镜像举例: 1.临 ...
TS数据类型：类型别名/联合类型/字面量类型/类型推论等纲要
在学C/C++ Java等强类型语言时,变量类型是唯一的,需要先指定.PHP JavaScript等弱类型语言时,无需指定变量类型但是,TypeScript里面的联合类型 (Union Type) ...
6.Kafka消息流处理

CSS常见反爬技术

利用字体

反爬原理

应对措施

难点：

利用背景

反爬原理

应对措施

利用伪类

反爬原理

应对措施

利用元素定位

反爬原理

应对措施

利用字符切割

反爬原理

应对措施

CSS常见反爬技术的更多相关文章

随机推荐

热门专题