58 字体反爬攻略 python3】的更多相关文章

1.下载安装包 pip install fontTools 2.下载查看工具FontCreator 百度后一路傻瓜式安装即可 3.反爬虫机制 网页上看见的 后台源代码里面的 从上面可以看出,生这个字变成了乱码,请大家特别注意箭头所指的数字. 3.解决 1.确定反爬方法 在看了别人的解析文章之后,确定采取的是字体反爬机制,即网站定义了字体文件,然后进行相应的查找替换,在前端看起来,是没有任何差异的.其实从审查元素的也是可以看到的: 和大众点评的反爬差不多,都是通过css搞得. 2.寻找字体文件 以…
背景交代 在反爬圈子的一个大类,涉及的网站其实蛮多的,目前比较常被爬虫coder欺负的网站,猫眼影视,汽车之家,大众点评,58同城,天眼查......还是蛮多的,技术高手千千万,总有五花八门的反爬技术出现,对于爬虫coder来说,干!就完了,反正也996了~ 作为一个系列的文章,那免不了,依旧拿猫眼影视"学习"吧,为什么?因为它比较典型~ 猫眼影视 打开猫眼专业版,常规操作,谷歌浏览器,开发者工具,抓取DOM节点, https://piaofang.maoyan.com/?ver=no…
字体反爬,是一种利用 CSS 特性和浏览器渲染规则实现的反爬虫手段.其高明之处在于,就算借助(Selenium 套件.Puppeteer 和 Splash)等渲染工具也无法拿到真实的文字内容. 这种反爬虫手段通常被用来保护页面中的关键数据,例如影片票房.外卖平台的商家电话.汽车门户上的车型报价或者是电商平台上商品的属性和价格. 关于字体反爬虫的介绍.实现和原理可以参考书籍<Python3 反爬虫原理与绕过实战>,也可以通过搜索引擎查找资料,本篇文章不再赘述. 本篇文章要解决的问题,是如何让程序…
爬取一些网站的信息时,偶尔会碰到这样一种情况:网页浏览显示是正常的,用python爬取下来是乱码,F12用开发者模式查看网页源代码也是乱码.这种一般是网站设置了字体反爬 一.58同城 用谷歌浏览器打开58同城:https://sz.58.com/chuzu/,按F12用开发者模式查看网页源代码,可以看到有些房屋出租标题和月租是乱码,但是在网页上浏览却显示是正常的. 用python爬取下来也是乱码: 回到网页上,右键查看网页源代码,搜索font-face关键字,可以看到一大串用base64加密的字…
前段时间在看css反爬的时候,发现很多网站都做了css反爬,比如,设置字体反爬的(58同城租房版块,实习僧招聘https://www.shixiseng.com/等)设置雪碧图反爬的(自如租房http://gz.ziroom.com/). 还有一个网站本身是没有其他反爬措施的,只是设置了字体反爬,但是这个网站的反爬就有些扯淡,http://www.qiwen007.com/,我们随便点开一个文章,并打开开发者工具 其中的文字并不是像其他字体反爬一样,是将某些文字转为了Unicode显示在源码中的…
参考博客:http://www.cnblogs.com/eastonliu/p/9925652.html 实习僧招聘的网站采用了字体反爬,在页面上显示正常,查看源码关键信息乱码,如下图所示: 查看网页源码也是看不到关键信息: 查了一下是css3支持自定义字体,实习僧技术人员把一些字体换成了自定义的字体,浏览器上可以显示,后台就看不到了. 1.首先找到这些字体是在哪定义的. 右键查看网页源码,查找font-face,就会看到字体信息(加密的数据太多): 可以看到这些字体源是用了base64加密,用…
说说这个网站 汽车之家,反爬神一般的存在,字体反爬的鼻祖网站,这个网站的开发团队,一定擅长前端吧,2019年4月19日开始写这篇博客,不保证这个代码可以存活到月底,希望后来爬虫coder,继续和汽车之间对抗. CSDN上关于汽车之家的反爬文章千千万万了,但是爬虫就是这点有意思,这一刻写完,下一刻还能不能用就不知道了,所以可以一直不断有人写下去.希望今天的博客能帮你学会一个反爬技巧. 今天要爬去的网页 https://car.autohome.com.cn/config/series/59.htm…
字体反爬 字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网站都有采用这种反爬机制,我们通过猫眼的实际情况来解释一下. 下图的是猫眼网页上的显示: 检查元素看一下 这是什么鬼,关键信息全是乱码. 熟悉 CSS 的同学会知道,CSS 中有一个 @font-face,它允许网页开发者为其网页指定在线字体.原本是用来消除对用户电脑字体的依赖,现在有了新作用——反爬…
偶然间知道到了字体反爬这个东西, 所以决定了解一下. 目标:  https://maoyan.com/board/1 问题: 类似下图中的票房数字无法获取, 直接复制粘贴的话会显示 □ 等无法识别的字符, 且网页源码中该类数字均被 . 之类的字符串代替. 解决: 出现这种情况的原因是因为网页字体是在 CSS3 @font-face 规则中定义的, 我觉得这种字体就类似描点连线那种方式绘制出来的. 因为定义规则是动态随机获取的, 不能保证每次都是一个字体文件. 如下: 可以看到, 同一数…
字体反爬也就是自定义字体反爬,通过调用自定义的woff文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容! 1.思路 近期在爬取天眼查某公司详情页遇到了字体反爬,经过多次测试,终于解决了字体反爬 首先我们来看一下字体反爬 此图可以看出源代码数字跟页面显示的内容是不一样的,在调试器中看到它有一个类tyc-num 此图可以看出类tyc-num存放的是一个字体,通过network获取这个字体 此图可以看出正常的字体数字是123456…
前几天跟同事聊到最近在看什么小说,想起之前看过一篇文章说的是网络十大水文,就想把起点上的小说信息爬一下,搞点可视化数据看看.这段时间正在看爬虫框架-pyspider,觉得这种网站用框架还是很方便的,所以今天就给大家带来这篇---起点中文网小说爬取.可视化我们放到下一集. 安装使用 安装和基本使用请查看pyspider中文文档,我们这篇主要不是介绍pyspider哦.Mac安装的过程中出现了一些问题,请看Mac安装pycurl失败,装好以后使用pyspider all启动.然后打开浏览器输入:ht…
一.什么是字体反爬? 字体反爬就是将关键性数据对应于其他Unicode编码,浏览器使用该页面自带的字体文件加载关键性数据,正常显示,而当我们将数据进行复制粘贴.爬取操作时,使用的还是标准的Unicode字符映射,解析后就是干扰性数据,以猫眼电影为例: 上图表明,浏览器正常渲染的数据在调试界面显示为错误的数据,即使我们复制粘贴也是这样(猜测复制粘贴的是Unicode编码)显示,这样就起到了反爬的效果. 二.解决方案 1.找到对应的字体文件 点击箭头指向的css文件 箭头指向的链接就是我们要寻找的字…
实战-快手H5字体反爬 前言 快手H5端的粉丝数是字体反爬,抓到的html文本是乱码 <SPAN STYLE='FONT-FAMILY: kwaiFont;'></SPAN> 可以看到对应的字体格式为 kwaiFont. 经过一顿分析操作,发现每次返回的ttf文件内容每次都不太一样,无法自己做一份映射模板, 那么就不做模板了.可以通过OCR 或者 KNN 进行内容识别.本人采用 OCR 方式进行识别.这里推荐一个很吊的 OCR 库 ddddocr. 流程分析 找到对应t…
这个验证码很恶心,手速非常快才能通过.. 地址:http://www.dianping.com/shop/9964442 检查一下看到好多字没有了,替代的是<x class="xxx"></x>这种标签 ctrl+右键点style里第一行,定位到元素在css里的位置 打开url找到了文字 下面讲SVG  svg可缩放矢量图形基于可扩展标记语言,是用代码画矢量图的,如图  svg也可以写入文本如下图,xy是相对于svg标签的坐标,默认单位px textPath 该…
目标地址:http://glidedsky.com/level/web/crawler-font-puzzle-1 打开google调试工具检查发现网页上和源码之中的数字不一样, 已经确认该题目为 字体反扒 直接进入正题: 获取字体文件: 1丶直接找到数字节点属性:style 的 font-family 的值:glided_sky,在源码中找到 引入的的字体文件 并保存下来到本地 2丶该字体文件通过base64编码保存的 直接请求 将编码的值 和 节点中的数字内容 获取到 (获取的方式自己选择合…
爬虫与反爬虫的修罗场 哪种平台最吸引爬虫爱好者,当然是社区类的,那里容易产生原生态,高质量的数据啊, 你看微博,知乎,豆瓣爬的不亦乐乎. 评论也是产生内容的好地方 生活类点评网站 旅游类点评网站 音乐类点评 只要有点评的地方,总有成千上万的爬虫趴着. 这些都是爬虫与反爬虫的修罗场,他不想叫你爬,你越想爬 对他是核心数据,对你也是核心数据 今天要分析的网站 今天我们弄一下大众点评 学习阶段,我们要抱着学习的目的 重点是思路,做爬虫就不要想着一劳永逸了 方法公开,人家就换了 知识是你自己的,学到了,…
我们都知道网络上的爬虫非常多,有对网站收录有益的,比如百度蜘蛛(Baiduspider),也有不但不遵守robots 规则对服务器造成压力,还不能为网站带来流量的无用爬虫,比如宜搜蜘蛛(YisouSpider)(最新补充:宜搜蜘蛛已被UC神马搜索收购!所以本文已去掉宜搜蜘蛛的禁封! ==> 相关文章 ).最近张戈发现nginx日志中出现了好多宜搜等垃圾的抓取记录,于是整理收集了网络上各种禁止垃圾蜘蛛爬站的方法,在给自己网做设置的同时,也给各位站长提供参考. 一.Apache ①.通过修改.hta…
内容选自 即将出版 的<Python3 反爬虫原理与绕过实战>,本次公开书稿范围为第 6 章——文本混淆反爬虫.本篇为第 6 章中的第 4 小节,其余小节将 逐步放送 . 字体反爬虫开篇概述 在 CSS3 之前,Web 开发者必须使用用户计算机上已有的字体.但是在 CSS3 时代,开发者可以使用@font-face 为网页指定字体,对用户计算机字体的依赖.开发者可将心仪的字体文件放在 Web 服务器上,并在 CSS 样式中使用它.用户使用浏览器访问 Web 应用时,对应的字体会被浏览器下载到用…
字体反爬虫开篇概述 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!QQ群:1097524789 在 CSS3 之前,Web 开发者必须使用用户计算机上已有的字体.但是在 CSS3 时代,开发者可以使用@font-face 为网页指定字体,对用户计算机字体的依赖.开发者可将心仪的字体文件放…
目录 利用字体 反爬原理 应对措施 难点: 利用背景 反爬原理 应对措施 利用伪类 反爬原理 应对措施 利用元素定位 反爬原理 应对措施 利用字符切割 反爬原理 应对措施 利用字体 反爬原理 反爬原理: 1.主要利用font-family属性,例如设置为my-font 2.在HTML里面不常见(不可读)的unicode 3.在CSS字体(my-font)中将其映射到常见(可读)到字体,例如数字 4.爬虫在抓取数据的时候只能抓到unicode,而不是真实的数据 应对措施 1.下载woff字体文件,…
站长资讯平台:python3爬虫系列19之随机User-Agent 和ip代理池的使用我们前面几篇讲了爬虫增速多进程,进程池的用法之类的,爬虫速度加快呢,也会带来一些坏事. 1. 前言比如随着我们爬虫的速度越来越快,很多时候,有人发现,数据爬不了啦,打印出来一看. 不返回数据,而且还甩一句话 是不是很熟悉啊? 要想想看,人是怎么访问网站的? 发请求,对,那么就会带有 request.headers, 那么当你疯狂请求别人的网站时候,人家网站的管理人员就会 觉得有点不对劲了, 他看看请求的 hea…
一.页面分析 首先打开猫眼电影,然后点击一个正在热播的电影(比如:毒液).打开开发者工具,点击左上角的箭头,然后用鼠标点击网页上的票价,可以看到源码中显示的不是数字,而是某些根本看不懂的字符,这是因为使用了font-face定义字符集,并通过unicode去映射展示,所以我们在网页上看到的是数字,但是在源码中看到的却是别的字符. 碰到这些根本看不懂的字符怎么办呢?不慌,右键选择查看网页源代码,然后找到相应的位置(如下图).那么是不是“”映射出来就是28呢? 通过查看源码,可以找到如下内容,…
上文解决了起点中文网部分数字反爬的信息,详细链接https://www.cnblogs.com/aby321/p/10214123.html 本文研究另一种文字反爬的机制——猫眼电影实时票房反爬 虽然都是仅仅在“数字”上设置了反爬,相同点与不同点如下: 相同点: 在“数字”上设置了文字反爬通过浏览器的“检查”显示的是“□”,但是可以在网页源代码中找到映射后的数字正则爬的是网页源代码,xpath是默认utf-8解析网页数据,用xpath爬出来的也是方框,因此只能使用正则匹配爬取关键数字信息 不同点…
起点中文网,在“数字”上设置了文字反爬,使用了自定义的文字文件ttf通过浏览器的“检查”显示的是“□”,但是可以在网页源代码中找到映射后的数字正则爬的是网页源代码,xpath是默认utf-8解析网页数据,用xpath爬出来的也是方框,因此只能使用正则匹配爬取关键数字信息 本例以小说<斗罗大陆>为例 https://book.qidian.com/info/1115277,爬取阅读量等数字信息 爬取思路:1. 使用正则匹配爬取出网页源代码中的被设置反爬的数字信息(这里只能使用正则匹配)2. 寻找…
前言 如果再说IP请求次数检测.验证码这种最常见的反爬虫技术,可能大家听得耳朵都出茧子了.当然,也有的同学写了了几天的爬虫,觉得爬虫太简单.没有啥挑战性.所以特地找了三个有一定难度的网站,希望可以有兴趣的手动实践一下. 此篇文章只作知识扩展和思路引导,其中涉及的网站反爬技术,仅做技术学习探讨. 字体加密 字体加密总结成一句话:你看到的不是你看到的. 地址 猫眼电影:https://maoyan.com/films/343568 问题还原 最近的哥斯拉大战金刚看了没啊,好看不,评分高不高,票房多少…
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_132 最近疫情比较严重,很多公司依靠阿里旗下的办公软件钉钉来进行远程办公,当然了,钉钉这个产品真的是让人一言难尽,要多难用有多难用,真的让人觉得阿里的pm都是脑残才会设计出这种脑残产品,不过吐槽归吐槽,该用还得用,虽然钉钉别的功能很鸡肋,但是机器人这个功能还是让人眼前一亮,属于比较极客的功能,它可以将第三方服务的信息聚合到钉钉群中,实现信息的自动化同步,例如:通过聚合Github.Gitlab等源码管理服务,实现源码更新同步:…
本次爬虫的爬取目标是大众点评上的一些店铺的店铺名称.推荐菜和评分信息. 一.页面分析 进入大众点评,然后选择美食(http://www.dianping.com/wuhan/ch10),可以看到一页有15家店铺,而除了店铺的名称,还能看到店铺的地址.推荐菜.评分等信息,看起来都没什么问题. 打开开发者工具,然后选择查看一下评分,就发现事情没那么简单了(如下图).这些评分的数字去哪儿了呢? 其实这些数字是SVG矢量图,SVG矢量图是基于可扩展标记语言,用于描述二维矢量图形的一种图形格式,通过使用不…
一.前言简介 在现在各个网站使用的反爬措施中,使用 JavaScript 加密算是很常用的了,通常会使用 JavaScript 加密某个参数,例如 token 或者 sign.在这次的例子中,就采取了这种措施来反爬,使用 JavaScript 加密了一个参数 antitoken,而本篇博客要写的就是如何应对和解决的. 二.站点分析 本次爬取的站点链接为:https://www.ly.com/hotel/beijing53/?spm0=10002.2001.1.0.1.4.17. 等页面加载完毕后…
╓─╥───────────────────────────────────────────────────╥─╖ ║ ║ 超 時 空 英 雄 傳 說 2 ║ ║ ║ ║ --復 仇 魔 神-- ║ ║ ║ ║ 完全攻略 & 密技 ║ ║ ╟─╨───────────────────────────────────────────────────╨─╢ ║ 撰作:杜勝利 e-mail:s6969071@ms11.hinet.net ║ ╙─────────────────────────────…
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_160 众神殿内,依次坐着Editplus.Atom.Sublime.Vscode.JetBrains家族.Comodo等等一众编辑器界的大佬们,偌大的殿堂内几无立锥之地,然而在殿内的金漆雕龙宝座上,端坐着一位睥睨众生的王者,那就是被称之为编辑器之神的Vim,作为一个有着30余年历史的老牌神器,没有任何编辑器可以和它媲美,其时江湖有云:神编Vim不会玩,纵称大神也枉然.Vim在 1976 年发布,奉行 Unix 传统的"Do o…