地址:http://www.dianping.com/shop/9964442

好多字没了,替代的是<x class="xxx"></x>这种css标签

定位到位置

找到文字

 SVG

 svg可以写字,xy是相对svg标签的坐标,单位px

textPath

xlink:href标记文字路径,就是文字排列方向,文字按方向对齐

<path id="my_path" d="M 20,20 C 40,40 80,40 100,20" fill="transparent" />
<text>
<textPath xlink:href="#my_path">This text follows a curve.</textPath>
</text>

d内的参数:

M = moveto

L = lineto


H = horizontal lineto


V = vertical lineto


C = curveto


S = smooth curveto


Q = quadratic Bézier curve


T = smooth quadratic Bézier curveto


A = elliptical Arc


Z = closepath

用了M和H,M是xy坐标,H是水平线表示文字方向水平方向。

参考:https://cloud.tencent.com/developer/section/1423872

1.找css

2.找svg

3.得到css的坐标,在svg里找到字

4.用字替换标签

代码:

headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"}
r=requests.get("http://www.dianping.com/shop/9964442",headers=headers)
css_url="http:"+re.findall('href="(//s3plus.meituan.net.*?svgtextcss.*?.css)',r.text)[0]
css_cont=requests.get(css_url,headers=headers)

得到css

svg_url=re.findall('class\^="(\w+)".*?(//s3plus.*?\.svg)',css_cont.text)
s_parser=[]
for c,u in svg_url:
f,w=svg_parser("http:"+u)
s_parser.append({"code":c,"font":f,"fw":w})

得到svg

解析svg结果

def svg_parser(url):
r=requests.get(url,headers=headers)
font=re.findall('" y="(\d+)">(\w+)</text>',r.text,re.M)
if not font:
font=[]
z=re.findall('" textLength.*?(\w+)</textPath>',r.text,re.M)
y=re.findall('id="\d+" d="\w+\s(\d+)\s\w+"',r.text,re.M)
for a,b in zip(y,z):
font.append((a,b))
width=re.findall("font-size:(\d+)px",r.text)[0]
new_font=[]
for i in font:
new_font.append((int(i[0]),i[1]))
return new_font,int(width)

结果里有些字没解析出来,发现有两种文字形式

一种带路径的textPath,行数y在d=“xx”的M里

另一种text,行数在text标签里y的值,需要分别处理

返回一个元组包含y的参考值和字体内容,fw是字体宽度

 

css_list = re.findall('(\w+){background:.*?(\d+).*?px.*?(\d+).*?px;', '\n'.join(css_cont.text.split('}')))
css_list = [(i[0],int(i[1]),int(i[2])) for i in css_list]

从css找到所有坐标

def font_parser(ft):
for i in s_parser:
if i["code"] in ft[0]:
font=sorted(i["font"])
if ft[2] < int(font[0][0]):
x=int(ft[1]/i["fw"])
return font[0][1][x]
for j in range(len(font)):
if (j+1) in range(len(font)):
if(ft[2]>=int(font[j][0]) and ft[2]< int(font[j+1][0])):
x=int(ft[1]/i["fw"])
return font[j+1][1][x]

根据class坐标在svg找到具体文字

y是文字所在行数,x字体宽度

replace_dic=[]
for i in css_list:
replace_dic.append({"code":i[0],"word":font_parser(i)})

根据坐标,找到映射关系

rep=r.text
for i in range(len(replace_dic)):
if replace_dic[i]["code"] in rep:
a=re.findall(f'<\w+\sclass="{replace_dic[i]["code"]}"><\/\w+>',rep)[0]
rep=rep.replace(a,replace_dic[i]["word"])

<x class="xxx"></x>标签全局替换

shop=[]
shop_name=tree.xpath('//h1[@class="shop-name"]//text()')[0]
reviewCount=tree.xpath('//span[@id="reviewCount"]//text()')[0]
avgPriceTitle=tree.xpath('//span[@id="avgPriceTitle"]//text()')[0]
comment_score=tree.xpath('//span[@id="comment_score"]//text()')
comment_score=[i for i in comment_score if i!=" "]
addr=tree.xpath('//span[@itemprop="street-address"]/text()')[0]
phone=tree.xpath('//p[@class="expand-info tel"]//text()')
phone=phone[1]+phone[2]
review=[]
for li in lis:
name=li.xpath('.//a[@class="name"]/text()')[0]
comment=li.xpath('.//p[@class="desc"]/text()')[0]
review.append({"name":name,"comment":comment})
shop.append({
"shop_name":shop_name,
"reviewCount":reviewCount,
"avgPriceTitle":avgPriceTitle,"addr":addr,
"phone":phone,
"review":review
})

替换后店名评论数评论评分电话地址等结果

用的库

后来发现不只使用一种反爬,还有自定义字体

字体反爬--css+svg反爬的更多相关文章

  1. 记一次svg反爬学习

    网址:http://www.porters.vip/confusion/food.html 打开开发者工具后 页面源码并不是真实的数字,随便点一个d标签查看其样式 我们需要找到两个文件,food.cs ...

  2. python爬虫---详解爬虫分类,HTTP和HTTPS的区别,证书加密,反爬机制和反反爬策略,requests模块的使用,常见的问题

    python爬虫---详解爬虫分类,HTTP和HTTPS的区别,证书加密,反爬机制和反反爬策略,requests模块的使用,常见的问题 一丶爬虫概述       通过编写程序'模拟浏览器'上网,然后通 ...

  3. 常见的反爬措施:UA反爬和Cookie反爬

    摘要:为了屏蔽这些垃圾流量,或者为了降低自己服务器压力,避免被爬虫程序影响到正常人类的使用,开发者会研究各种各样的手段,去反爬虫. 本文分享自华为云社区<Python爬虫反爬,你应该从这篇博客开 ...

  4. 如何制作图标字体(如何将svg转换为css可用的图标字体)

    转自: 如何制作图标字体(如何将svg转换为css可用的图标字体) 具体描述 在项目开发当中,我们常常遇到需要将获取到的svg转换为,css可用的图标字体,那么具体该如何进行操作呢 具体操作 登录ic ...

  5. 爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider)

    爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider),这之间的斗争恢宏壮阔... Day 1小莫想要某站上所有的电影,写了标准的爬虫(基于HttpCli ...

  6. (转)unity3D 如何提取游戏资源 (反编译)+代码反编译

    原帖:http://bbs.9ria.com/thread-401140-1-1.html 首先感谢 雨松MOMO 的一篇帖子 教我们怎么提取 .ipa 中的游戏资源.教我们初步的破解unity3d资 ...

  7. Android反编译(二)之反编译XML资源文件

    Android反编译(二) 之反编译XML资源文件 [目录] 1.工具 2.反编译步骤 3.重新编译APK 4.实例 5.装X技巧 6.学习总结 1.工具 1).反编译工具  apktool http ...

  8. Android反编译(一)之反编译JAVA源码

    Android反编译(一) 之反编译JAVA源码 [目录] 1.工具 2.反编译步骤 3.实例 4.装X技巧 1.工具 1).dex反编译JAR工具  dex2jar   http://code.go ...

  9. 转 谈谈android反编译和防止反编译的方法

    谈谈android反编译和防止反编译的方法   android基于java的,而java反编译工具很强悍,所以对正常apk应用程序基本上可以做到100%反编译还原. 因此开发人员如果不准备开源自己的项 ...

随机推荐

  1. android判断密码首字母大写正则表达式

    判断首字母大写"[A-Z]\\w+" \\w所有字符 \\d所有数字

  2. 【repost】 JS变量重复声明以及忽略var 声明的问题及其背后的原理

    JS的容错率很高,一些其他语言常见的小错误JS都能大度得包容,比如给一个方法传入超出预计的参数.在声明变量之前使用该变量(变量的声明提升解决了这个问题)等等,这里我们就要解剖一下JS变量重复声明以及当 ...

  3. linux sshd 登录不需要密码

    ssh 安全外壳协议 协议22 linux 默认放行了 22 号接口 ssh 默认安装 自行安装 应该是 openssh-server ssh命令是 openssh ssh-keygen 生成密钥 生 ...

  4. C++11常用特性的使用经验总结

    转自:http://www.cnblogs.com/feng-sc C++11已经出来很久了,网上也早有很多优秀的C++11新特性的总结文章,在编写本博客之前,博主在工作和学习中学到的关于C++11方 ...

  5. HTML标签的绝对路径和相对路径

    我在javaweb中写json的Demo的时候遇到了这个问题,图片一一直取不出来,查了好久终于解决了,所以现在记录一下. 绝对路径: 其实很容易理解,如果你是一个普通的项目,那就是它在你电脑里真实存在 ...

  6. OC基础成员变量、属性变量、实例方法与类方法

    首先,为什么我们要定义一个新类呢?按照我的理解,就是为了抽象出来一个新的东西(也就是类),用来存储更多的数据变量和方法,一切类都直接或间接继承与NSObject. 在类的头文件里我们可以定义成员变量. ...

  7. 28.TreeSet

    与HashSet是基于HashMap实现一样,TreeSet同样是基于TreeMap实现的.在前一篇中详细讲解了TreeMap实现机制,如果客官详细看了这篇博文或者对TreeMap有比较详细的了解,那 ...

  8. Ajax获取Json多个集合并同时遍历

    Ajax获取Json多个集合并同时遍历: 方法一.:将多个集合放入MAP集合. 后台:Servlet @Override protected void doPost(HttpServletReques ...

  9. CentOS 5 常见的configure error的解决方法

    仅限于CentOS 5 configure: error: No curses/termcap library found 网上有的说法是: --with-named-curses-libs=/usr ...

  10. RPC知识

    说明:RPC框架的目标就是让远程服务调用更加简单.透明,RPC框架负责屏蔽底层的传输方式(TCP或UDP).序列化(XML/json/二进制)和通信细节.服务调用者可以像调用本地接口一样调用远程的服务 ...