学习Python3 天眼查爬虫

刚开始学习Python，不愿意看基础，记忆不好，那些语法记不住，直接上个项目，这样比较深刻

刚好公司有个情况要查企业的信息，就想做个爬虫吧，有验证码的不愿意搞，那是个老大难问题，就选择了天眼查

过程都略了，直接写个结果吧，总结出来的步骤如下：

一、天眼查最大的障碍在于字体问题，这个网上都有介绍，大概意思就是说，在网页显示出来的某些字符，是天眼查自己的字体文件处理的。

比如汉字坐的utf-8的编码是 b'\\u5750' ，但在天眼查的字体文件里，这个编码对应的汉字是万。

这样在页面上某些地方肉眼看到的比如 2500万元，但实际通过标准编码得到的是 2500坐元。其实还有数字，也全部是打乱的。

这样爬到的结果就是后面那个了，这不是我想要的。

二、该字体文件，每天都变，没有固定的，这样想通过做个编码对应表的方法也被否决了。

三、只能一步一步来了，先把该字体文件下载下来，然后通过 fontTools 来操作字体文件，我通过转成xml文件，结合fontCreator，看了一下字体文件的结构，大概知道是怎么回事了

from fontTools.ttLib import TTFont

font1 = TTFont('D:/Temp/num4.woff')

font1.saveXML('D:/Temp/font4.xml')

四、把字体结构弄清楚之后，把里面所有的编码，结合该字体，生成位图。

import os

import PIL.Image, PIL.ImageFont, PIL.ImageDraw

image=PIL.Image

ImageDraw=PIL.ImageDraw

ImageFont=PIL.ImageFont

text = u"坐" 

im = image.new("RGB", (300, 50), (255, 255, 255))

dr = ImageDraw.Draw(im)

font = ImageFont.truetype(os.path.join("fonts", "d:/temp/num4.woff"), 14)

dr.text((10, 5), text, font=font, fill="#000000")

im.show()

im.save("d:/temp/t.png")
#因为我只是学习，所以并没有写完整代码，以上代码只是用来结合字体生成图片的示例

五、把字体文件中涉及到的字按顺序生成的图片，通过OCR识别成字，这个我前面的文章就是专门有写ocr的，识别率100%

六、得到的结果应该是这样的

七、最后通过抓取的结果，然后转成对应的编码，即可得到想要的结果了

八、其它，用fonttools直接获取字体相关的数据如下代码

from fontTools.ttLib import TTFont

font1 = TTFont('D:/Temp/num3.woff')

cmap=font1['cmap']

cdict=cmap.getBestCmap()

acs=ord('')

print (acs)

print(cdict)

# print(cdict[31532])

# glyf=list(font1['glyf'].keys())

# print(glyf)

# bfd=glyf.index('_#58')

# print(bfd)

学习Python3 天眼查爬虫的更多相关文章

直接请求json文件爬取天眼查企业信息（未解决验证码问题）——python3实现
几个月前...省略一堆剧情...直接请求json文件爬取企业信息未成功,在知乎提问后,得到解决,有大佬说带上全部headers和cookie是可以的,我就又去试了下,果然可以(之前自己试的时候不行,没 ...
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容 Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖 ...
python3.4学习笔记(十三) 网络爬虫实例代码，使用pyspider抓取多牛投资吧里面的文章信息，抓取政府网新闻内容
python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI,采用Python语言编写 ...
python+selenium+xpath 爬取天眼查工商基本信息
# -*- coding:utf-8 -*-# author: kevin# CreateTime: 2018/8/16# software-version: python 3.7 import ti ...
XPath2Doc，一个半自动采集网页生成Word Docx文件的工具，带企查查和天眼查模板
原始出处:https://www.cnblogs.com/Charltsing/p/XPath2Doc.html 很多人需要从网站采集一些数据填写Word模板,手工操作费时费力还容易出错,所以我给朋友 ...
Python学习 —— 实现简单的爬虫
为了加快学习python3.x,查了许多资料后写了这个脚本,这个脚本主要是爬取百度图片'东方幻想乡'的图片,但还是有很多问题存在. 下面给出代码: # 更新了一下代码 from urllib impo ...
Python爬虫学习：三、爬虫的基本操作流程
本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:三.爬虫的基本操作与流程一般我们使用Python爬虫都是希望实现一套完整的功能,如下: 1.爬虫目标数据.信息: 2.将 ...
Python爬虫学习：二、爬虫的初步尝试
我使用的编辑器是IDLE,版本为Python2.7.11,Windows平台. 本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:二.爬虫的初步尝试 1.尝试抓取指定网页 ...
从零开始学习PYTHON3讲义(一)认识Python
课程名称从零开始PYTHON3 课程长度 15讲适用年龄 15-20岁(初三-大一) 本讲名称认识Python 时长 90分钟教学内容分析 Python是时下最流行的计算机编程语言之一.本课程 ...

随机推荐

移动端弹出层加遮罩后禁止body滑动
//实现滚动条无法滚动 var mo=function(e){e.preventDefault();}; /***禁止滑动***/ function stop(){ document.body.sty ...
基于Zynq的GNULinux在线编译调试记录
--20171228 1.实验环境硬件环境:联想ThinkPad E430(内存加到10G).显示屏×2.VGA线×1.HDMI线×1 .鼠标×2.键盘×1.USB分线器×1.ZedBoard开发板 ...
git怎么fork一个仓库并pull request
一.使用git push <-----------就是这个玩意 1.设置用户信息当安装完 Git 应该做的第一件事就是设置你的用户名称与邮件地址. 这样做很重要,因为每一个 Git 的提交都会 ...
深入理解java虚拟机《一》
一.java发展史 1995.5.23 Oak语言改名为java,sun正式发布java 1.0版本 1996.1.23 JDK 1.0发布,java语言第一个正式版本运行环境主要包括:java虚拟 ...
jasperreports+IReport 5.56,集成到Spring MVC4.0案例
首先,先说一下需求,项目需要打印一些报表,也没多想,直接就在jsp页面设置了样式,前台直接调用window.print()写了打印功能,但是例会的时候,领导提出需要一些比较麻烦的打印,自己写肯定费时间 ...
iOS原生和 react native视图混编
在iOS原生功能中加入RN,请看之前写的 RN与iOS交互系列文章.本篇只讲下视图混编. 关键点只有二: 1.通过 RCTRootView 加载RN视图. 2.RN中,只需要AppRegistry. ...
SpringBoot+POI报表批量导出
由于servletResponse 获取的输出流对象在一次请求中只能输出一次,所以要想实现批量导出报表,需要将excel文件打包成zip格式然后输出. 好了,废话不多说,上代码. 1. 首先,需要导入 ...
MySQL 相关记录
删除courseID_tr之前: 新建之后: show create trigger: 下面是mysql-5.7.21-win64解压目录下的my.ini文件中的内容 [client] default ...
zabbix AGENTS 在WINDOWS的安装
1.下载 https://assets.zabbix.com/downloads/3.4.0/zabbix_agents_3.4.0.win.zip 解压 zabbix_agents_3.4.0.wi ...
AVL Tree Insertion
Overview AVL tree is a special binary search tree, by definition, any node, its left tree height and ...

学习Python3 天眼查 爬虫

学习Python3 天眼查 爬虫的更多相关文章

随机推荐

热门专题

学习Python3 天眼查爬虫

学习Python3 天眼查爬虫的更多相关文章