爬虫最新的库requests-html库总结
requests-html是比较新的爬虫库,作者和requests是同一个作者
一.安装依赖
pip install requests-html
我们可以在安装的时候看到他安装了lxml,reuqests,bs4......我们常用的解析和爬取的库都分装在他里面
二. 发起请求
from requests_html import HTMLSession
session = HTMLSession()
#用法和requests.session实例化的对象用法一模一样,也会自动保存返回信息
#相比reuqests,他多了对于response.html这个属性
注意点:发默认发送的的是无头浏览器,且他如果用render调用浏览器内核
1.解决无头浏览器(针对反爬,如果没有做反爬无所谓)
修改源码
ctrl左键进入
HTMLSession我们可以看到他是继承
BaseSessionctrl左键进入
BaseSession原来的源码class BaseSession(requests.Session):
def __init__(self, mock_browser : bool = True, verify : bool = True,
browser_args : list = ['--no-sandbox']):
super().__init__()
if mock_browser:
self.headers['User-Agent'] = user_agent() self.hooks['response'].append(self.response_hook)
self.verify = verify self.__browser_args = browser_args
self.__headless = headless #中间没用的省略掉不是删掉
@property
async def browser(self):
if not hasattr(self, "_browser"):
self._browser = await pyppeteer.launch(ignoreHTTPSErrors=not(self.verify), headless=True, args=self.__browser_args) return self._browser
修改后的源码class BaseSession(requests.Session):
""" A consumable session, for cookie persistence and connection pooling,
amongst other things.
""" def __init__(self, mock_browser : bool = True, verify : bool = True,
browser_args : list = ['--no-sandbox'],headless=False): #如果你设置成True他就是无头,且你再运行render时候不会弹出浏览器
super().__init__() # Mock a web browser's user agent.
if mock_browser:
self.headers['User-Agent'] = user_agent() self.hooks['response'].append(self.response_hook)
self.verify = verify self.__browser_args = browser_args
self.__headless = headless
#中间没用的省略掉不是删掉
@property
async def browser(self):
if not hasattr(self, "_browser"):
self._browser = await pyppeteer.launch(ignoreHTTPSErrors=not(self.verify), headless=self.__headless, args=self.__browser_args) return self._browser
其实我就做了个处理方便传一个headless进去
对于session重新设置
from requests_html import HTMLSession
session = HTMLSession(
browser_args=['--no-sand',
'--user-agent='xxxxx'
]
)
#这样你就可以直接定义他是什么浏览器发送请求啦
2.解决浏览器内核(针对反爬,如果没有做反爬无所谓)
#利用模块进行js注入
from requests_html import HTMLSession
session =HTMLSession(.....)
response = session.get('https://www.baidu.com')
script='''
()=>{
Object.defineProperties(navigator,{
webdriver:{
get: () => undefined
}
})}'''
print(response.html.render(script=script))
三.response.html相关属性
这里的response对象是
from requests_html import HTMLSession
session =HTMLSession()
response = session.get('https://www.baidu.com')
#为了大家好理解就这个response
1.absolute_links
所有的路径都会转成绝对路径返回
2.links
返还路径原样
3.base_url
.base标签里的路径,如果没有base标签,就是当前url
4.html
返回字符串字符串内包含有标签
5.text
返回字符串字符串内不包含有标签爬取什么小说新闻之类的超级好用!
6.encoding
解码格式,注意这里是response.html的encoding,你如果只只设置了response.encoding对这个encoding毫无影响
7.raw_html
相当于r.content返回二进制
8.pq
返回PyQuery对象,个人不怎么用这个库所有不写结论
四.response.html相关方法
下面response对象我就简写成 r了
1.find
用css选择器找对象
获取全部
语法:r.html.find('css选择器')
返回值:[element对象1,。。。。。] 是个列表
只获取第一个
语法`:r.html.find('css选择器',first = True)
返回值:element对象
2.xpath
用xpath选择器找对象
获取全部
语法:r.html.xpath('xpath选择器')
返回值:[Element对象1,。。。。。] 是列表
只获取第一个
语法`:r.html.xpath('xpath选择器',first = True)
返回值:Element对象
3.search(只获取第一个)
类似用正则匹配,就是把正则里面的(.*?)变成{}
语法:r.html.search(‘模板’)
模板一:('xx{}xxx{}')
获取:获取第一个:r.html.search(‘模板’)[0]其他以此类推
模板二:(‘xxx{name}yyy{pwd}’)
获取:获取第一个:r.html.search(‘模板’)['name']其他以此类推
4.search_all(获取全部)
用法和search一样
返回值: 【result对象,result对象,】
5.render(这个我后续单独写一个总结内容有点多)
他其实就是封装了pyppeteer你如果不了解pyppeteer,那可以想想Selenium就是模拟浏览器访问
五.Element对象方法及属性
- absolute_links:绝对url
- links:相对url
- text:只显示文本
- html:标签也会显示
- attrs:属性
- find('css选择器')
- xpath('xapth路径')
- .search('模板')
- .search_all('模板')
爬虫最新的库requests-html库总结的更多相关文章
- 爬虫入门系列(二):优雅的HTTP库requests
在系列文章的第一篇中介绍了 HTTP 协议,Python 提供了很多模块来基于 HTTP 协议的网络编程,urllib.urllib2.urllib3.httplib.httplib2,都是和 HTT ...
- 【网络爬虫入门02】HTTP客户端库Requests的基本原理与基础应用
[网络爬虫入门02]HTTP客户端库Requests的基本原理与基础应用 广东职业技术学院 欧浩源 1.引言 实现网络爬虫的第一步就是要建立网络连接并向服务器或网页等网络资源发起请求.urllib是 ...
- (转)Python爬虫利器一之Requests库的用法
官方文档 以下内容大多来自于官方文档,本文进行了一些修改和总结.要了解更多可以参考 官方文档 安装 利用 pip 安装 $ pip install requests 或者利用 easy_install ...
- 爬虫 Http请求,urllib2获取数据,第三方库requests获取数据,BeautifulSoup处理数据,使用Chrome浏览器开发者工具显示检查网页源代码,json模块的dumps,loads,dump,load方法介绍
爬虫 Http请求,urllib2获取数据,第三方库requests获取数据,BeautifulSoup处理数据,使用Chrome浏览器开发者工具显示检查网页源代码,json模块的dumps,load ...
- Python爬虫利器一之Requests库的用法
前言 之前我们用了 urllib 库,这个作为入门的工具还是不错的,对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助.入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取.那么这一节来 ...
- 网络爬虫必备知识之requests库
就库的范围,个人认为网络爬虫必备库知识包括urllib.requests.re.BeautifulSoup.concurrent.futures,接下来将结对requests库的使用方法进行总结 1. ...
- Python:requests库、BeautifulSoup4库的基本使用(实现简单的网络爬虫)
Python:requests库.BeautifulSoup4库的基本使用(实现简单的网络爬虫) 一.requests库的基本使用 requests是python语言编写的简单易用的HTTP库,使用起 ...
- 从0开始学爬虫12之使用requests库基本认证
从0开始学爬虫12之使用requests库基本认证 此处我们使用github的token进行简单测试验证 # coding=utf-8 import requests BASE_URL = " ...
- 从0开始学爬虫11之使用requests库下载图片
从0开始学爬虫11之使用requests库下载图片 # coding=utf-8 import requests def download_imgage(): ''' demo: 下载图片 ''' h ...
- 爬虫(一)—— 请求库(一)requests请求库
目录 requests请求库 爬虫:爬取.解析.存储 一.请求 二.响应 三.简单爬虫 四.requests高级用法 五.session方法(建议使用) 六.selenium模块 requests请求 ...
随机推荐
- Java基础接口和抽象类区别(二)
抽象类 在了解抽象类之前,先来了解一下抽象方法.抽象方法是一种特殊的方法:它只有声明,而没有具体的实现.抽象方法的声明格式为: 抽象方法必须用abstract关键字进行修饰.如果一个类含有抽象方法,则 ...
- 解决logstash.outputs.elasticsearch[main] Could not index event to Elasticsearch status 404
现象:lostack启动正常,logstack收集输入redis数据,输出到elasticsearch写入失败 提示:去建索引 的时候elasticsearch返回404 [2019-11-12T11 ...
- kotlin之变量的可空与非空
版权声明:本文为xing_star原创文章,转载请注明出处! 本文同步自http://javaexception.com/archives/218 kotlin之变量的可空与非空 上面一篇文章,介绍了 ...
- SMTP email from C#
/// <summary> /// 一人一附件发送邮件 /// 2017-05-17 涂聚文 GeovinDu /// </summary> /// <param nam ...
- Android组件体系之ContentProvider使用注意事项
1.数据访问机制 客户端/调用者通过getContentResolver调用,由ActivityThread.AMS获取到ContentProvider的代理,再通过这个代理对象调用服务端的实现(也即 ...
- IT兄弟连 HTML5教程 CSS3属性特效 遮罩
CSS遮罩提供一种基于像素级别的,可以控制元素透明度的能力,类似于png24位或png32位中的alpha透明通道的效果.遮罩有三个属性可以设置,分别是mask-image.mask-position ...
- 微信小程序-强制手机端更新
小程序的更新机制 开发者在管理后台发布新版本的小程序之后,如果某个用户本地有小程序的历史版本,此时打开的可能还是旧版本.微信客户端会有若干个时机去检查本地缓存的小程序有没有更新版本,如果有则会静默更新 ...
- go 中recover捕获异常
recover 仅在延迟函数 defer 中有效,在正常的执行过程中,调用 recover 会返回 nil 并且没有其他任何效果.重要的事再说一遍:仅当在一个defer函数中被完成时,调用recove ...
- ES6-map数据结构,增加、删除、查找 方法(set get has delete clear ) 属性:size
map数据结构: 本质上是键值对的集合,类似集合: 可以遍历,方法很多,可以跟各种数据格式转换. let json = { name:'ananiah', age:'18' } //效率低 需要遍历j ...
- JS基础语法---Array对象的方法
Array对象的方法 Array.isArray(对象)---->判断这个对象是不是数组 instanceof关键字 判断对象是不是数组类型:两种方法: //1 instanceof var ...