pyquery 库的使用
from pyquery import PyQuery as pq # 文件勿命名为 pyquery.py,会发生冲突 # 字符串初始化 html = ''' <div id="page"> <div id="car_test"> <ul class="menu-list"> <li class="icon1"><a href="link1.html">科目一</a></li> <li class="icon2"><a href="link2.html">科目二</a></li> <li class="icon3 subject"><a href="link3.html">科目三</a></li> <li class="icon4"><a href="link4.html">科目四</a></li> <li class="buy car"><a href="link4.html">买车</a></li> </ul> </div> </div> ''' doc = pq(html) print(doc('li')) # url初始化 doc = pq(url='https://www.jiakaobaodian.com/') print(doc('title')) # 文件初始化 doc = pq(filename='demo.html') print(doc('li')) # 基本 CSS 选择器 doc = pq(html) print(doc('#car_test .menu-list li')) print(type(doc('#car_test .menu-list li'))) # 当需要用 class 且名称内容有空格时,”.“表示并列 print(doc('.menu-list .icon3.subject, .buy.car')) # 查找节点 doc = pq(html) items = doc('.menu-list') print(type(items)) print(items) # find() 查找节点里的所有子孙节点 link_list = items.find('a') print(type(link_list)) print(link_list) print('\n') # children() 查找节点里的子节点 menu_list = items.children() print(menu_list) last_li = items.children('.buy.car') print(last_li) # parent() 父节点 car_test = items.parent() print(type(car_test)) print(car_test) # parents() 祖先节点,此处输出 class 为 page 和 car_test 的两个节点 parents = items.parents() print(parents) # siblings() 兄弟节点 li = doc('.menu-list .icon3.subject') print(li.siblings()) # 遍历 doc = pq(html) menu_list = doc('li').items() print(type(menu_list)) for li in menu_list: print(li, type(li)) # 获取信息 doc = pq(html) a = doc('.icon3.subject a') b = doc('.icon4') # 获取属性,此处为 class_ print(a.attr.href) print(b.attr.class_) # 获取文本,html() 返回节点内所有代码 print(type(a.text())) print(a.text()) print(b.text()) print(b.html())
参考资料:静觅 » [Python3网络爬虫开发实战] 4.3-使用pyquery
pyquery 库的使用的更多相关文章
- python爬虫从入门到放弃(七)之 PyQuery库的使用
PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严 ...
- 爬虫常用库之pyquery 库
pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,我个人写过的一些抓取网页数据的脚本就是用它来解析html获取数据的.他的官方文档地址是:http://packages. ...
- Python中PyQuery库的使用总结
介绍 pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,官方文档地址是:http://packages.python.org/pyquery/ pyquery 可让你用 ...
- Python爬虫-- PyQuery库
PyQuery库 PyQuery库也是一个非常强大又灵活的网页解析库,PyQuery 是 Python 仿照 jQuery 的严格实现.语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪 ...
- PYTHON 爬虫笔记六:PyQuery库基础用法
知识点一:PyQuery库详解及其基本使用 初始化 字符串初始化 html = ''' <div> <ul> <li class="item-0"&g ...
- 学习PyQuery库
学习PyQuery库 好了,又是学习的时光啦,今天学习pyquery 来进行网页解析 常规导入模块(PyQuery库中的pyquery类) from pyquery import PyQuery as ...
- python之爬虫(九)PyQuery库的使用
PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严 ...
- Python中PyQuery库的使用
pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,我个人写过的一些抓取网页数据的脚本就是用它来解析html获取数据的. 它的官方文档地址是:http://packages ...
- PyQuery库
'''强大又灵活的网页解析库.如果你觉得正则写起来太麻烦,又觉得BeautifulSoup语法太难记,如果你熟悉jQuery的语法,那么PyQuery就是你的绝佳选择.'''from pyquery ...
- 爬虫6:pyquery库
强大又灵活的网页解析库,如果觉得正则写起来太麻烦,BeautifulSoup语法太难记,而你又熟悉jQuery的语法,那么用PyQuery就是最佳选择 一. 初始化 1. 字符串初始化 h ...
随机推荐
- LC 971. Flip Binary Tree To Match Preorder Traversal
Given a binary tree with N nodes, each node has a different value from {1, ..., N}. A node in this b ...
- 传统Web应用请求和响应特点【显示当前时间】
(1)请求:浏览器以HTTP协议的方式提交请求到服务器 (2)响应:服务器以HTTP协议的方式响应内容到浏览器 注意:HTTP是WEB大众化非安全协议 HTTPS是WEB安全协议,是基于HTTP协议的 ...
- Spring配置文件里加载路径中的通配符
?代表匹配任意一个字符 *代表匹配0个或多个任意字符 **/匹配任意多个目录 classpath:app-Beans.xml 查找app-Beans.xm ...
- Java中非静态成员变量、静态成员变量的初始化时机
转: Java中非静态成员变量.静态成员变量的初始化时机. 2018年05月22日 11:48:11 SilenceCarrot 阅读数 421 版权声明:技术就要分享才有意思,欢迎大家分享(注明 ...
- SSH客户端神器之 MobaXterm
SSH客户端神器之 MobaXterm 由于需要连接远程 Linux 服务器,早期使用过 Putty,SecureCRT,后面主要使用 Xshell. 自从接触了 MobaXterm之后,个人感觉比 ...
- Elasticsearch 在CentOs7 环境中开机启动
由于园区的电源不是很稳定,经常会断电,断电之后几十台服务器,启动服务都要人肉启动,真是非常蠢的行为: 开机自启动服务就很有必要,之前设置过,后来没有成功就不管了,断电好几次之后,意识到这个问题就很严重 ...
- lumen中间件中设置响应header
<?php namespace App\Http\Middleware; use Closure; class BeforeMiddleware { public function handle ...
- Leetcode之101. Symmetric Tree Easy
Leetcode 101. Symmetric Tree Easy Given a binary tree, check whether it is a mirror of itself (ie, s ...
- vue中的样式穿透
参考一下的文章即可: https://www.cnblogs.com/karthuslorin/p/9038854.html http://www.php.cn/js-tutorial-399072. ...
- elasticsearch 7.1 401 Unauthorized
1.执行curl -XGET 'localhost:9200/_cat/indices?v&pretty' 报401 2.修改配置xpack.security.enabled: false ...