python系列之(2)PyQuery的用法
1.了解
pyquery库是jQuery的Python实现,能够以jQuery的语法来操作解析 HTML 文档,易用性和解析速度都很好。
2.安装
pip install pyquery
3引用
from pyquery import PyQuery as pq
4.初始化
1)字符串
html = """
<html lang="en">
<head>
simple good
<title>PyQuery</title>
</head>
<body>
<ul id="container" class="list">
<li class="object-1">Python</li>
<li class="object-2">amazing</li>
<li class="object-3">wonderful</li>
</ul>
</body>
</html>
""" doc = pq(html)
2)url
response = pq(url='https://www.baidu.com')
print(response("head"))
3)文件
#filename参数为html文件路径
test_html = pq(filename = 'test.html')
print(type(test_html))
print(test_html)
5.使用
#-*- coding: UTF-8 -*-
from pyquery import PyQuery as pq html = """
<html lang="en">
<head>
simple good
<title>PyQuery</title>
</head>
<body>
<ul id="container" class="list">
<li class="object-1">Python</li>
<li class="object-2">amazing</li>
<li class="object-3">wonderful</li>
</ul>
</body>
</html>
""" doc = pq(html)
#常用的css选择器
print(doc)
#打印id为container的标签
print(doc('#container'))
#打印class为object-1的标签
print(doc('.object-1'))
#打印body
print(doc('body'))
#多种css选择器使用
print(doc('html #container'))
#打印.list的li
print(doc('#container .list li'))
print('-----------------------------------') #伪类选择器
#打印第二个孩子
print(doc('li:nth-child(2)'))
#打印第一个孩子
print(doc('li:first-child'))
#打印最后一个孩子
print(doc('li:last-child'))
#打印含Python的li
print(doc("li:contains('Python')"))
print('-----------------------------------') #查找
#查找id为container
print(doc.find('#container'))
#查找li
print(doc.find('li'))
#查找id为container的孩子
print(doc.find('#container').children())
#查找类为object-2的父亲
print(doc.find('.object-2').parent())
#查找类为object-2的兄弟姐妹
print(doc.find('.object-2').siblings())
print('-----------------------------------') #获取标签属性
#获取attr为class
print(doc.find('.object-2').attr('class'))
#标签内的文本
print(doc.find('.object-1').text())
#去掉li标签
print(doc.find('#container').remove('li').text())
print('----------------------------------')
输出如下:
<html lang="en">
<head>
simple good
<title>PyQuery</title>
</head>
<body>
<ul id="container" class="list">
<li class="object-1">Python</li>
<li class="object-2">amazing</li>
<li class="object-3">wonderful</li>
</ul>
</body>
</html>
<ul id="container" class="list">
<li class="object-1">Python</li>
<li class="object-2">amazing</li>
<li class="object-3">wonderful</li>
</ul> <li class="object-1">Python</li> <body>
<ul id="container" class="list">
<li class="object-1">Python</li>
<li class="object-2">amazing</li>
<li class="object-3">wonderful</li>
</ul>
</body> <ul id="container" class="list">
<li class="object-1">Python</li>
<li class="object-2">amazing</li>
<li class="object-3">wonderful</li>
</ul> -----------------------------------
<li class="object-2">amazing</li> <li class="object-1">Python</li> <li class="object-3">wonderful</li> <li class="object-1">Python</li> -----------------------------------
<ul id="container" class="list">
<li class="object-1">Python</li>
<li class="object-2">amazing</li>
<li class="object-3">wonderful</li>
</ul> <li class="object-1">Python</li>
<li class="object-2">amazing</li>
<li class="object-3">wonderful</li> <li class="object-1">Python</li>
<li class="object-2">amazing</li>
<li class="object-3">wonderful</li> <ul id="container" class="list">
<li class="object-1">Python</li>
<li class="object-2">amazing</li>
<li class="object-3">wonderful</li>
</ul> <li class="object-1">Python</li>
<li class="object-3">wonderful</li> -----------------------------------
object-2
Python ----------------------------------
参考:https://www.jianshu.com/p/5def029dbdf8
https://www.jianshu.com/p/770c0cdef481
python系列之(2)PyQuery的用法的更多相关文章
- 芝麻HTTP: Python爬虫利器之PyQuery的用法
前言 你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有 ...
- Python爬虫利器六之PyQuery的用法
前言 你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有 ...
- Python逆向爬虫之pyquery,非常详细
系列目录 Python逆向爬虫之pyquery pyquery是一个类似jquery的python库,它实现能够在xml文档中进行jQuery查询,pyquery使用lxml解析器进行快速在xml和h ...
- python解析HTML之:PyQuery库的介绍与使用
本篇大部分转载于https://www.jianshu.com/p/c07f7cd1b548 先放自已自己解析techweb一个网站图片的代码 from pyquery import PyQuery ...
- 总结整理 -- python系列
python系列 python--基础学习(一)开发环境搭建,体验HelloWorld python--基础学习(二)判断 .循环.定义函数.继承.调用 python--基础学习(三)字符串单引号.双 ...
- 初探接口测试框架--python系列7
点击标题下「蓝色微信名」可快速关注 坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是 ...
- 初探接口测试框架--python系列2
点击标题下「蓝色微信名」可快速关注 坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是 ...
- 初探接口测试框架--python系列3
点击标题下「微信」可快速关注 坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是我们期 ...
- 初探接口测试框架--python系列4
点击标题下「蓝色微信名」可快速关注 坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是 ...
- 初探接口测试框架--python系列5
点击标题下「蓝色微信名」可快速关注 坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是 ...
随机推荐
- HDFS 块
- golang包引用
一.我的GOPATH环境变量值如下图: 二.在GOPATH路径下面的的src目录下面的目录名称就是引用里面包的起始位置,如下图: 三.举例说明:这里引用同一个项目的包,源文件“learn/main/m ...
- spring源码学习之容器的扩展(二)
六 BeanFactory的后处理BeanFactory作为spring容器的基础,用于存放所有已经加载的bean,为了保证程序上的高扩展性,spring针对BeanFactory做了大量的扩展,比如 ...
- Django项目:CRM(客户关系管理系统)--25--17PerfectCRM实现King_admin单列排序
登陆密码设置参考 http://www.cnblogs.com/ujq3/p/8553784.html {#table_data_list.html#} {## ————————08PerfectCR ...
- JavaScript多继承(转载)
js里是否有多继承,如何实现多继承.在这里可以看看java是如何处理多继承的问题,java里是没有多继承的,即一个子类不能同时继承多个父类,但可以实现多个接口,这也间接的实现了多继承.主要是因为多继承 ...
- Visifire For WPF 图表控件 如何免费
可能用WPF生成过图表的开发人员都知道,WPF虽然本身的绘图能力强大,但如果每种图表都自己去实现一次的话可能工作量就大了, 尤其是在开发时间比较紧的情况下.这时候有必要借助一种专业的图表工具. Vis ...
- vim 的列操作
删除列1.光标定位到要操作的地方.2.CTRL+v 进入“可视 块”模式,选取这一列操作多少行.3.d 删除. 插入列插入操作的话知识稍有区别.例如我们在每一行前都插入"() ": ...
- hibernate 查询最大值(数据条目数)
如下 使用 SELECT COUNT(*) 然后获取最大值 Integer.parseInt(query.list().).toString()); 比如 StringBuffer hql1; hql ...
- linux目录结构详细说明
Linux各目录及每个目录的详细介绍 [常见目录说明] 目录 /bin 存放二进制可执行文件(ls,cat,mkdir等),常用命令一般都在这里. /etc 存放系统管理和配置文件 /home 存放所 ...
- Oracle JOB的建立,定时执行任务
Oracle JOB的建立,定时执行任务 oracle job的相关设置 next date: 2010-12-28 18:05:00 interval: to_date(to_char(sysdat ...