【BOOK】解析库--pyquery

CSS选择器

1、初始化

html='''

<div>

    <ul>

        <li class="item-0">first item</li>

        <li class="item-1"><a href="link2.html">second item</a></li>

        <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

        <li class="item-1 active"><a href="link4.html">fourth item</a></li>

        <li class="item-0 "><a href="link5.html">fifth item</a></li>

    </ul>

</div>

'''

from pyquery import PyQuery as pq

## 字符串初始化

doc = pq(html)

print(doc('li'))

## URL初始化

doc= pq(url='https://cuiqingcai.com')

print(doc('title'))

## 文件初始化

doc = pq(filename='test.html')

print(doc('li'))

2、CSS选择器

# CSS选择器

from pyquery import PyQuery as pq

doc = pq(html)

## id用 #，class用 .

print(doc('#container .list li'))

3、查找节点

html='''

<div id="container">

    <ul class="list">

        <li class="item-0">first item</li>

        <li class="item-1"><a href="link2.html">second item</a></li>

        <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

        <li class="item-1 active"><a href="link4.html">fourth item</a></li>

        <li class="item-0 "><a href="link5.html">fifth item</a></li>

    </ul>

</div>

'''

##查找节点

from pyquery import PyQuery as pq

doc = pq(html)

items = doc('.list')

print(items)

## find() 查找所有地子孙节点

lis = items.find('a')

print(lis)

## children() 只查找子节点

lis = items.children('.active')

print(lis)

## parent() 查找父节点

container = items.parent()

print(container)

## parents() 查找祖先节点

ancestor = items.parents()

print(ancestor)

## siblings() 查找兄弟节点

li = doc('.item-0.active')

print(li.siblings('.active'))

4、遍历　

from pyquery import PyQuery as pq

doc = pq(html)

## 调用items()得到一个生成器，for in 进行遍历

lis = doc('li').items()

for li in lis:

    print(li)

5、获取内容

from pyquery import PyQuery as pq
doc = pq(html)
a = doc('.item-0 a')
print(a)

## 获取 a节点的 href的属性值
## attr()只返回第一个结果
print(a.attr('href'))
print(a.attr.href)

## 通过遍历获取所有的属性值
for item in a.items():
    print(item.attr('href'))

## 只获取文本 多个节点的文本内容用 空格 间隔开

print(a.text()) ## third item fifth item

## 获取包含 a节点内部所有内容，包含节点，返回第一个 a节点 内部的HTML文本

print(a.html()) # <span class="bold">third item</span>

6、节点操作

## 节点操作

## remove()

html ='''

<div class="wrap">

    Hello World

    <p>呱呱呱</p>

</div>

'''

## 只想获得Hello World

from pyquery import  PyQuery as pq

doc = pq(html)

wrap = doc('.wrap')

## 移除 p节点

wrap.find('p').remove()

print(wrap.text())

7、伪类选择器

html='''

<div id="container">

    <ul class="list">

        <li class="item-0">first item</li>

        <li class="item-1"><a href="link2.html">second item</a></li>

        <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

        <li class="item-1 active"><a href="link4.html">fourth item</a></li>

        <li class="item-0 "><a href="link5.html">fifth item</a></li>

    </ul>

</div>

'''

from pyquery import PyQuery as pq

doc = pq(html)

## 第一个li节点

li = doc('li:first-child')

print(li)

## 最后一个li节点

li = doc('li:last-child')

print(li)

## 第2个li节点

li = doc('li:nth-child(2)')

print(li)

## 包含‘second’文本的li节点

li = doc('li:contains(second)')

print(li)

【BOOK】解析库--pyquery的更多相关文章

python3解析库pyquery
pyquery是一个类似jquery的python库,它实现能够在xml文档中进行jQuery查询,pyquery使用lxml解析器进行快速在xml和html文档上操作,它提供了和jQuery类似的语 ...
小白学 Python 爬虫（23）：解析库 pyquery 入门
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
Python的网页解析库-PyQuery
PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严 ...
Python3编写网络爬虫07-基本解析库pyquery的使用
三.pyquery 简介:同样是一个强大的网页解析工具它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便安装: pip install pyquery 验证: im ...
爬虫之解析库pyquery
初始化安装: pip install pyquery 字符串的形式初始化 html = """ <html lang="en"> < ...
pyquery 的用法 --爬虫解析库
如果你对Web有所涉及,如果你比较喜欢用CSS选择器,如果你对jQuery有所了解,那么这里有一个更适合你的解析库--pyquery. 接下来,我们就来感受一下pyquery的强大之处. 1. 准备工 ...
Python爬虫【解析库之pyquery】
该库跟jQuery的使用方法基本一样 http://pyquery.readthedocs.io/ 官方文档解析库的安装 pip3 install pyquery 初始化 1.字符串初始化 htm ...
【Python爬虫】PyQuery解析库
PyQuery解析库阅读目录初始化基本CSS选择器查找元素遍历获取信息 DOM操作伪类选择器 PyQuery 是 Python 仿照 jQuery 的严格实现.语法与 jQuery 几乎 ...
（最全）Xpath、Beautiful Soup、Pyquery三种解析库解析html 功能概括
一.Xpath 解析 xpath:是一种在XMl.html文档中查找信息的语言,利用了lxml库对HTML解析获取数据. Xpath常用规则: nodename :选取此节点的所有子节点 // : ...
Python3 BeautifulSoup和Pyquery解析库随笔
BeautifuSoup和Pyquery解析库方法比较 1.对象初始化: BeautifySoup库: from bs4 import BeautifulSoup html = 'html strin ...

随机推荐

requests库获取指定关键词的图片，并保存到本地
var code = "45f4267f-9476-44ca-ac68-6d32aad2d4e1" 源码地址:https://gitee.com/myrensheng/data_a ...
（已解决）用phpstudy8创建个数据库（非root），结果没有访问权限。
1. 问题用phpstudy_pro,即最新版本,创建非root用户的数据库,然后后台访问它却提示没有权限. 2. 解决办法进入系统自带的user表,修改权限.具体操作如下: a. 首先找到自己用 ...
Excel如何按名字提取另一张表上数据(跨表查询)
1.Excel如何按名字提取另一张表上数据(跨表查询) 公式"=VLOOKUP(A3,[工资信息.xls]Sheet1!$A$3:$B$32,2,0)"原理. 1."A3 ...
前端代码的js里面的内容被打包后都会以某种规则全部存在dist文件夹的js文件夹的app.xxx.js里面
SpringBoot为什么这么火？
1. 总的设计原则是""默认大于配置"" 2. Starter机制,开箱即用,默认的配置和依赖都是默认加载的 3. SpringBoot是Spring的子类, ...
解决Delphi报Range check error错误
没有深入研究,大体是Debug下编译的运行就报错,Release下编译的正常. 后来发现Debug模式下会打开越界检查. Project--> Option -->Delphi Compl ...
Doris使用记录
创建分区表: CREATE TABLE `test_partitioned` ( `gmt_create` datetime NULL COMMENT "创建时间", `colum ...
JS中函数的length以及arguments的length如何得到？
function a(x,y){} a.length // 2 function b(x,y=2,z){} b.length // 1 function c(x,...args){} c.length ...
CART回归树算法
[题目1] 表1为拖欠贷款人员训练样本数据集,使用CART算法基于该表数据构造决策树模型,并使用表2中测试样本集确定剪枝后的最优子树. 表1 拖欠贷款人员训练样本数据集编号房产状况婚姻情况年收 ...
Java DelayQueue包装类
public class DelayQueueWrapper<T> { private TimeUnit timeUnit; private final Long capacity; pr ...

【BOOK】解析库--pyquery

【BOOK】解析库--pyquery的更多相关文章

随机推荐

热门专题