PyQuery库

'''强大又灵活的网页解析库。如果你觉得正则写起来太麻烦，又觉得BeautifulSoup
语法太难记，如果你熟悉jQuery的语法，那么PyQuery就是你的绝佳选择。'''
from pyquery import PyQuery as pq
'''初始化'''
#字符串初始化
html = '''
<div class="wrap">
    <div id="container">
        <ul class="list">
            <li class="item-0">first item</li>
            <li class="item-1"><a href="link2.html">second item</a></li>
            <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
            <li class="item-1 active"><a href="link4.html">fourth item</a></li>
            <li class="item-0"><a href="link5.html">fifth item</a></li>
        </ul>
    </div> 
</div>
'''
doc = pq(html)
print(doc('li'))    #CSS选择器

#URL初始化
doc = pq(url="http://www.baidu.com")
print(doc('head'))

#文件初始化
doc = pq(filename='demo.html')
print(doc('li'))

'''基本CSS选择器'''
print("-基本CSS选择器-"*20)
doc = pq(html)
print(doc("#container .list li"))   #空格表示子孙关系，非直接父子关系
#子元素
items = doc(".list")
print(type(items),items)
## find()是在当前items元素下查找
lis = items.find('li')
print(type(lis),lis)
print(items.children())
print(items.children('.active'))
#父元素
items = doc('.list')
parents = items.parents()   #返回所有的祖先元素
print(parents)
parent = items.parents('.wrap')
print(parent)
#兄弟元素
li = doc(".list .item-0.active")    #.item-0和.active之间无空格，表示并列同时满足，多类选择器。
print(li.siblings())
print(li.siblings('.active'))

'''遍历'''
print("-遍历-"*20)
#单个元素
li = doc(".item-0.active")
print(li)
#多个元素
lis = doc('li').items()
print(type(lis))
for li in lis:
    print(li)

'''获取信息'''
print("-获取信息-"*20)
#获取属性
a = doc(".item-0.active a")
print(a)
print(a.attr('href'))
print(a.attr.href)
#获取文本
a = doc(".item-0.active a")
print(a.text())
#获取HTML
a = doc(".item-0.active")
print(a)
print(a.html()) #获取标签里边的HTML代码

'''DOM操作'''
print("-DOM操作-"*20)
#addClass、removeClass
li = doc('.item-0.active')
print(li)
li.removeClass('active')    #将得到的li标签元素去除active类标签
print(li)
li.addClass('active')   #将得到的li标签元素添加active类标签
print(li)
#attr、css
li.attr('name','link')  #添加name属性值为link
print(li)
li.css('font-size','14px')  #添加一个css属性font-size值为14px
print(li)
#remove
htm = '''
<div class="wrap">
    Hello,World
    <p>This is a paragraph.</p>
</div>
'''
do = pq(htm)
wrap = do('.wrap')
print(wrap.text())
wrap.find('p').remove()
print(wrap.text())

'''伪类选择器'''
print("-伪类选择器-"*20)
li = doc("li:first-child")  #得到第一个li
print(li)
li = doc("li:last-child")   #得到最后一个li
print(li)
li = doc("li:nth-child(2)") #得到第二个li
print(li)
li = doc("li:gt(2)")    #得到第二个以后的li
print(li)
li = doc("li:nth-child(2n)")    #返回第偶数个li
print(li)
li = doc("li:contains(second)") #返回包含second内容的li
print(li)

更多伪类选择器用法参考：https://www.cnblogs.com/miss85246/p/10397601.html

PyQuery库的更多相关文章

python爬虫从入门到放弃（七）之 PyQuery库的使用
PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严 ...
爬虫常用库之pyquery 库
pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,我个人写过的一些抓取网页数据的脚本就是用它来解析html获取数据的.他的官方文档地址是:http://packages. ...
Python中PyQuery库的使用总结
介绍 pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,官方文档地址是:http://packages.python.org/pyquery/ pyquery 可让你用 ...
Python爬虫-- PyQuery库
PyQuery库 PyQuery库也是一个非常强大又灵活的网页解析库,PyQuery 是 Python 仿照 jQuery 的严格实现.语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪 ...
PYTHON 爬虫笔记六:PyQuery库基础用法
知识点一:PyQuery库详解及其基本使用初始化字符串初始化 html = ''' <div> <ul> <li class="item-0"&g ...
学习PyQuery库
学习PyQuery库好了,又是学习的时光啦,今天学习pyquery 来进行网页解析常规导入模块(PyQuery库中的pyquery类) from pyquery import PyQuery as ...
python之爬虫（九）PyQuery库的使用
PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严 ...
Python中PyQuery库的使用
pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,我个人写过的一些抓取网页数据的脚本就是用它来解析html获取数据的. 它的官方文档地址是:http://packages ...
爬虫6：pyquery库
强大又灵活的网页解析库,如果觉得正则写起来太麻烦,BeautifulSoup语法太难记,而你又熟悉jQuery的语法,那么用PyQuery就是最佳选择一. 初始化 1. 字符串初始化 h ...

随机推荐

看到一个想收藏的的AJAX小列子
用户登录的验证可以使用 form 表单提交,也可以使用 ajax 技术异步提交. AJAX 即 Asynchronous Javascript And XML(异步 JavaScript 和 XML) ...
MySQL常用命令（二）
1.索引分类 1.普通索引 2.唯一索引 3.主键索引 4.外键索引2.普通索引(index) 1.使用规则 1.一个表中可以有多个index字段 2.字段的值可以有重复,也可以为NULL值 3.经常 ...
[Hive_add_3] Hive 进行简单数据处理
0. 说明通过 Hive 对 duowan 数据进行简单处理 1. 操作流程 1.1 建表 create table duowan(id int, name string, pass string, ...
SQL server 数据库的索引和视图、存储过程和触发器
1.索引:数据排序的方法,快速查询数据分类: 唯一索引:不允许有相同值主键索引:自动创建的主键对应的索引,命令方式不可删聚集索引:物理顺序与索引顺序一致,只能创建一个非聚集索引:物理顺序与索引 ...
4.4Python数据处理篇之Matplotlib系列(四)---plt.bar()与plt.barh条形图
目录目录前言 (一)竖值条形图 (二)水平条形图 1.使用bar()绘制: 2.使用barh()绘制: (三)复杂的条形图 1.并列条形图: 2.叠加条形图: 3.添加图例于数据标签的条形图: 目 ...
LeetCode算法题-Isomorphic Strings（Java实现）
这是悦乐书的第191次更新,第194篇原创 01 看题和准备今天介绍的是LeetCode算法题中Easy级别的第50题(顺位题号是205).给定两个字符串s和t,确定它们是否是同构的.如果s中的字符 ...
socket 如何判断远端服务器的连接状态？连接断开，需重连
fluent-logger-java is a Java library, to record events via Fluentd, from Java application. https://g ...
MySQL高级知识（十二）——全局查询日志
前言:全局查询日志用于保存所有的sql执行记录,该功能主要用于测试环境,在生产环境中永远不要开启该功能. 1.如何开启 #1.通过my.cnf配置开启该功能. 注:对my.cnf文件配置后,需重启my ...
【gdoi2018 day2】第二题滑稽子图
题意: 给出一棵树.设\(E\)表示边集,\(V\)表示点集,\(S\)为\(V\)的一个子集. \(f(S)=|(u,v)|(u,v)\in E \ \&\&\ u\in V\ \& ...
Django 中的日志处理
日志处理: 上线后必须使用便于以后的维护管理根据日志处理 BUG 在项目中定义一个存放日志的文件夹 log 存放所有等级的日志配置: 将下面的日志的配置写入 django ...

PyQuery库

PyQuery库的更多相关文章

随机推荐

热门专题