1.安装方法

pip install pyquery

2.引用方法

from pyquery import PyQuery as pq

3.简介

　pyquery 是类型jquery 的一个专供python使用的html解析的库，使用方法类似bs4。

4.使用方法

　　4.1 初始化方法：

from pyquery import PyQuery as pq

doc =pq(html) #解析html字符串

doc =pq("http://news.baidu.com/") #解析网页

doc =pq("./a.html") #解析html 文本

4.2 基本CSS选择器

from pyquery import PyQuery as pq

html = '''

    <div id="wrap">

        <ul class="s_from">

            asdasd

            <link href="http://asda.com">asdadasdad12312</link>

            <link href="http://asda1.com">asdadasdad12312</link>

            <link href="http://asda2.com">asdadasdad12312</link>

        </ul>

    </div>

'''

doc = pq(html)

print doc("#wrap .s_from link")

　　运行结果：

<link href="http://asda.com">asdadasdad12312</link>

            <link href="http://asda1.com">asdadasdad12312</link>

            <link href="http://asda2.com">asdadasdad12312</link>

　　#是查找id的标签 .是查找class 的标签 link 是查找link 标签中间的空格表示里层

　　4.3 查找子元素

from pyquery import PyQuery as pq

html = '''

    <div id="wrap">

        <ul class="s_from">

            asdasd

            <link href="http://asda.com">asdadasdad12312</link>

            <link href="http://asda1.com">asdadasdad12312</link>

            <link href="http://asda2.com">asdadasdad12312</link>

        </ul>

    </div>

'''

#查找子元素

doc = pq(html)

items=doc("#wrap")

print(items)

print("类型为:%s"%type(items))

link = items.find('.s_from')

print(link)

link = items.children()

print(link)

　　运行结果：

<div id="wrap">

        <ul class="s_from">

            asdasd

            <link href="http://asda.com">asdadasdad12312</link>

            <link href="http://asda1.com">asdadasdad12312</link>

            <link href="http://asda2.com">asdadasdad12312</link>

        </ul>

    </div>

类型为:<class 'pyquery.pyquery.PyQuery'>

<ul class="s_from">

            asdasd

            <link href="http://asda.com">asdadasdad12312</link>

            <link href="http://asda1.com">asdadasdad12312</link>

            <link href="http://asda2.com">asdadasdad12312</link>

        </ul>

<ul class="s_from">

            asdasd

            <link href="http://asda.com">asdadasdad12312</link>

            <link href="http://asda1.com">asdadasdad12312</link>

            <link href="http://asda2.com">asdadasdad12312</link>

        </ul>

　　根据运行结果可以发现返回结果类型为pyquery，并且find方法和children 方法都可以获取里层标签

　 4.4查找父元素

from pyquery import PyQuery as pq

html = '''

    <div href="wrap">

        hello nihao

        <ul class="s_from">

            asdasd

            <link href="http://asda.com">asdadasdad12312</link>

            <link href="http://asda1.com">asdadasdad12312</link>

            <link href="http://asda2.com">asdadasdad12312</link>

        </ul>

    </div>

'''

doc = pq(html)

items=doc(".s_from")

print(items)

#查找父元素

parent_href=items.parent()

print(parent_href)

　　运行结果:

<ul class="s_from">

            asdasd

            <link href="http://asda.com">asdadasdad12312</link>

            <link href="http://asda1.com">asdadasdad12312</link>

            <link href="http://asda2.com">asdadasdad12312</link>

        </ul>

<div href="wrap">

        hello nihao

        <ul class="s_from">

            asdasd

            <link href="http://asda.com">asdadasdad12312</link>

            <link href="http://asda1.com">asdadasdad12312</link>

            <link href="http://asda2.com">asdadasdad12312</link>

        </ul>

    </div>

　　parent可以查找出外层标签包括的内容，与之类似的还有parents,可以获取所有外层节点

　　4.5 查找兄弟元素

from pyquery import PyQuery as pq

html = '''

    <div href="wrap">

        hello nihao

        <ul class="s_from">

            asdasd

            <link class='active1 a123' href="http://asda.com">asdadasdad12312</link>

            <link class='active2' href="http://asda1.com">asdadasdad12312</link>

            <link class='movie1' href="http://asda2.com">asdadasdad12312</link>

        </ul>

    </div>

'''

doc = pq(html)

items=doc("link.active1.a123")

print(items)

#查找兄弟元素

siblings_href=items.siblings()

print(siblings_href)

　　运行结果：

<link class="active1 a123" href="http://asda.com">asdadasdad12312</link>

<link class="active2" href="http://asda1.com">asdadasdad12312</link>

            <link class="movie1" href="http://asda2.com">asdadasdad12312</link>

　　根据运行结果可以看出，siblings 返回了同级的其他标签

　　结论：子元素查找，父元素查找，兄弟元素查找，这些方法返回的结果类型都是pyquery类型，可以针对结果再次进行选择

　　4.6 遍历查找结果

from pyquery import PyQuery as pq

html = '''

    <div href="wrap">

        hello nihao

        <ul class="s_from">

            asdasd

            <link class='active1 a123' href="http://asda.com">asdadasdad12312</link>

            <link class='active2' href="http://asda1.com">asdadasdad12312</link>

            <link class='movie1' href="http://asda2.com">asdadasdad12312</link>

        </ul>

    </div>

'''

doc = pq(html)

its=doc("link").items()

for it in its:

    print(it)

　　运行结果：

<link class="active1 a123" href="http://asda.com">asdadasdad12312</link>

<link class="active2" href="http://asda1.com">asdadasdad12312</link>

<link class="movie1" href="http://asda2.com">asdadasdad12312</link>

　　4.7获取属性信息

from pyquery import PyQuery as pq

html = '''

    <div href="wrap">

        hello nihao

        <ul class="s_from">

            asdasd

            <link class='active1 a123' href="http://asda.com">asdadasdad12312</link>

            <link class='active2' href="http://asda1.com">asdadasdad12312</link>

            <link class='movie1' href="http://asda2.com">asdadasdad12312</link>

        </ul>

    </div>

'''

doc = pq(html)

its=doc("link").items()

for it in its:

    print(it.attr('href'))

    print(it.attr.href)

　　运行结果：

http://asda.com

http://asda.com

http://asda1.com

http://asda1.com

http://asda2.com

http://asda2.com

　　4.8 获取文本

from pyquery import PyQuery as pq

html = '''

    <div href="wrap">

        hello nihao

        <ul class="s_from">

            asdasd

            <link class='active1 a123' href="http://asda.com">asdadasdad12312</link>

            <link class='active2' href="http://asda1.com">asdadasdad12312</link>

            <link class='movie1' href="http://asda2.com">asdadasdad12312</link>

        </ul>

    </div>

'''

doc = pq(html)

its=doc("link").items()

for it in its:

    print(it.text())

　　运行结果

asdadasdad12312

asdadasdad12312

asdadasdad12312

　　4.9 获取 HTML信息

from pyquery import PyQuery as pq

html = '''

    <div href="wrap">

        hello nihao

        <ul class="s_from">

            asdasd

            <link class='active1 a123' href="http://asda.com"><a>asdadasdad12312</a></link>

            <link class='active2' href="http://asda1.com">asdadasdad12312</link>

            <link class='movie1' href="http://asda2.com">asdadasdad12312</link>

        </ul>

    </div>

'''

doc = pq(html)

its=doc("link").items()

for it in its:

    print(it.html())

　　运行结果：

<a>asdadasdad12312</a>

asdadasdad12312

asdadasdad12312

5.常用DOM操作

　　5.1 addClass removeClass

　　添加，移除class标签

from pyquery import PyQuery as pq

html = '''

    <div href="wrap">

        hello nihao

        <ul class="s_from">

            asdasd

            <link class='active1 a123' href="http://asda.com"><a>asdadasdad12312</a></link>

            <link class='active2' href="http://asda1.com">asdadasdad12312</link>

            <link class='movie1' href="http://asda2.com">asdadasdad12312</link>

        </ul>

    </div>

'''

doc = pq(html)

its=doc("link").items()

for it in its:

    print("添加:%s"%it.addClass('active1'))

    print("移除:%s"%it.removeClass('active1'))

　　运行结果

添加:<link class="active1 a123" href="http://asda.com"><a>asdadasdad12312</a></link>

移除:<link class="a123" href="http://asda.com"><a>asdadasdad12312</a></link>

添加:<link class="active2 active1" href="http://asda1.com">asdadasdad12312</link>

移除:<link class="active2" href="http://asda1.com">asdadasdad12312</link>

添加:<link class="movie1 active1" href="http://asda2.com">asdadasdad12312</link>

移除:<link class="movie1" href="http://asda2.com">asdadasdad12312</link>

　　需要注意的是已经存在的class标签不会继续添加

　　5.2 attr css

　　attr 为获取/修改属性 css 添加style属性

from pyquery import PyQuery as pq

html = '''

    <div href="wrap">

        hello nihao

        <ul class="s_from">

            asdasd

            <link class='active1 a123' href="http://asda.com"><a>asdadasdad12312</a></link>

            <link class='active2' href="http://asda1.com">asdadasdad12312</link>

            <link class='movie1' href="http://asda2.com">asdadasdad12312</link>

        </ul>

    </div>

'''

doc = pq(html)

its=doc("link").items()

for it in its:

    print("修改:%s"%it.attr('class','active'))

    print("添加:%s"%it.css('font-size','14px'))

　　运行结果

C:\Python27\python.exe D:/test_his/test_re_1.py

修改:<link class="active" href="http://asda.com"><a>asdadasdad12312</a></link>

添加:<link class="active" href="http://asda.com" style="font-size: 14px"><a>asdadasdad12312</a></link>

修改:<link class="active" href="http://asda1.com">asdadasdad12312</link>

添加:<link class="active" href="http://asda1.com" style="font-size: 14px">asdadasdad12312</link>

修改:<link class="active" href="http://asda2.com">asdadasdad12312</link>

添加:<link class="active" href="http://asda2.com" style="font-size: 14px">asdadasdad12312</link>

　　attr css操作直接修改对象的

　　5.3 remove

　　remove 移除标签

from pyquery import PyQuery as pq

html = '''

    <div href="wrap">

        hello nihao

        <ul class="s_from">

            asdasd

            <link class='active1 a123' href="http://asda.com"><a>asdadasdad12312</a></link>

            <link class='active2' href="http://asda1.com">asdadasdad12312</link>

            <link class='movie1' href="http://asda2.com">asdadasdad12312</link>

        </ul>

    </div>

'''

doc = pq(html)

its=doc("div")

print('移除前获取文本结果:\n%s'%its.text())

it=its.remove('ul')

print('移除后获取文本结果:\n%s'%it.text())

　　运行结果

移除前获取文本结果:

hello nihao

asdasd

asdadasdad12312

asdadasdad12312

asdadasdad12312

移除后获取文本结果:

hello nihao

其他DOM方法参考：请点击

6.伪类选择器

from pyquery import PyQuery as pq

html = '''

    <div href="wrap">

        hello nihao

        <ul class="s_from">

            asdasd

            <link class='active1 a123' href="http://asda.com"><a>helloasdadasdad12312</a></link>

            <link class='active2' href="http://asda1.com">asdadasdad12312</link>

            <link class='movie1' href="http://asda2.com">asdadasdad12312</link>

        </ul>

    </div>

'''

doc = pq(html)

its=doc("link:first-child")

print('第一个标签:%s'%its)

its=doc("link:last-child")

print('最后一个标签:%s'%its)

its=doc("link:nth-child(2)")

print('第二个标签:%s'%its)

its=doc("link:gt(0)") #从零开始

print("获取0以后的标签:%s"%its)

its=doc("link:nth-child(2n-1)")

print("获取奇数标签:%s"%its)

its=doc("link:contains('hello')")

print("获取文本包含hello的标签:%s"%its)

　　运行结果

第一个标签:<link class="active1 a123" href="http://asda.com"><a>helloasdadasdad12312</a></link>

最后一个标签:<link class="movie1" href="http://asda2.com">asdadasdad12312</link>

第二个标签:<link class="active2" href="http://asda1.com">asdadasdad12312</link>

获取0以后的标签:<link class="active2" href="http://asda1.com">asdadasdad12312</link>

            <link class="movie1" href="http://asda2.com">asdadasdad12312</link>

获取奇数标签:<link class="active1 a123" href="http://asda.com"><a>helloasdadasdad12312</a></link>

            <link class="movie1" href="http://asda2.com">asdadasdad12312</link>

获取文本包含hello的标签:<link class="active1 a123" href="http://asda.com"><a>helloasdadasdad12312</a></link>

更多css选择器可以查看：请点击

Spider-Python爬虫之PyQuery基本用法的更多相关文章

python爬虫---selenium库的用法
python爬虫---selenium库的用法 selenium是一个自动化测试工具,支持Firefox,Chrome等众多浏览器在爬虫中的应用主要是用来解决JS渲染的问题. 1.使用前需要安装这个 ...
Python爬虫之PyQuery使用（六）
Python爬虫之PyQuery使用 PyQuery简介 pyquery能够通过选择器精确定位 DOM 树中的目标并进行操作.pyquery相当于jQuery的python实现,可以用于解析HTML网 ...
Python爬虫之BeautifulSoup的用法
之前看静觅博客,关于BeautifulSoup的用法不太熟练,所以趁机在网上搜索相关的视频,其中一个讲的还是挺清楚的:python爬虫小白入门之BeautifulSoup库,有空做了一下笔记: 一.爬 ...
python爬虫神器PyQuery的使用方法
你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有了一些 ...
【Python爬虫】selenium基础用法
selenium 基础用法阅读目录初识selenium 基本使用查找元素元素互交操作执行JavaScript 获取元素信息等待前进后退 Cookies 选项卡管理异常处理初识sele ...
python爬虫之PyQuery的基本使用
PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严 ...
python爬虫之pyquery学习
相关内容: pyquery的介绍 pyquery的使用安装模块导入模块解析对象初始化 css选择器在选定元素之后的元素再选取元素的文本.属性等内容的获取 pyquery执行DOM操作.css ...
【Python爬虫】PyQuery解析库
PyQuery解析库阅读目录初始化基本CSS选择器查找元素遍历获取信息 DOM操作伪类选择器 PyQuery 是 Python 仿照 jQuery 的严格实现.语法与 jQuery 几乎 ...
python爬虫---requests库的用法
requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多因为是第三方库,所以使用前需要cmd安装 pip install requests 安装完成后import一下 ...
Python爬虫系列-PyQuery详解
强大又灵活的网页解析库.如果你觉得正则写起来太麻烦,如果你觉得BeautifulSoup语法太难记,如果你熟悉jQuery的语法,那么PyQuery就是你的最佳选择. 安装 pip3 install ...

随机推荐

maven项目管理1
1.maven的目录结构 src -main -java -package -test -java -package resources 2.maven命令 mvn -v :查看maven版本命令 c ...
Hdu 5371 Hotaru's problem (manacher+枚举)
题目链接: Hdu 5371 Hotaru's problem 题目描述: 给出一个字符串N,要求找出一条N的最长连续子串.这个子串要满足:1:可以平均分成三段,2:第一段和第三段相等,3:第一段和第 ...
Hdu 5352 MZL's City (多重匹配)
题目链接: Hdu 5352 MZL's City 题目描述: 有n各节点,m个操作.刚开始的时候节点都是相互独立的,一共有三种操作: 1:把所有和x在一个连通块内的未重建过的点全部重建. 2:建立一 ...
四大开源协议比较:BSD、Apache、GPL、LGPL【转载】
四大开源协议原文链接本文参考文献:http://www.fsf.org/licensing/licenses/ 现今存在的开源协议很多,而经过Open Source Initiative组织通过批准 ...
html下的图片链接有边框的解决方法
使用dreamweaver创建网页后,上传到网站发现网页的图片链接有非常难看的蓝色边框,而在dw下是没有的后来查看了一下网上的资料,发现加一个border="0"即可,默认是有边 ...
eclipse控制台不显示输出的解决办法
1.进windows菜单 -> show view -> console2.还是windows菜单里面 -> preferences -> 打开左边的run/debug -&g ...
F 点与多边形数学 + 观察
https://biancheng.love/contest-ng/index.html#/123/problems 做题要在纸上弄弄,才会有发现. 发现到答案只是-1和4,因为坐标都是整数. 然后就 ...
简单工厂模式-Java篇
简单工厂模式就是考虑如何实例化对象的问题,就是说到底要实例化谁,将来会不会增加实例化对象,比如计算器类中增加开根元素,应该考虑用一个单独的类来创造实例的过程,这就是工厂.下面将利用计算器类举例,解释简 ...
萌新--关于vue.js入门及环境搭建
十几天闭关修炼,恶补了html跟css以及JavaScript相应的基础知识,恰巧有个群友准备做开源项目,愿意带着我做,但是要求我必须懂vue.js,所以开始恶补vue.js相关的东西. 在淘宝上买了 ...
Echarts生成饼状图、条形图以及线形图 JS封装
1.在我们开发程序中,经常会用到生成一些报表,比方说饼状图,条形图,折线图等.不多说了,直接上封装好的代码,如下Echarts.js所示以下代码是封装在Echarts.js文件中 /** * Cre ...

Spider-Python爬虫之PyQuery基本用法

1.安装方法

Spider-Python爬虫之PyQuery基本用法的更多相关文章

随机推荐

热门专题