• 简单举例

     from pyquery import PyQuery as pq
    
     html = '''
    <div>
    <ul>
    <li class="item-O"><a href="linkl.html">first item</a></li>
    <li class="item-1"><a href="link2.html">second item</a></li>
    <li class="item-inactive"><a href="link3.html">third item</a></li>
    <li class="item-1"><a href="link4.html">fourth item</a></li>
    <li class="item-0"><a href="link5.html">fifth item</a>
    </ul>
    </div>
    ''' doc = pq(html)
    print(doc) # 输出:
    <div>
    <ul>
    <li class="item-O"><a href="linkl.html">first item</a></li>
    <li class="item-1"><a href="link2.html">second item</a></li>
    <li class="item-inactive"><a href="link3.html">third item</a></li>
    <li class="item-1"><a href="link4.html">fourth item</a></li>
    <li class="item-0"><a href="link5.html">fifth item</a>
    </li></ul>
    </div>

    字符串

     from pyquery import PyQuery as pq
    import requests # doc1 与 doc2 功能相同
    doc1 = pq(url='https://www.cnblogs.com/liyihua/')
    print(doc1('title')) doc2 = pq(requests.get('https://www.cnblogs.com/liyihua/').text)
    print(doc1('title')) # 输出:
    <title>李亦华 - 博客园</title>&#13; <title>李亦华 - 博客园</title>&#13;

    URL

     from pyquery import PyQuery as pq
    
     doc = pq(filename='test.html')
    print(doc('li')) # 输出:
    <li class="item-O"><a href="linkl.html">first item</a></li>
    <li class="item-1"><a href="link2.html">second item</a></li>
    <li class="item-inactive"><a href="link3.html">third item</a></li>
    <li class="item-1"><a href="link4.html">fourth item</a></li>
    <li class="item-0"><a href="link5.html">fifth item</a>
    </li> # 文件内容:
    <div>
    <ul>
    <li class="item-O"><a href="linkl.html">first item</a></li>
    <li class="item-1"><a href="link2.html">second item</a></li>
    <li class="item-inactive"><a href="link3.html">third item</a></li>
    <li class="item-1"><a href="link4.html">fourth item</a></li>
    <li class="item-0"><a href="link5.html">fifth item</a>
    </ul>
    </div>

    文件

  • 基本CSS选择器

     from pyquery import PyQuery as pq
    
     html = '''
    <div id="container">
    <ul class="list">
    <li class="item-0">first item</li>
    <li class="item-1"><a href="link2.html">second item</a></li>
    <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
    <li class="item-1 active"><a href="link4.html">fourth item</a></li>
    <li class="item-0"><a href="link5.html">fifth item</a></li>
    </ul>
    </div>
    ''' doc = pq(html)
    print(doc('#container .list li')) print(
    type(
    doc('#container .list li')
    )
    ) # 输出:
    <li class="item-0">first item</li>
    <li class="item-1"><a href="link2.html">second item</a></li>
    <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
    <li class="item-1 active"><a href="link4.html">fourth item</a></li>
    <li class="item-0"><a href="link5.html">fifth item</a></li> <class 'pyquery.pyquery.PyQuery'>
  • 查找节点

    •  from pyquery import PyQuery
      
       html = '''
      <div id="container">
      <ul class="list">
      <li class="item-0">first item</li>
      <li class="item-1"><a href="link2.html">second item</a></li>
      <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
      <li class="item-1 active"><a href="link4.html">fourth item</a></li>
      <li class="item-0"><a href="link5.html">fifth item</a></li>
      </ul>
      </div>
      ''' doc = PyQuery(html)
      items = doc('.list') print(
      type(items),
      items,
      sep='\n'
      ) print(
      type(items.find('li')),
      items.find('li'),
      sep='\n'
      ) # 输出:
      <class 'pyquery.pyquery.PyQuery'>
      <ul class="list">
      <li class="item-0">first item</li>
      <li class="item-1"><a href="link2.html">second item</a></li>
      <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
      <li class="item-1 active"><a href="link4.html">fourth item</a></li>
      <li class="item-0"><a href="link5.html">fifth item</a></li>
      </ul> <class 'pyquery.pyquery.PyQuery'>
      <li class="item-0">first item</li>
      <li class="item-1"><a href="link2.html">second item</a></li>
      <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
      <li class="item-1 active"><a href="link4.html">fourth item</a></li>
      <li class="item-0"><a href="link5.html">fifth item</a></li>

      子孙节点----find()方法

      # find()方法查找的是所有子孙节点,如果只查找子节点,可以使用children()方法

       from pyquery import PyQuery
      
       html = '''
      <div id="container">
      <ul class="list">
      <li class="item-0">first item</li>
      <li class="item-1"><a href="link2.html">second item</a></li>
      <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
      <li class="item-1 active"><a href="link4.html">fourth item</a></li>
      <li class="item-0"><a href="link5.html">fifth item</a></li>
      </ul>
      </div>
      ''' doc = PyQuery(html)
      items = doc('.list') print(items, '\n') print(
      type(items.parent()),
      items.parent(),
      sep='\n'
      ) # 输出:
      <ul class="list">
      <li class="item-0">first item</li>
      <li class="item-1"><a href="link2.html">second item</a></li>
      <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
      <li class="item-1 active"><a href="link4.html">fourth item</a></li>
      <li class="item-0"><a href="link5.html">fifth item</a></li>
      </ul> <class 'pyquery.pyquery.PyQuery'>
      <div id="container">
      <ul class="list">
      <li class="item-0">first item</li>
      <li class="item-1"><a href="link2.html">second item</a></li>
      <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
      <li class="item-1 active"><a href="link4.html">fourth item</a></li>
      <li class="item-0"><a href="link5.html">fifth item</a></li>
      </ul>
      </div>

      父节点----parent()方法

      parents(selector=None)
      parent(selector=None)
       from pyquery import PyQuery
      
       html = '''
      <div id="container">
      <ul class="list">
      <li class="item-0">first item</li>
      <li class="item-1"><a href="link2.html">second item</a></li>
      <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
      <li class="item-1 active"><a href="link4.html">fourth item</a></li>
      <li class="item-0"><a href="link5.html">fifth item</a></li>
      </ul>
      </div>
      ''' doc = PyQuery(html) # 选择class为list的节点内部class为item-0和active的节点
      items = doc('.list .item-0.active') print(
      type(items.siblings()),
      items.siblings(),
      sep='\n'
      ) print("\n", items.siblings('.active')) # 输出:
      <class 'pyquery.pyquery.PyQuery'>
      <li class="item-1"><a href="link2.html">second item</a></li>
      <li class="item-0">first item</li>
      <li class="item-1 active"><a href="link4.html">fourth item</a></li>
      <li class="item-0"><a href="link5.html">fifth item</a></li> <li class="item-1 active"><a href="link4.html">fourth item</a></li>

      兄弟节点----siblings()方法


  • 遍历

     from pyquery import PyQuery
    
     html = '''
    <div id="container">
    <ul class="list">
    <li class="item-0">first item</li>
    <li class="item-1"><a href="link2.html">second item</a></li>
    <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
    <li class="item-1 active"><a href="link4.html">fourth item</a></li>
    <li class="item-0"><a href="link5.html">fifth item</a></li>
    </ul>
    </div>
    ''' doc = PyQuery(html)
    lis = doc('li').items() # 调用items()方法,得到一个生成器 for li in lis:
    print(
    li,
    type(li)
    ) # 输出:
    <li class="item-0">first item</li>
    <class 'pyquery.pyquery.PyQuery'>
    <li class="item-1"><a href="link2.html">second item</a></li>
    <class 'pyquery.pyquery.PyQuery'>
    <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
    <class 'pyquery.pyquery.PyQuery'>
    <li class="item-1 active"><a href="link4.html">fourth item</a></li>
    <class 'pyquery.pyquery.PyQuery'>
    <li class="item-0"><a href="link5.html">fifth item</a></li>
    <class 'pyquery.pyquery.PyQuery'>

    遍历----items()

  • 获取信息

    • 获取属性

      attr()方法获取属性
       from pyquery import PyQuery
      
       html = '''
      <div id="container">
      <ul class="list">
      <li class="item-0">first item</li>
      <li class="item-1"><a href="link2.html">second item</a></li>
      <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
      <li class="item-1 active"><a href="link4.html">fourth item</a></li>
      <li class="item-0"><a href="link5.html">fifth item</a></li>
      </ul>
      </div>
      ''' doc = PyQuery(html)
      a = doc('.item-0.active a')
      print(
      a,
      type(a),
      a.attr('href'), # 也可以用a.attr.href,两者作用相同
      sep='\n'
      ) # 输出:
      <a href="link3.html"><span class="bold">third item</span></a>
      <class 'pyquery.pyquery.PyQuery'>
      link3.html
      # 当返回结果包含多个节点时,调用attr()方法,只会得到第一个节点的属性。如果想获取所有返回的节点的属性,就要用到遍历了
    • 获取文本

       from pyquery import PyQuery
      
       html = '''
      <div id="container">
      <ul class="list">
      <li class="item-0">first item</li>
      <li class="item-1"><a href="link2.html">second item</a></li>
      <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
      <li class="item-1 active"><a href="link4.html">fourth item</a></li>
      <li class="item-0"><a href="link5.html">fifth item</a></li>
      </ul>
      </div>
      ''' doc = PyQuery(html)
      li = doc('li') print(
      li.html(), # 获取节点的内部文本
      li.text(), # 获取节点文本,返回结果是纯文字内容
      type(li.text()),
      sep='\n'
      ) # 输出:
      first item
      first item second item third item fourth item fifth item
      <class 'str'>
  • 节点操作

    • add_class() 和 remove_class() ---- 添加class、移除class

       from pyquery import PyQuery
      
       html = '''
      <div id="container">
      <ul class="list">
      <li class="item-0">first item</li>
      <li class="item-1"><a href="link2.html">second item</a></li>
      <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
      <li class="item-1 active"><a href="link4.html">fourth item</a></li>
      <li class="item-0"><a href="link5.html">fifth item</a></li>
      </ul>
      </div>
      ''' doc = PyQuery(html)
      li = doc('.item-0.active') print(li)
      print(li.remove_class('active'))
      print(li.add_class('active')) # 输出:
      <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li> <li class="item-0"><a href="link3.html"><span class="bold">third item</span></a></li> <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
    • attr、text 和 html

      # attr(*args, **kwargs) ---- Attributes manipulation
      # text(value=no_default, **kwargs) ---- Get or set the text representation of sub nodes.
      # html(value=no_default, **kwargs) ---- Get or set the html representation of sub nodes.
       from pyquery import PyQuery
      
       html = '''
      <div id="container">
      <ul class="list">
      <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
      </ul>
      </div>
      ''' doc = PyQuery(html) li = doc('.item-0.active')
      print(li) li.attr('name', 'link') # 添加属性name,属性值为link
      print(li) li.text('change item') # 将节点内部的内容改为'change item'
      print(li) li.html('<span>change item</span>') # 将节点内部的内容改为'<span>change item</span>'
      print(li) # 输出:
      <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li> <li class="item-0 active" name="link"><a href="link3.html"><span class="bold">third item</span></a></li> <li class="item-0 active" name="link">change item</li> <li class="item-0 active" name="link"><span>change item</span></li>
    • remove()----删除节点

       from pyquery import PyQuery
      
       html = '''
      <div class="LeeHua">
      LiYihua
      <ul class="201802004731">liyihua</ul>
      </div>
      ''' doc = PyQuery(html)
      Leehua = doc('.LeeHua')
      print("移除节点ul前的输出:\n"+Leehua.text()) Leehua.find('ul').remove()
      print("移除节点ul后的输出:\n"+Leehua.text()) # 输出:
      移除节点ul前的输出:
      LiYihua
      liyihua
      移除节点ul后的输出:
      LiYihua
  • 伪类选择器

    • 示例:

       from pyquery import PyQuery
      
       html = '''
      <div class="wrap">
      <div id="container">
      <ul class="list">
      <li class="item-0">first item</li>
      <li class="item-1"><a href="link2.html">second item</a></li>
      <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
      <li class="item-1 active"><a href="link4.html">fourth item</a></li>
      <li class="item-0"><a href="link5.html">fifth item</a></li>
      </ul>
      </div>
      </div>
      ''' doc = PyQuery(html) # 选择属于父元素的第一个子元素的每个 <li> 元素。
      li = doc('li:first-child')
      print(li) # 选择属于父元素的最后一个子元素的每个 <li> 元素。
      li = doc('li:last-child')
      print(li) # 选择属于其父元素的第二个子元素的每个 <li> 元素
      li = doc('li:nth-child(2)')
      print(li) # 选择属于其父元素的最后两个子元素的每个 <li> 元素
      li = doc('li:gt(2)')
      print(li) # 选择属于父元素的第偶个子元素的每个 <li> 元素。
      li = doc('li:nth-child(2n)')
      print(li) # 选择包含'second'的每个元素
      li = doc('li:contains(second)')
      print(li) # 输出:
      <li class="item-0">first item</li> <li class="item-0"><a href="link5.html">fifth item</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-1 active"><a href="link4.html">fourth item</a></li>
      <li class="item-0"><a href="link5.html">fifth item</a></li> <li class="item-1"><a href="link2.html">second item</a></li>
      <li class="item-1 active"><a href="link4.html">fourth item</a></li> <li class="item-1"><a href="link2.html">second item</a></li>

      CSS 选择器的用法:http://www.w3school.com.cn/cssref/css_selectors.asp

使用pyquery的更多相关文章

  1. pyquery的问题

    在使用pyquery时发现一些问题, 1.爬取的html中如果有较多的错误时,不能很好的补全. 2.如果要获取某个class中的内容时,如果内容太多不能取完整!只能取一部分. 这个在现在的最新版本中还 ...

  2. python爬虫神器PyQuery的使用方法

    你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有了一些 ...

  3. windows下python安装pyquery

    安装pyquery之前首先要明确一点,easyinstall 是一款python包管理器,类似于node的npm,用于安装python的扩展包,它安装的包是以*.egg的方式. 要安装pq需要经历以下 ...

  4. Python开发包推荐系列之xml、html解析器PyQuery

    使用python,喜欢她的简洁是一方面,另外就是它有着丰富的开发包 好用又方便 接下来会给大家推荐一系列很赞的开发包. 在解析html.xml过程中,我们有不少的包可以用.比如bs.lxml.xmlt ...

  5. python - PyQuery

    偶尔的机会,知道这么个扩展,手贱翻了下文档,发现似乎挺有意思,遂记录一二. what: 这是一个python版本的jquery,而且是后端执行的,至少官方是这么说的: pyquery allows y ...

  6. 【pyQuery】抓取startup news首页

    #! /usr/bin/python # coding: utf-8 from pyquery import PyQuery c=PyQuery('http://news.dbanotes.net/' ...

  7. 【pyQuery分析实例】分析体育网冠军联盟比赛成绩

    目标地址:http://www.espncricinfo.com/champions-league-twenty20-2012/engine/match/574265.html liz@nb-liz: ...

  8. 【PyQuery】PyQuery总结

    pyquery库是jQuery的Python实现,可以用于解析HTML网页内容, 官方文档地址是:http://packages.python.org/pyquery/. 二.使用方法 ? 1 fro ...

  9. win7下python安装pyquery

    安装pyquery之前首先要明确一点,easyinstall 是一款python包管理器,类似于node的npm,用于安装python的扩展包,它安装的包是以*.egg的方式. 要安装pq需要经历以下 ...

  10. Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式) <转>

    Python抓取页面中超链接(URL)的3中方法比较(HTMLParser.pyquery.正则表达式) HTMLParser版: #!/usr/bin/python # -*- coding: UT ...

随机推荐

  1. 12-z-index

    z-index 这个东西非常简单,它有四大特性,每个特性你记住了,页面布局就不会出现找不到盒子的情况. z-index 值表示谁压着谁,数值大的压盖住数值小的, 只有定位了的元素,才能有z-index ...

  2. 除了Web和Node,JavaScript还能做什么

    前言 提起JavaScript,我们也许经常会想到的是,可以用来写Web页面嘛,又或者,会想起Node.js 这个服务端环境,搞前后端同构. 那么,除此之外, JavaScript还可以做什么?   ...

  3. 如果有人问你 JFinal 如何集成 EhCache,把这篇文章甩给他

    废话不多说,就说一句:在 JFinal 中集成 EhCache,可以提高系统的并发访问速度. 可能有人会问 JFinal 是什么,EhCache 是什么,简单解释一下. JFinal 是一个基于Jav ...

  4. F#周报2019年第41期

    新闻 .NET架构指南 美妙的WebSharper:学术刊物 .NET Core 3.0中Blazor Server的方案与性能 Mono 6.4.0发布说明 CapitolFSharp召集发言人 视 ...

  5. 31、vue-cli3引入封装svg图标

    svg图标放大不失真,png会出现失真现象. 一.方法一 1.在对应vue项目里添加插件 vue add svg-sprite 输入 Y 2.在执行 npm install svgo svgo-loa ...

  6. 对BFC规范的理解

    什么是BFC? BFC 全称为 块级格式化上下文(Block Fromatting Context),是Web页面的可视化CSS渲染出的一部分.它是块级盒布局出现的区域,也是浮动层元素进行交互的区域. ...

  7. 富文编辑器和bs4简单实用

    目录 使用方法 官方网址 图片上传下载实例 菜单栏功能筛选 bs4 导入 提取标签内的文本内容 目录 使用方法 直接给输入框绑定事件即可,注意引入js方式有点不一样,多加编码方式 <script ...

  8. DataStructure之线性表以及其实现

    线性表 应用:多项式的表示 什么是线性表 多项式表示问题给出的启示: 同一个问题可以有不同的表示(存储)方法 有一类共性问题 : 有序线性序列的租住和管理 “线性表(Linear List)” : 由 ...

  9. 除法分块 luogu2261 (坑)

    除法分块 除法分块 是指使用分块计算的方法求S=∑i=1n⌊ki⌋S=\sum^{n}_{i=1}{\lfloor{\frac{k}{i}}\rfloor}S=i=1∑n​⌊ik​⌋的值. 举个例子. ...

  10. [七年技术总结系列][理论篇]-RBAC权限模型由浅入深

    权限部分将分两章介绍,第一章由浅入深介绍权限理论知识及应用,第二章介绍具体实现.后期再讲述中间件的使用时,还会插入一些权限内容,本质上属于中间件的应用. 权限模块是业务系统最常见.最基本的子集.本章假 ...