pyquery 库的使用
from pyquery import PyQuery as pq # 文件勿命名为 pyquery.py,会发生冲突 # 字符串初始化 html = ''' <div id="page"> <div id="car_test"> <ul class="menu-list"> <li class="icon1"><a href="link1.html">科目一</a></li> <li class="icon2"><a href="link2.html">科目二</a></li> <li class="icon3 subject"><a href="link3.html">科目三</a></li> <li class="icon4"><a href="link4.html">科目四</a></li> <li class="buy car"><a href="link4.html">买车</a></li> </ul> </div> </div> ''' doc = pq(html) print(doc('li')) # url初始化 doc = pq(url='https://www.jiakaobaodian.com/') print(doc('title')) # 文件初始化 doc = pq(filename='demo.html') print(doc('li')) # 基本 CSS 选择器 doc = pq(html) print(doc('#car_test .menu-list li')) print(type(doc('#car_test .menu-list li'))) # 当需要用 class 且名称内容有空格时,”.“表示并列 print(doc('.menu-list .icon3.subject, .buy.car')) # 查找节点 doc = pq(html) items = doc('.menu-list') print(type(items)) print(items) # find() 查找节点里的所有子孙节点 link_list = items.find('a') print(type(link_list)) print(link_list) print('\n') # children() 查找节点里的子节点 menu_list = items.children() print(menu_list) last_li = items.children('.buy.car') print(last_li) # parent() 父节点 car_test = items.parent() print(type(car_test)) print(car_test) # parents() 祖先节点,此处输出 class 为 page 和 car_test 的两个节点 parents = items.parents() print(parents) # siblings() 兄弟节点 li = doc('.menu-list .icon3.subject') print(li.siblings()) # 遍历 doc = pq(html) menu_list = doc('li').items() print(type(menu_list)) for li in menu_list: print(li, type(li)) # 获取信息 doc = pq(html) a = doc('.icon3.subject a') b = doc('.icon4') # 获取属性,此处为 class_ print(a.attr.href) print(b.attr.class_) # 获取文本,html() 返回节点内所有代码 print(type(a.text())) print(a.text()) print(b.text()) print(b.html())
参考资料:静觅 » [Python3网络爬虫开发实战] 4.3-使用pyquery
pyquery 库的使用的更多相关文章
- python爬虫从入门到放弃(七)之 PyQuery库的使用
PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严 ...
- 爬虫常用库之pyquery 库
pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,我个人写过的一些抓取网页数据的脚本就是用它来解析html获取数据的.他的官方文档地址是:http://packages. ...
- Python中PyQuery库的使用总结
介绍 pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,官方文档地址是:http://packages.python.org/pyquery/ pyquery 可让你用 ...
- Python爬虫-- PyQuery库
PyQuery库 PyQuery库也是一个非常强大又灵活的网页解析库,PyQuery 是 Python 仿照 jQuery 的严格实现.语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪 ...
- PYTHON 爬虫笔记六:PyQuery库基础用法
知识点一:PyQuery库详解及其基本使用 初始化 字符串初始化 html = ''' <div> <ul> <li class="item-0"&g ...
- 学习PyQuery库
学习PyQuery库 好了,又是学习的时光啦,今天学习pyquery 来进行网页解析 常规导入模块(PyQuery库中的pyquery类) from pyquery import PyQuery as ...
- python之爬虫(九)PyQuery库的使用
PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严 ...
- Python中PyQuery库的使用
pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,我个人写过的一些抓取网页数据的脚本就是用它来解析html获取数据的. 它的官方文档地址是:http://packages ...
- PyQuery库
'''强大又灵活的网页解析库.如果你觉得正则写起来太麻烦,又觉得BeautifulSoup语法太难记,如果你熟悉jQuery的语法,那么PyQuery就是你的绝佳选择.'''from pyquery ...
- 爬虫6:pyquery库
强大又灵活的网页解析库,如果觉得正则写起来太麻烦,BeautifulSoup语法太难记,而你又熟悉jQuery的语法,那么用PyQuery就是最佳选择 一. 初始化 1. 字符串初始化 h ...
随机推荐
- MySQL有四种BLOB类型
先说明一下Blob的类型,直接从网上摘抄了!!!1.MySQL有四种BLOB类型: ·tinyblob:仅255个字符 ·blob:最大限制到65K字节 ·mediumblob:限制到16M字节 ·l ...
- python之scrapy爬取某集团招聘信息以及招聘详情
1.定义爬取的字段items.py # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See do ...
- Node Newbie Error – NPM Refusing to Install Package as a Dependency of Itself
46 error argv "C:\\Program Files\\nodejs\\node.exe" "C:\\Program Files\\nodejs\\node_ ...
- 在jsp页面如何获得url参数
方法一:当一个url过来时,如:http://localhost:8080/pro/demo/hello.jsp?name=john,在hello.jsp页面,我们可以这样得到name的值: < ...
- plantuml语法
活动图(新语法) 当前活动图(activity diagram)的语法有诸多限制和缺点,比如代码难以维护. 所以从V7947开始提出一种全新的.更好的语法格式和软件实现供用户使用(beta版). 就像 ...
- Swift3.0封装 AFN 的 GET&POST网络请求
// // PSNetWorkManage.swift // WeiBoSwift // // Created by 思 彭 on 16/9/25. // Copyright © 2016年 思 彭. ...
- pynput模块—键盘鼠标操作和监听
pynput.mouse:包含控制和监控鼠标或者触摸板的类. pynput.keyboard:包含控制和监控键盘的类. 上面提到的子包都已被引入到pynput库中.要使用上面的子包,从pynput中引 ...
- golang struct 转map 及 map[string]*Struct 初始化和遍历
package main import ( "encoding/json" "errors" "fmt" "reflect&quo ...
- 改变core文件名称和生成路径
echo "/mnt/nfs/core-%e-%p-%t" > /proc/sys/kernel/core_pattern core-函数名-pid-时间戳
- 小菜鸟之HTML第一课
web项目 前端网页web(人体结构) HTML负责前端网页结构 Css负责网页样式 css引入 内联样式引入 内部样式 外部样式 三种基本引入器 id选择器 类选择器 标签选择器 <!DOCT ...