学习PyQuery库

好了，又是学习的时光啦，今天学习pyquery 来进行网页解析

常规导入模块（PyQuery库中的pyquery类）

from pyquery import PyQuery as pq

通常使用url初始化

doc = pq(url='http://www.baidu.com')

文件初始化

doc = pq(filename='demo.html')

基本CSS选择器的使用，以起点中文网的为例子

doc = pq(url='https://www.qidian.com/free/all')

下面来获取小说名字信息

1.打开浏览器，进入要分析的网页

2.F12开发人员调试工具

3.进行元素检查

4.定位到爬取节点指定位置

5.分析一下我们自己写 CSS选择器方法

id 使用的是# class 使用的是英文句号空格代表层级关系

此时我们先使用语句来获取页面中的所有<h4>的元素

doc = pq(url='https://www.qidian.com/free/all')

a = doc('h4').items()

for i in a:

print(i)

迭代出所筛选出来的结果

但也会遇到上面的情况，共同是h4元素的，但筛选到我们不想要的数据。

这时我们可以采用往上级找，直到找到有区别的元素。

doc = pq(url='https://www.qidian.com/free/all')

a = doc('.book-mid-info h4').items()

for i in a:

    print(i)

得到了期待的数据！！！（要还是有那前两个，说明还定位不够准确，再往上一层走）

我们如果要获取简介内容，我们可以下图方式代码获取子节点（记得find方法是子孙节点）

但上图也没抓取我们特别想要的信息呀，这时发现我们所指定的解析底下有很多li标签里标签底下又有很多内容，所以此时还得继续往下解析。

首先我们用children方法查找子节点，然后使用items方法来得到一个生成器，将数据遍历打印或者添加到列表中，方便数据存储和最终结果打印。

此时我们来获取一下小说的图片链接试试利用attrs方法来返回属性字典进一步获取value值。

怎么来抓取解析节点理清层级关系利用好 F12来分析就好啦！！！

总结一下：

id 使用的是# class 使用的是英文句号空格代表层级关系

find()方法是遍历子孙节点

chlidren()方法是获取节点的子节点（看上面实例也支持往下继续选择节点）

parent()方法是获取节点的父节点

parents()方法是获取节点的所有父节点（下面实例从所有祖先节点中挑选出符合条件的节点）

parent = items.parents('.wrap')

print(parent)

siblings()方法是获取兄弟节点（下面实例从所有兄弟节点中挑选出符合条件的节点）

from pyquery import PyQuery as pq

doc = pq(html)

li = doc('.list .item-0.active')

print(li.siblings('.active'))

items()方法是用于遍历每一个节点结果

attr()方法是返回属性字典进一步获取value值

text()方法是获取节点内部文本（Tips：当内容中前后出现\n 空格可配合strip()来删除）

也可以百度学习下伪类选择器来获取节点数据，而且右键就能copy出表达式！！！

学习PyQuery库的更多相关文章

MXNet 学习 (1) --- 最易上手的深度学习开源库 --- 安装及环境搭建
安装环境:Win 10 专业版 64位 + Visual Studio 2015 Community. 记录下自己在有GPU的环境下安装配置MXNet的过程.该过程直接使用MXNet release ...
python爬虫从入门到放弃（七）之 PyQuery库的使用
PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严 ...
爬虫常用库之pyquery 库
pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,我个人写过的一些抓取网页数据的脚本就是用它来解析html获取数据的.他的官方文档地址是:http://packages. ...
深度学习开源库tiny-dnn的使用(MNIST)
tiny-dnn是一个基于DNN的深度学习开源库,它的License是BSD 3-Clause.之前名字是tiny-cnn是基于CNN的,tiny-dnn与tiny-cnn相关又增加了些新层.此开源库 ...
Python中PyQuery库的使用总结
介绍 pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,官方文档地址是:http://packages.python.org/pyquery/ pyquery 可让你用 ...
Python爬虫-- PyQuery库
PyQuery库 PyQuery库也是一个非常强大又灵活的网页解析库,PyQuery 是 Python 仿照 jQuery 的严格实现.语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪 ...
PYTHON 爬虫笔记六:PyQuery库基础用法
知识点一:PyQuery库详解及其基本使用初始化字符串初始化 html = ''' <div> <ul> <li class="item-0"&g ...
AI炼丹 - 深度学习必备库 numpy
目录深度学习必备库 - Numpy 1. 基础数据结构ndarray数组 1.1 为什么引入ndarray数组 1.2 如何创建ndarray数组 1.3 ndarray 数组的基本运算 1.4 n ...
资源| 学习视频库-永久有效,持续更新!附赠java面试汇总
每天进步一丢丢,连接梦与想我们总是羡慕他人的光芒,却忘记自己也会发光声明资源来自于网络,小编只是资源的搬运工,若有侵权,联系小编即删. 期待已久的学习视频库来啦! 经过小编多日整理,整理了1.5 ...

随机推荐

Jmeter之Json Path Extractor 接受上一个请求的响应参数
最近在使用Jmeter进行接口测试,被一个问题困扰了很久,就是第二个请求如何接收上一个请求响应中的参数,刚开始尝试着用网上普遍说的正则表达式,长了了N多次之,都没有达到我想要的效果,被整的够惨,于是, ...
php.ini配置文件位置
laravel之今天遇到个意想不到的问题: 我在测试文件上传,大于2M的文件时候hasFile() 方法报错,这一定是文件大小限制.接下来就跳坑了 1.首先查找php.ini的位置,就用find / ...
bzoj 4456 [Zjoi2016]旅行者
题面 https://www.lydsy.com/JudgeOnline/problem.php?id=4456 题解分治设当前work的区间为(x1,y1,x2,y2) 我们将长边分成两半不妨 ...
513 Find Bottom Left Tree Value 找树左下角的值
给定一个二叉树,在树的最后一行找到最左边的值. 详见:https://leetcode.com/problems/find-bottom-left-tree-value/description/ C+ ...
PKU_campus_2017_K Lying Island
思路: 题目链接http://poj.openjudge.cn/practice/C17K/ 状压dp.dp[i][j]表示第i - k人到第i人的状态为j的情况下前i人中最多有多少好人. 实现: # ...
Kali部署openvas初探与实践
openvas安装 1.我用的清华大学的源,所以我把/etc/apt/source.list中下入如下源地址 #清华大学deb http://mirrors.tuna.tsinghua.edu.cn/ ...
tcpdump 使用详解——转载
http://www.cnblogs.com/ggjucheng/archive/2012/01/14/2322659.html 简介用简单的话来定义tcpdump,就是:dump the traf ...
[Python筆記] 將 Pandas 的 Dataframe 寫入 Sqlite3
使用 pandas.io 寫入 Sqlite import sqlite3 as lite from pandas.io import sql import pandas as pd 依照 if_ex ...
ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) 忘记mysql密码
[root@mysql-db03 ~]# mysql -uroot -poldboy123Warning: Using a password on the command line interface ...
GitHub简单命令行# 使用命令行传代码到GitHub
第一次提交代码到Github 第一步: 建立本地仓库cd到你的本地项目根目录下,执行git命令 cd到本地项目 git init 第二步: 将本地项目工作区的所有文件添加到暂存区 git add . ...

学习PyQuery库

学习PyQuery库

学习PyQuery库的更多相关文章

随机推荐

热门专题