scrapy 选择器

逗比青年 2024-10-25 13:44:42 原文

1.lxml(转自简书）

 from lxml import etree
2 import requests
3 
4
5 url = " "
6 html = requests.get(url)
7 selector = etree.HTML(html.text)
8 content_field = selector.xpath('//div[@class="lesson-list"]/ul/li')
9 print(content_field)

Element是XML处理的核心类，Element对象可以直观的理解为XML的节点，大部分XML节点的处理都是围绕该类进行的。这部分包括三个内容：节点的操作、节点属性的操作、节点内文本的操作。

1节点操作

1创建节点

root = etree.Element("root")

2获取节点名称

print(root.tag)

3输出xml内容

print(root.tostring)

...

2属性操作

1创建属性

可以在创建Element对象时同步创建属性，第二个参数即为属性名和属性值：

root = etree.Element('root', interesting='totally')

root.set('hello', 'Huhu')

2获取属性

属性是以key-value的方式存储的，就像字典一样

print(root.get("interesting")

>>>totally

print(root.keys())

>>>["interesting","hello"]

3文本操作

print(root.text)

...

文件解析

文件解析常用的有fromstring、XML和HTML三个方法。接受的参数都是字符串。

 >>> xml_data = '<root>data</root>'

 # fromstring方法

 >>> root1 = etree.fromstring(xml_data)

 >>> print(root1.tag)

 root

 >>> print(etree.tostring(root1))

 b'<root>data</root>'

 # XML方法，与fromstring方法基本一样

 >>> root2 = etree.XML(xml_data)

 >>> print(root2.tag)

 root

 >>> print(etree.tostring(root2))

 b'<root>data</root>'

 # HTML方法，如果没有<html>和<body>标签，会自动补上

 >>> root3 = etree.HTML(xml_data)

 >>> print(root3.tag)

 html

 >>> print(etree.tostring(root3))

 b'<html><body><root>data</root></body></html>'

2.CSS和xpath

目标	CSS	XPath
所有元素	*	//*
所有的P元素	p	//p
所有的p元素的子元素	p *	//p/*
根据ID获取元素	#foo	//*[@id='foo']
根据Class获取元素	.foo	//*[contains(@class,'foo')] 1
拥有某个属性的元素	[title]	//*[@title]
所有P元素的第一个子元素	p > *:first-child	//p/*[0]
所有拥有子元素a的P元素	无法实现	//p[a]
下一个兄弟元素	p + *	//p/following-sibling::*[0]

css 选择器：

li a 选取所有li下的所有a节点

li:nth-child(3)选取第三个li元素（从1开始）

xpath:

//p[1]

scrapy 选择器的更多相关文章

scrapy选择器主要用法
# 命令行输入:scrapy shell +链接,会自动请求url,得到的相应默认为response,开启命令行交互模式 scrapy shell http://doc.scrapy.org/en/l ...
Scrapy选择器的用法
1.构造选择器: >>> response = HtmlResponse(url='http://example.com', body=body) >>> Sele ...
使用scrapy选择器selector解析获取百度结果
0x00 概述需要成功安装scrapy,安装方法与本文无关,不在这多说. 0x01 配置settings 由于百度对于user-agent进行验证,所以需要添加. settings.py中找到DEF ...
scrapy选择器归纳
python 爬虫: srcrapy框架xpath和css选择器语法 Xpath基本语法一.常用的路径表达式: 表达式描述实例 nodename 选取nodename节点的所有子节点 //div ...
Scrapy学习篇（六）之Selector选择器
当我们取得了网页的response之后,最关键的就是如何从繁杂的网页中把我们需要的数据提取出来,python从网页中提取数据的包很多,常用的有下面的几个: BeautifulSoup它基于HTML代码 ...
scrapy框架之Selectors选择器
Selectors(选择器) 当您抓取网页时,您需要执行的最常见任务是从HTML源中提取数据.有几个库可以实现这一点: BeautifulSoup是Python程序员中非常流行的网络抓取库,它基于HT ...
小白学 Python 爬虫（35）：爬虫框架 Scrapy 入门基础（三） Selector 选择器
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
scrapy中选择器用法
一.Selector选择器介绍 python从网页中提取数据常用以下两种方法: lxml:基于ElementTree的XML解析库(也可以解析HTML),不是python的标准库 BeautifulS ...
scrapy 选择器官方文档
当抓取网页时,常见的任务是从HTML源码中提取数据.现有的一些库可以达到这个目的: BeautifulSoup lxml Scrapy 提取数据有自己的一套机制.它们被称作选择器(seletors), ...

随机推荐

搞站思路 <陆续完善中>
只提供思路经验分享.不提供日站方法....一般站点那里最容易出现问题入手思路: 主站一般都很安全.一般从二级域名下手多看看那些大站新出来的测试分站点猜路径别忘了google 考虑看站点下的rob ...
[转帖]SAP一句话入门：Finacial & Controlling Accounting
SAP一句话入门:Finacial & Controlling Accounting http://blog.vsharing.com/MilesForce/A621147.html 财务,财 ...
Mysql DBA 运维 MySQL数据库索引优化及数据丢失案例 MySQL备份-增量备份及数据恢复基础实战 MySQL数据库生产场景核心优化
需要的联系我,QQ:1844912514
Django--CRM
一 . 什么是CRM CRM就是客户关系管理系统(customer relationship management) 二 . 用户登录 # models.py文件 class UserProfile( ...
umask 文件默认权限
参考资料 http://book.51cto.com/art/200709/57189.htm umask就是指定当前用户在建立文件或目录时候的属性默认值. linux-xdYUnA:~ # umas ...
Java反射交换两个整型变量的值
在一次面试中,做了这么一道题"交换两个整型变量的值",当时看到这个题目之后,会心一笑,这也太简单了--直接使用中间变量交换不就可以了吗?但是,面试官却说不需要返回值,在调用的地方, ...
c#处理json数据最好的方式，没有之一。
c#处理json数据最好的方式,没有之一. 引用Json.Net(需要.NET 4.5及以上版本) using Newtonsoft.Json.Linq; 使用非常简单 JObject result ...
ASP.NET Core Building chat room using WebSocket
Creating “Login form” We use here simple form where user can insert his or her preferred nick name f ...
hdu-3294（最长回文子串）
题意:给你一个字符和一个字符串让你求出最长回文子串并且输出来,答案需要根据给出的字符转换一下,就是将给出的字符认定为a,然后依次向后推: 解题思路:manacher模板+一些处理代码: #inclu ...
Go语言的接口
一.接口的定义和好处我们都知道接口给类提供了一种多态的机制,什么是多态,多态就是系统根据类型的具体实现完成不同的行为. 以下代码简单说明了接口的作用 package main import ( &q ...