python爬虫---爬虫的数据解析的流程和解析数据的几种方式

一丶爬虫数据解析

概念：将一整张页面中的局部数据进行提取/解析

作用：用来实现聚焦爬虫的吧

实现方式：

正则 (针对字符串)

bs4

xpath (最常用)

pyquery   " https://www.jianshu.com/p/770c0cdef481"  # 有待查询

数据解析的通用原理是什么？

标签的定位

数据的提取

页面中的相关的字符串的数据都存储在哪里呢？

标签中间

标签的属性中

基于聚焦爬虫的编码流程

1. 指定url

2. 发起请求

3. 获取响应数据

4. 数据解析

5. 持久化存储

正则解析

### 使用python中的re模块进行正则匹配,对找到的指定数据进行数据解析

    # 例如:

        # text获取页面内容.

    	page_text = requests.get(url,headers=headers).text

        # 解析数据：img标签的src的属性值

    	ex = '<div class="text">.*?<img src="(.*?)" referrerPolicy.*?</div>'

        # ex 是正则表达式,page_text是获取的页面,flags=re.S表示不换行(一行查找,正则表达式会将这个字符串作为一个整体，在整体中进行匹配)

    	img_src_list = re.findall(ex,page_text,re.S)

BS4解析

# 概述BS4的用法

	# 环境的安装：

        pip install bs4

        pip install lxml

	# bs4的解析原理：

        实例化一个BeautifulSoup的一个对象，把即将被解析的页面源码数据加载到该对象中

        需要调用BeautifulSoup对象中的相关的方法和属性进行标签定位和数据的提取

    # BeautifulSoup的实例化

        BeautifulSoup(fp,'lxml'):将本地存储的html文档中的页面源码数据加载到该对象中

        BeautifulSoup（page_text,'lxml'）:将从互联网中请求道的页面源码数据加载到改对象中

    # 标签的定位

		 标签定位:soup.tagName:只可以定位到第一个tagName标签

		 属性定位：soup.find('tagName',attrName='value'),只可以定位到符合要求的第一个标签

			# findAll:返回值是一个列表。可以定位到符合要求的所有标签

		 选择器定位：soup.select('选择器')

			# 选择器：id，class，tag,层级选择器(大于号表示一个层级，空格表示多个层级)

	# 取文本

		text:将标签中所有的文本取出

		 string:将标签中直系的文本取出

    # 取属性

		 tag['attrName']

XPATH解析

# 概述

	# 环境的安装

		pip install lxml

	# 解析原理

		实例化一个etree的对象，且把即将被解析的页面源码数据加载到该对象中

		调用etree对象中的xpath方法结合这不同形式的xpath表达式进行标签定位和数据提取

	# etree对象的实例化

        etree.parse('fileName')

        etree.HTML(page_text)

	# 标签定位

        最左侧的/:一定要从根标签开始进行标签定位

        非最左侧的/:表示一个层级

        最左侧的//：可以从任意位置进行指定标签的定位

        非最左侧的//：表示多个层级

        属性定位：//tagName[@attrName="value"]

        索引定位：//tagName[@attrName="value"]/li[2],索引是从1开始

        逻辑运算：

        	找到href属性值为空且class属性值为du的a标签

        	//a[@href="" and @class="du"]

        	模糊匹配：

        	//div[contains(@class, "ng")]

        	//div[starts-with(@class, "ta")]

	# 取文本

		/text():直系的文本内容

		//text()：所有的文本内容

	# 取属性

		/@attrName

其他问题

# 乱码问题

	# 1. 先编码成 iso-8895-1 在解码

 img_name = img_name.encode('iso-8859-1').decode('gbk')

# .bs4实现的数据解析中常用的方法和属性有哪些？各自的作用是什么？

    soup.tagName

    find/findAll()

    select()

    text/string

    tag['attrName]

# .写出常用的xpath表达式？

    属性定位

    索引定位

    取文本

    取属性

python爬虫---爬虫的数据解析的流程和解析数据的几种方式的更多相关文章

Log4j源码解析--框架流程+核心解析
OK,现在我们来研究Log4j的源码: 这篇博客有参照上善若水的博客,原文出处:http://www.blogjava.net/DLevin/archive/2012/06/28/381667.htm ...
在Python中反向遍历序列(列表、字符串、元组等)的五种方式
1. reversed() a = [1, 2, 3, 4] for i in reversed(a): print(i) 2. range(len(a)-1, -1, -1) a = [1, 2, ...
Repeater 控件当数据源没有数据的时候显示暂无数据的两种方式
第一种:现在前台给Repeater控件外面的div加一个runat=”server” 然后在cs后台判断数据源是否为空, 是的话就修改这个前台div的InnerText或者是InnerHtml 即可 ...
【TP3.2 + 其他任何PHP框架】编辑、删除、添加数据，返回原分页（ajax+form两种方式提交均可以）
1.目的1:在如下的一个页面中,p=2,比如我们删除数据id=13,通过ajax提交{id,p} 这2个参数,就可以了,页面返回json的url参数中原样带上p即可. 2.目的2: 步骤1:在如下页面 ...
Python 35 线程（1）线程理论、开启线程的两种方式
一:线程理论 1 什么是线程进程其实一个资源单位,而进程内的线程才是cpu上的执行单位线程其实指的就是代码的执行过程2 为何要用线程线程vs进程 1. 同一进程下的多个线程共享该进程 ...
05.Python网络爬虫之三种数据解析方式
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
05，Python网络爬虫之三种数据解析方式
回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据 ...
《Python网络爬虫之三种数据解析方式》
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
05 Python网络爬虫的数据解析方式
一.爬虫数据解析的流程 1.指定url 2.基于requests模块发起请求 3.获取响应中的数据 4.数据解析 5.进行持久化存储二.解析方法 (1)正则解析 (2)bs4解析 (3)xpath解 ...

随机推荐

洛谷P2680 运输计划(倍增LCA + 树上差分 + 二分答案)
[题目链接] [思路]: 根据题意可以明显看出,当所有任务都完成时的时间是最终的结果,也就是说本题要求,求出最小的最大值. 那这样的话就暗示了将答案二分,进行check. [check方法]: 如果说 ...
14-C#笔记-字符串
1. 基本操作 using System; namespace StringApplication { class Program { static void Main(string[] args) ...
码云因为认证失败导致推送失败生成 SSH 密钥对
IComparable<T>.CompareTo(T) 方法
IComparable<T>.CompareTo(T) 方法定义命名空间: System 程序集: System.Runtime.dll, mscorlib.dll, netstand ...
Scrapy笔记05- Item详解
Scrapy笔记05- Item详解 Item是保存结构数据的地方,Scrapy可以将解析结果以字典形式返回,但是Python中字典缺少结构,在大型爬虫系统中很不方便. Item提供了类字典的API, ...
win +R
一.电脑设置免登录密码及修改密码 1.win+R 2.输入control userpasswords2 3.勾选免密码账号登陆,修改密码二.打开性能监视器 1.win+R 2.输入perfmon.e ...
第02组 Alpha冲刺（2/4）
队名:十一个憨批组长博客作业博客组长黄智过去两天完成的任务:写博客,复习C语言 GitHub签入记录接下来的计划:构思游戏实现还剩下哪些任务:敲代码燃尽图遇到的困难:Alpha冲刺时间 ...
iptables 的几个状态
iptables的状态跟踪连接有4种,分别是:NEW.ESTABLISHED.RELATED.INVALID,除了从本机出去的数据包有NAT表的OUTPUT链处理外,其它所有的状态跟踪都在NAT表中的 ...
C++ 派生类覆盖重载基类函数
派生类希望基类重载函数可见,情况有三种: a)派生类中覆盖某个版本,则某个版本可见,全部都覆盖重写,则全部版本可见. b)派生类中一个也不覆盖,则全部基类版本可见. c)派生类需要添加新的重载版本,同 ...
全球 IPv4 地址正式耗尽
重要消息: 就在 2019/11/25 UTC+1 15:35 时,一封来自欧洲 RIPE NCC 的邮件中得到确认:全球的IPv4地址已经彻底耗尽. IPv4 大家应该很熟悉了,就是我们平常所知道的 ...

python爬虫---爬虫的数据解析的流程和解析数据的几种方式

python爬虫---爬虫的数据解析的流程和解析数据的几种方式

一丶爬虫数据解析

概念：将一整张页面中的局部数据进行提取/解析

作用：用来实现聚焦爬虫的吧

实现方式：

数据解析的通用原理是什么？

页面中的相关的字符串的数据都存储在哪里呢？

基于聚焦爬虫的编码流程

正则解析

BS4解析

XPATH解析

其他问题

python爬虫---爬虫的数据解析的流程和解析数据的几种方式的更多相关文章

随机推荐

热门专题