一.正则匹配 简单用法演示: 字符: print(re.findall(".","abccc31223dn哈哈")) ### . 匹配除了换行符以外的任意字符,搭配re.S可搭配任意字符(包括空行)#['a', 'b', 'c', 'c', 'c', '3', '1', '2', '2', '3', 'd', 'n', '哈', '哈'] print(re.findall("ab[c,d]f","ab,f")) #匹配集合中任…
一.数据类型及解析方式 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值.内容一般分为两部分,非结构化的数据 和 结构化的数据. 非结构化数据:先有数据,再有结构, 结构化数据:先有结构.再有数据 不同类型的数据,我们需要采用不同的方式来处理. 1.非结构化的数据处理 文本.电话号码.邮箱地址 用:正则表达式 html文件 用:正则表达式 / xpath/css选择器/bs4 2.结构化的数据处理 json文件 用:jsonPath / 转化成Python类型进行操作(…
数据解析 什么是数据解析及作用 概念:就是将一组数据中的局部数据进行提取 作用:来实现聚焦爬虫 数据解析的通用原理 标签定位 取文本或者属性 正则解析 正则回顾 单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字.字母.下划线.中文 \W : 非\w \s :所有的空白字符包,括空格.制表符.换页符等等.等价于 [ \f\n\r\t\v]. \S : 非空白 数量修饰: * : 任意多次 >=0…
一 聚焦爬虫数据解析 1.1 基本介绍 聚焦爬虫的编码流程 指定url 基于requests模块发起请求 获取响应对象中的数据 数据解析 进行持久化存储 如何实现数据解析 三种数据解析方式 正则表达式 bs4 xpath 数据解析的原理 - 进行标签定位 - 获取定位好的标签里面的文本数据和属性值 1.2  爬取一个网站的图片 import requests # 1. 指定url url = "http://mpic.spriteapp.cn/ugc/2019/09/01/5d6be8e4396…
1.数据解析 解析: 根据指定的规则对数据进行提取 作用: 实现聚焦爬虫 数据解析方式: - 正则表达式 - bs4 - xpath 数据解析的通用原理: 数据解析需要作用在页面源码中(一组html标签组成的) html:的核心作用是展示数据 通用原理: 标签定位 获取文本或者属性 正则表达式实现数据解析 # 需求:爬取糗事百科中糗图数据 import requests headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64;…
BeautifulSoup是一个可以从HTML或者XML文件中提取数据的python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. BeautfulSoup是python爬虫三大解析方法之一. 首先来看个例子: from bs4 import BeautifulSoup html_doc = """ <html><head><title>The Dormouse's story</title></h…
上半部分内容链接 : https://www.cnblogs.com/lowmanisbusy/p/9069330.html 四.json和jsonpath的使用 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写.同时也方便了机器进行解析和生成.适用于进行数据交互的场景,比如网站前台与后台之间的数据交互. JSON和XML的比较可谓不相上下. Python 2.7中自带了JSON模块,直接import json就可以使…
这里主要是做一个关于数据爬取以后的数据解析功能的整合,方便查阅,以防混淆 主要讲到的技术有Xpath,BeautifulSoup,PyQuery,re(正则) 首先举出两个作示例的代码,方便后面举例 解析之前需要先将html代码转换成相应的对象,各自的方法如下: Xpath: In [7]: from lxml import etree In [8]: text = etree.HTML(html) BeautifulSoup: In [2]: from bs4 import Beautiful…
xpath 解析 模块安装 : pip install lxml xpath的解析原理 实例化一个etree类型的对象,且将页面源码数据加载到该对象中 需要调用该对象的xpath方法结合着不同形式的xpath表达式进行标签定位和数据提取 etree对象的实例化 etree.parse(fileNane) 加载本地 etree.HTML(page_text) 加载网络请求的响应 xpath方法返回的永远是一个列表 标签定位 在xpath表达式中最最侧的 / 表示的含义是说,当前定位的标签必须从根节…
request实现数据爬取的流程: 指定url 基于request发起请求 获取响应的数据 数据解析 持久化存储 1.正则解析: 常用的正则回顾:https://www.cnblogs.com/wqzn/p/9489313.html 单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [-] \D : 非数字 \w :数字.字母.下划线.中文 \W : 非\w \s :所有的空白字符包,括空格.制表符.换页符等等.等价于 [ \f\n\r\…