Python爬虫10-页面解析数据提取思路方法与简单正则应用

GitHub代码练习地址：正则1：https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac15_RE1.py
　　　　　　　　　　 正则2：match、search、findall函数的使用案例：https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac16_RE2.py

一、页面解析和数据提取

　　①结构化数据： 先有的结构，在谈数据
    　　JSON文件
          JSON Path
          转换成Python类型进行操作（json类）
    　　XML文件
          转换成python类型（xmltodict）
          XPath
          CSS选择器
          正则
　　 ②非结构化数据：先有数据，再谈结构
    　　　 文本
   　　    电话号码
   　　　  邮箱地址
          通常处理此类数据，使用正则表达式
    　　   Html文件
        　　正则
        　　XPath
        　　CSS选择器

二、正则简单应用

正则表达式：一套规则，可以在字符串文本中进行搜查替换等

python中正则模块是re

使用大致步骤：
　　1. compile函数将正则表达式的字符串编译为一个Pattern对象
　　2. 通过Pattern对象的一些列方法对文本进行匹配，匹配结果是一个Match对象
　　3. 用Match对象的方法，对结果进行操纵

正则常用方法：
    match: 从开始位置开始查找，一次匹配
    search：从任何位置查找，一次匹配， 案例v25
    findall： 全部匹配，返回列表, 案例v26
    finditer： 全部匹配，返回迭代器, 案例v26
    split： 分割字符串，返回列表
    sub：替换
匹配中文
    中文unicode范围主要在[u4e00-u9fa5]

贪婪与非贪婪模式
    贪婪模式： 在整个表达式匹配成功的前提下，尽可能多的匹配
    非贪婪模式： xxxxxxxxxxxxxxxxxxxxxx, 尽可能少的匹配
    python里面数量词默认是贪婪模式
    例如：
        查找文本abbbbbbccc
        re是 ab*（*表示可以有一个或多个，也可以没有）
        贪婪模式： 结果是abbbbbb
        非贪婪： 结果是a

Python爬虫10-页面解析数据提取思路方法与简单正则应用的更多相关文章

python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(1)
一.数据类型及解析方式一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值.内容一般分为两部分,非结构化的数据和结构化的数据. 非结构化数据:先有数据,再有结构, 结构化数 ...
java调用Linux执行Python爬虫，并将数据存储到elasticsearch--（环境脚本搭建）
java调用Linux执行Python爬虫,并将数据存储到elasticsearch中一.以下博客代码使用的开发工具及环境如下: 1.idea: 2.jdk:1.8 3.elasticsearch: ...
Python爬虫丨大众点评数据爬虫教程（1）
大众点评数据获取 --- 基础版本大众点评是一款非常受普罗大众喜爱的一个第三方的美食相关的点评网站. 因此,该网站的数据也就非常有价值.优惠,评价数量,好评度等数据也就非常受数据公司的欢迎. 今天就 ...
ASP.NET页面间数据传递的方法<转>
ASP.NET页面间数据传递的方法作者: 灰色的天空2 来源: 博客园发布时间: 2010-10-28 11:06 阅读: 822 次推荐: 0 原文链接 [收藏] 摘要:本 ...
python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(2)
上半部分内容链接 : https://www.cnblogs.com/lowmanisbusy/p/9069330.html 四.json和jsonpath的使用 JSON(JavaScript Ob ...
数据之路 - Python爬虫 - 动态页面
一.Ajax数据爬取 1.Ajax介绍 Ajax,全称为Asynchronous JavaScript and XML,即异步的JavaScript和XML. 它不是一门编程语言,而是利用JavaSc ...
python爬虫——爬取网页数据和解析数据
1.网络爬虫的基本概念网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.只要浏览器能够做的事情,原则上,爬虫都能够做到. 2 ...
Python爬虫的三种数据解析方式
数据解析方式 - 正则 - xpath - bs4 数据解析的原理: 标签的定位提取标签中存储的文本数据或者标签属性中存储的数据正则 # 正则表达式单字符: . : 除换行以外所有字符 [] : ...
python爬虫爬取天气数据并图形化显示
前言使用python进行网页数据的爬取现在已经很常见了,而对天气数据的爬取更是入门级的新手操作,很多人学习爬虫都从天气开始,本文便是介绍了从中国天气网爬取天气数据,能够实现输入想要查询的城市,返回该 ...

随机推荐

VS2012中出现“无法启动程序...debug\abc.exe,系统找不到指定文件”的问题！
VS 2005在生成可执行文件时使用了一种新的技术,该技术生成的可执行文件会伴随生成一个清单文件(manifest file)(.manifest后缀文件)(其本质上是XML文档,你可以用文本编辑器打 ...
Centos7 编译安装Nginx 教程
相信经过上篇博文的学习,聪明的你已经学会了如何在Centos7 上通过yum 方式安装Nginx ,但是有时候有些场景或者特俗情况下,我们往往需要通过编译源码方式安装,以便于更灵活地定制我们的Ngin ...
Python 员工信息管理系统
学Python将近一个月了,第一次写了两百多行代码,一个很简单的脚本. 员工信息管理系统: 需求: 1.管理员账户能够增加,删除,修改,查询员工信息,并且设置管理员账户. 2.普通账户可以查看所有员工 ...
BZOJ3613: [Heoi2014]南园满地堆轻絮
分析: 构造数据时间有些长,可以用秦九韶优化一下. 二分答案+贪心,即:另每一个b[i]尽可能的小的同时满足题意,在枚举过程中,判断是否存在一个b[i-1]>a[i]+x 如果存在,那么向右找 ...
jdk源码剖析四：JDK1.7升级1.8 HashMap原理的变化
一.hashMap数据结构如上图所示,JDK7之前hashmap又叫散列链表:基于一个数组以及多个链表的实现,hash值冲突的时候,就将对应节点以链表的形式存储. JDK8中,当同一个hash值(T ...
微服务架构 - 基于Harbor构建本地镜像仓库
之前写过<搭建docker本地镜像仓库并提供权限校验及UI界面>文章,然后有同仁评论道这样做太复杂了,如果Harbor来搭建会更简单同时功能也更强大.于是抽时间研究了基于Harbor构建本 ...
golang从简单的即时聊天来看架构演变
前言俗话说的好,架构从来都不是一蹴而就的,没有什么架构一开始设计就是最终版本,其中需要经过很多步骤的变化,今天我们就从一个最简单的例子来看看,究竟架构这个东西是怎么变的. 我将从一个最简单的聊天室的 ...
Bootstrap优秀模板-INSPINIA.2.9.2
下载量最高的Bootstrap管理端模板,完美适配H5,.NET COre.MVC5.Ruby on Rails多种开发环境. 下面是官方介绍:INSPINIA Admin Theme is a pr ...
Redis in .NET Core 入门：(3) Hash
第1篇:https://www.cnblogs.com/cgzl/p/10294175.html 第2篇 String:https://www.cnblogs.com/cgzl/p/10297565. ...
多租户实现之基于Mybatis,Mycat的共享数据库，共享数据架构
前言 SaaS模式是什么? 传统的软件模式是在开发出软件产品后,需要去客户现场进行实施,通常部署在局域网,这样开发.部署及维护的成本都是比较高的. 现在随着云服务技术的蓬勃发展,就出现了SaaS模式. ...

Python爬虫10-页面解析数据提取思路方法与简单正则应用

Python爬虫10-页面解析数据提取思路方法与简单正则应用的更多相关文章

随机推荐

热门专题