一、数据的分类

　　1、结构化数据

　　　　特点：数据以行为单位，每一个数据表示一个实体。每一行数据的属性都是一样的。
　　　　举例：关系型数据库中的表就是结构化数据。
　　　　处理方法：sql

　　2、半结构化数据

　　　　特点：结构化数据的另一种形式。他并不符合关系型数据的特点，不能用关系型模型来描述。但是这种数据包含相关标记，有用　　　　　　　来分割语义元素以及字段进行分层的描述。
　　　　　　　因此也被称为自描述结构。
　　　　举例：xml，html，json
　　　　处理方法：正则，xpath，jsonpath，css选择器。

　　3、非结构化数据：

　　　　特点：没有固定结构的数据。
　　　　举例：文档、图片、音频、视频。
　　　　处理方法：常常用二进制形式来做整体保存。

二、json数据

　　1、json是什么语言的内容？

　　　　json是js语言中用来用【字符串格式】来保存对象和数组的一种数据结构。
　　　　json数据本质上是字符串。

　　2、js种数组和对象

　　　　js的数组：var array = ['aaa','bb','cc']----和python列表对应
　　　　js的对象：var obj = {name：'zhangsan',age:10}---和python字典对应。
　　　　　　　　name = obj.name

　　3、json数据的解析方法

　　　　json模块：
　　　　（1）对json字符串的操作

　　　　　　json.loads(json_str)--->python的list或者dict
　　　　　　json.dumps(python的list或者dict) --->json_str

　　　　（2）对json文件的操作

　　　　　　json.load(fp)--->从json文件中读出json数据，返回一个python的list或者dict
　　　　　　json.dump(python的list或者dict，fp)---》python的list或者dict保存到fp所对应的的文件中。

　　4、json的意义：

　　　　（1）json作为数据格式进行传输，具有较高的效率
　　　　（2）json不像xml那样具有严格的闭合标签，所以json作为数据传输的时候，他的数据有效占比（有效数据和总数据的比）比xml高很多。
　　　　（3）在相同流量下，json比xml作为数据传输，传输的数据更多。

三、正则表达式

　　1、元字符

　　　　（1）匹配边界

　　　　　　^ ----行首
　　　　　　$-----行尾

　　　　（2）重复次数

　　　　　　？----0次或1次
　　　　　　*----->=0
　　　　　　+---- >=1
　　　　　　{n,}--->=n
　　　　　　{n,m}--->=n,<=m
　　　　　　{n}----n次

　　　　（3）各种字符的表示

　　　　　　[]----匹配括号中一个字符，单字符
　　　　　　[abc]--匹配a或者b或者c
　　　　　　[a-z0-9A-Z]
　　　　　　\d---数字
　　　　　　\w---数字字母下划线
　　　　　　\s---空白字符：换行符、制表符、空格
　　　　　　\b---单词边界
　　　　　　.----除换行符以外的任意字符。

　　2、re模块的使用。

　　　　python中re模块是用来做正则处理的。

　　　　（1）re模块的使用步骤：

#1、导包

import re

#2、将正则表达式编译成一个pattern对象

pattern = re.complie(

       r'正则表达式',

       '匹配模式'

      )

# r表示元字符。

#3、用pattern对象来使用相应的方法来匹配内容。

　　　　（2）pattern对象的方法：

　　　　　　①match方法：默认从头开始，只匹配一次，返回一个match对象。

pattern.match(

       '匹配的目标字符串'，

        start,匹配开始的位置--缺省，start = 0

        end，匹配结束的位置--缺省,end = -1

        ) # ——>match对象

　　　　　　　　　　a、match对象的属性

　　　　　　　　　　　 match.group()---获取匹配内容。
　　　　　　　　　　　　match.span()--匹配的范围
　　　　　　　　　　　　match.start()---开始位置
　　　　　　　　　　　　match.end()---结束位置

　　　　　　　　　　b、这些方法都可以带一个参数0，但是不能写1,1来表示取分组。

　　　　　　　　　　　　match.group(0)---获取匹配内容。
　　　　　　　　　　　　match.span(0)--匹配的范围
　　　　　　　　　　　　match.start(0)---开始位置
　　　　　　　　　　　　match.end(0)---结束位置
　　　　　　　　　　　　match.groups()--将所有分组的内容，按顺序放到一个元组中返回

　　　　　　②search方法：从任意位置开始匹配，只匹配一次，返回一个match对象

pattern.search(

    '匹配的目标字符串'，

    start,匹配开始的位置--缺省，start = 0

    end，匹配结束的位置--缺省,end = -1

    ） # ——>match对象

　　　　　　③findall方法：全文匹配，匹配多次，将每次匹配到的结果放到list中返回。

pattern.findall(

    '匹配的目标字符串'，

    start,匹配开始的位置--缺省，start = 0

    end，匹配结束的位置--缺省,end = -1

    ) # ——>list

　　　　　　④finditer方法：全文匹配，匹配多次，返回一个迭代器。

pattern.finditer(

    '匹配的目标字符串'，

    start,匹配开始的位置--缺省，start = 0

    end，匹配结束的位置--缺省,end = -1

    ) #——>list  # finditer主要用匹配内容比较多的情况下。

　　　　　　⑤split：切分，按照正则所表示内容进行切分字符串，返回切分后的每个子串

pattern.split(

    '要切分的字符串'，

    '切分字数'，默认是全部分。

    ) # ——>list

　　　　　　⑥sub方法：用指定字符串，替换正则表达所匹配到的内容。

pattern.sub(

    repl,#替换成什么

    content,替换什么

    count,替换次数，默认替换所有

    ) # ——>替换后的字符串

　　　　　　repl替换内容可以使函数：
　　　　　　　　函数要求：
　　　　　　　　　　a、函数必须有参数，参数就是正则匹配目标字符串所得到的每个match对象。
　　　　　　　　　　b、这个函数必须要有返回值，返回值必须是字符串，这个字符串将来就作为替换的内容。

#zhangsan:3000,lisi:4000

#涨工资每个人涨1000

content = 'zhangsan:3000,lisi:4000'

p = re.compile(r'\d+')

result = p.sub(add,)

　　　　　　⑦分组

　　　　　　　　　　分组在正则表达式中使用（）来表示的，一个括号就是一个分组。
　　　　　　　　　　分组的作用：
　　　　　　　　　　　　a、筛选特定内容
　　　　　　　　　　　　b、可以在同一个表达式中应用前面的分组：
　　　　　　　　　　　　　　\1引用第一分组
　　　　　　　　　　　　c、findall配合分组

import re

content = '<html><h1>正则表达式</h1></html>'

p = re.compile(r'<(html)><(h1)>(.*)</\2></\1>')

# print(p.search(content).group())

print(p.findall(content))#[('html', 'h1', '正则表达式')]

　　　　　　⑧贪婪非贪婪模式

　　　　　　　　　　a、贪婪和非贪婪的却别在于匹配内容的多少。
　　　　　　　　　　b、贪婪使用*来控制匹配次数的。正则默认是贪婪。
　　　　　　　　　　c、非贪婪使用?来控制的。
　　　　　　　　　　d、在表示数量控制元字符后面加一个？，此时就表示这个数量控制符取最小值，也就是非贪婪。

　　　　　　⑨匹配模式：

　　　　　　　　re.S ----.可以匹配换行符
　　　　　　　　re.I----忽略大小写。

　　　　　　⑩万能正则匹配表达式：.*?(尽可能少匹配任意内容)配合re.S

【python爬虫】正则表达式的更多相关文章

Python 爬虫-正则表达式（补）
2017-08-08 18:37:29 一.Python中正则表达式使用原生字符串的几点说明原生字符串和普通字符串的不同相较于普通字符串,原生字符串中的\就是反斜杠,并不表达转义.不过,字符串转成 ...
Python爬虫正则表达式
1.正则表达式概述正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个"规则字符串",这个"规则字符串"用来 ...
Python 爬虫-正则表达式
2017-07-27 13:52:08 一.正则表达式的概念 (1)正则表达式是用来简洁表达一组字符串的表达式,最主要应用在字符串匹配中. 正则表达式是用来简洁表达一组字符串的表达式正则表达式是一 ...
Python爬虫-正则表达式基础
import re #常规匹配 content = 'Hello 1234567 World_This is a Regex Demo' #result = re.match('^Hello\s\d\ ...
python爬虫+正则表达式实例爬取豆瓣Top250的图片
直接上全部代码新手上路代码风格可能不太好 import requests import re from fake_useragent import UserAgent #### 用来伪造爬头部信息 ...
python爬虫之re正则表达式库
python爬虫之re正则表达式库正则表达式是用来简洁表达一组字符串的表达式. 编译:将符合正则表达式语法的字符串转换成正则表达式特征操作符说明实例 . 表示任何单个字符 [ ] 字符集,对单 ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
python爬虫数据解析之正则表达式
爬虫的一般分为四步,第二个步骤就是对爬取的数据进行解析. python爬虫一般使用三种解析方式,一正则表达式,二xpath,三BeautifulSoup. 这篇博客主要记录下正则表达式的使用. 正则表 ...
Python爬虫入门之正则表达式
在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式! 1.了解正则表达式正则表达式是对字符串操作的 ...
Python爬虫与数据分析之爬虫技能：urlib库、xpath选择器、正则表达式
专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...

随机推荐

create connection SQLException, url: jdbc:mysql://localhost:3306/demo, errorCode 1045, state 28000
错误原因: 配置文件中 username 与 Mysql 关键字冲突改为:
剑指offer笔记面试题3----数组中重复的数字
题目一:找出数组中重复的数字.在一个长度为n的数组里的所有数字都在0~n-1的范围内.数组中某些数字是重复的,但不知道有几个数字重复了,也不知道每个数字重复了几次.请找出数组中任意一个重复的数字.例如 ...
ELK日志分析系统(2)-logspout收集容器日志
1. 概述安装了ELK之后,就是要考虑怎么获取log数据了. 收集log数据的方式有很多种: 1). beats采集数据发布到logstash 2). Filebeat采集数据发布到logstash ...
js-07-事件
一.js事件绑定在对象上的三种方法 a:将事件绑定在元素标签的属性上 <h3 onclick="console.log('奥特曼打怪兽')">海绵宝宝历险记</h ...
SQLSERVER预读逻辑读物理读
预读:用估计信息,去硬盘读取数据到缓存.预读100次,也就是估计将要从硬盘中读取了100页数据到缓存. 物理读:查询计划生成好以后,如果缓存缺少所需要的数据,让缓存再次去读硬盘.物理读10页,从硬盘中 ...
数据结构导论四线性表的顺序存储VS链式存储
前几章已经介绍到了顺序存储.链式存储顺序存储:初始化.插入.删除.定位链式存储:初始化.插入.删除.定位顺序存储:初始化 strudt student{ int ID://ID char nam ...
C语言复习上
通常开始学习C语言的时候,第一句写的就是"helloword" int main(){ printf("hello word"); } 接下来的日子里需要注意的 ...
数组类的创建——DynamicArray.h
完成DynamicArray类的具体实现 DynamicArray设计要点——类模板动态确定内部数组空间的大小实现函数返回数组长度拷贝构造和赋值操作 DynamicArray类的声明 templ ...
关于eclipse的maven项目Java Build Path中maven依赖报错问题
场景描述: respository仓库位置变动过,代码注解等报错解决方法: 选中项目,点击maven ->update Project即可.
使用IntelliJ IDEA创建第一个Mawen项目
咳咳...首先各位在学习SSM框架的时候,单个单个学完之后,老夫掐指一算(其实,我是个小鲜肉),各位必定会去整合SSM,这个时候,老夫又掐指一算,各位必定会碰到个mawen的东西,在这里,我可以告诉各 ...

【python爬虫】正则表达式

一、数据的分类

1、结构化数据

特点：数据以行为单位，每一个数据表示一个实体。每一行数据的属性都是一样的。 举例：关系型数据库中的表就是结构化数据。 处理方法：sql

2、半结构化数据

3、非结构化数据：

特点：没有固定结构的数据。 举例：文档、图片、音频、视频。 处理方法：常常用二进制形式来做整体保存。

二、json数据

1、json是什么语言的内容？

json是js语言中用来用【字符串格式】来保存对象和数组的一种数据结构。 json数据本质上是字符串。

2、js种数组和对象

js的数组：var array = ['aaa','bb','cc']----和python列表对应 js的对象：var obj = {name：'zhangsan',age:10}---和python字典对应。 name = obj.name

3、json数据的解析方法

json模块： （1）对json字符串的操作

json.loads(json_str)--->python的list或者dict json.dumps(python的list或者dict) --->json_str

（2）对json文件的操作

json.load(fp)--->从json文件中读出json数据，返回一个python的list或者dict json.dump(python的list或者dict，fp)---》python的list或者dict保存到fp所对应的的文件中。

4、json的意义：

三、正则表达式

1、元字符

（1）匹配边界

^ ----行首 $-----行尾

（2）重复次数

？----0次或1次 *----->=0 +---- >=1 {n,}--->=n {n,m}--->=n,<=m {n}----n次

（3）各种字符的表示

[]----匹配括号中一个字符，单字符 [abc]--匹配a或者b或者c [a-z0-9A-Z] \d---数字 \w---数字字母下划线 \s---空白字符：换行符、制表符、空格 \b---单词边界 .----除换行符以外的任意字符。

2、re模块的使用。

python中re模块是用来做正则处理的。

（1）re模块的使用步骤：

（2）pattern对象的方法：

①match方法：默认从头开始，只匹配一次，返回一个match对象。

a、match对象的属性

match.group()---获取匹配内容。 match.span()--匹配的范围 match.start()---开始位置 match.end()---结束位置

b、这些方法都可以带一个参数0，但是不能写1,1来表示取分组。

match.group(0)---获取匹配内容。 match.span(0)--匹配的范围 match.start(0)---开始位置 match.end(0)---结束位置 match.groups()--将所有分组的内容，按顺序放到一个元组中返回

③findall方法：全文匹配，匹配多次，将每次匹配到的结果放到list中返回。

④finditer方法：全文匹配，匹配多次，返回一个迭代器。

⑤split：切分，按照正则所表示内容进行切分字符串，返回切分后的每个子串

⑥sub方法：用指定字符串，替换正则表达所匹配到的内容。

repl替换内容可以使函数： 函数要求： a、函数必须有参数，参数就是正则匹配目标字符串所得到的每个match对象。 b、这个函数必须要有返回值，返回值必须是字符串，这个字符串将来就作为替换的内容。

⑦分组

分组在正则表达式中使用（）来表示的，一个括号就是一个分组。 分组的作用： a、筛选特定内容 b、可以在同一个表达式中应用前面的分组： \1引用第一分组 c、findall配合分组

⑧贪婪非贪婪模式

a、贪婪和非贪婪的却别在于匹配内容的多少。 b、贪婪使用*来控制匹配次数的。正则默认是贪婪。 c、非贪婪使用?来控制的。 d、在表示数量控制元字符后面加一个？，此时就表示这个数量控制符取最小值，也就是非贪婪。

⑨匹配模式：

re.S ----.可以匹配换行符 re.I----忽略大小写。

⑩万能正则匹配表达式：.*?(尽可能少匹配任意内容)配合re.S

【python爬虫】正则表达式的更多相关文章

随机推荐

热门专题

　　1、结构化数据

　　　　特点：数据以行为单位，每一个数据表示一个实体。每一行数据的属性都是一样的。
　　　　举例：关系型数据库中的表就是结构化数据。
　　　　处理方法：sql

　　2、半结构化数据

　　3、非结构化数据：

　　　　特点：没有固定结构的数据。
　　　　举例：文档、图片、音频、视频。
　　　　处理方法：常常用二进制形式来做整体保存。

　　1、json是什么语言的内容？

　　　　json是js语言中用来用【字符串格式】来保存对象和数组的一种数据结构。
　　　　json数据本质上是字符串。

　　2、js种数组和对象

　　　　js的数组：var array = ['aaa','bb','cc']----和python列表对应
　　　　js的对象：var obj = {name：'zhangsan',age:10}---和python字典对应。
　　　　　　　　name = obj.name

　　3、json数据的解析方法

　　　　json模块：
　　　　（1）对json字符串的操作

　　　　　　json.loads(json_str)--->python的list或者dict
　　　　　　json.dumps(python的list或者dict) --->json_str

　　　　（2）对json文件的操作

　　　　　　json.load(fp)--->从json文件中读出json数据，返回一个python的list或者dict
　　　　　　json.dump(python的list或者dict，fp)---》python的list或者dict保存到fp所对应的的文件中。

　　4、json的意义：

　　1、元字符

　　　　（1）匹配边界

　　　　　　^ ----行首
　　　　　　$-----行尾

　　　　（2）重复次数

　　　　　　？----0次或1次
　　　　　　*----->=0
　　　　　　+---- >=1
　　　　　　{n,}--->=n
　　　　　　{n,m}--->=n,<=m
　　　　　　{n}----n次

　　　　（3）各种字符的表示

　　2、re模块的使用。

　　　　python中re模块是用来做正则处理的。

　　　　（1）re模块的使用步骤：

　　　　（2）pattern对象的方法：

　　　　　　①match方法：默认从头开始，只匹配一次，返回一个match对象。

　　　　　　　　　　a、match对象的属性

　　　　　　　　　　　 match.group()---获取匹配内容。
　　　　　　　　　　　　match.span()--匹配的范围
　　　　　　　　　　　　match.start()---开始位置
　　　　　　　　　　　　match.end()---结束位置

　　　　　　　　　　b、这些方法都可以带一个参数0，但是不能写1,1来表示取分组。

　　　　　　③findall方法：全文匹配，匹配多次，将每次匹配到的结果放到list中返回。

　　　　　　④finditer方法：全文匹配，匹配多次，返回一个迭代器。

　　　　　　⑤split：切分，按照正则所表示内容进行切分字符串，返回切分后的每个子串

　　　　　　⑥sub方法：用指定字符串，替换正则表达所匹配到的内容。

　　　　　　⑦分组

　　　　　　⑧贪婪非贪婪模式

　　　　　　⑨匹配模式：

　　　　　　　　re.S ----.可以匹配换行符
　　　　　　　　re.I----忽略大小写。

　　　　　　⑩万能正则匹配表达式：.*?(尽可能少匹配任意内容)配合re.S