Python网络爬虫之三种数据解析方式

1. 正则解析

正则例题

import  re

# string1 = """<div>静夜思

# 窗前明月光

# 疑是地上霜

# 举头望明月

# 低头思故乡

# </div>"""

# print(re.findall('<div>(.*)</div>',string1,re.S))

#如果不使用re.S参数，则只在每一行内进行匹配，如果一行没有，就换下一行重新开始，不会跨行。

# 而使用re.S参数以后，正则表达式会将这个字符串作为一个整体，将“\n”当做一个普通的字符加入到这个字符串中，在整体中进行匹配

#匹配以i 开头的行

# string = '''fall in love with you

# i love you very much

# i love she

# i love her'''

# print(re.findall('^i.*',string,re.M))

#re.M表示将字符串视为多行,从而^匹配每一行的行首,$匹配每一行的行尾

#提取出python

# key="javapythonc++php"

# print(re.findall('python',key))

#提取出hello world

# key="<html><h1>hello world<h1></html>"

# print(re.findall('<h1>(.*)<h1>',key)[0])

#提取170

# string = '我喜欢身高为170的女孩'

# print(re.findall('\d+',string))

#提取出hit. :贪婪模式：尽可能多的匹配数据

# key='bobo@hit.edu.com'#想要匹配到hit.

# print(re.findall('h.*?\.',key))

糗图下载案例

import requests

import re

import os

url = 'https://www.qiushibaike.com/pic/'

header = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'

}

# 创建一个存储图片的文件夹

dir_name = 'qiutu'

if not os.path.exists(dir_name):

    os.mkdir(dir_name)

response = requests.get(url=url, headers=header)

# 获取字符串类型数据

page_text = response.text

# print(page_text)

# 使用正则进行数据解析（图片（img中src属性中存储的数据值））

src_list = re.findall('<div class="thumb">.*?<img src="(.*?)".*?>.*?</div>', page_text, re.S)

# 拼接图片的url

for src in src_list:

    # 获取了图片完整的url

    src = 'https:' + src

    # 下载图片（发请求）

    image_data = requests.get(url=src, headers=header).content

    fileName = src.split('/')[-1]

    filePath = dir_name + '/' + fileName

    with open(filePath, 'wb') as fp:

        fp.write(image_data)

        print('一张图片下载成功')

2. xpath

2.1 格式

from lxml import etree

    两种方式使用：将html文档变成一个对象，然后调用对象的方法去查找指定的节点

    （1）本地文件

        tree = etree.parse(文件名)

    （2）网络文件

        tree = etree.HTML(网页字符串)

    ret = tree.xpath(路径表达式)

3.bs4解析

环境安装

- windows

    （1）打开文件资源管理器(文件夹地址栏中)

    （2）地址栏上面输入 %appdata%

    （3）在这里面新建一个文件夹  pip

    （4）在pip文件夹里面新建一个文件叫做  pip.ini ,内容写如下即可

        [global]

        timeout = 6000

        index-url = https://mirrors.aliyun.com/pypi/simple/

        trusted-host = mirrors.aliyun.com

   - linux

    （1）cd ~

    （2）mkdir ~/.pip

    （3）vi ~/.pip/pip.conf

    （4）编辑内容，和windows一模一样

  - 需要安装：pip install bs4

    bs4在使用时候需要一个第三方库，把这个库也安装一下

    pip install lxml

用法

- from bs4 import BeautifulSoup

- 使用方式：可以将一个html文档，转化为BeautifulSoup对象，然后通过对象的方法或者属性去查找指定的内容

  （1）转化本地文件：

      - soup = BeautifulSoup(open('本地文件'), 'lxml')

  （2）转化网络文件：

      - soup = BeautifulSoup('字符串类型或者字节类型', 'lxml')

  （3）打印soup对象显示内容为html文件中的内容

Python网络爬虫之三种数据解析方式的更多相关文章

05.Python网络爬虫之三种数据解析方式
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
05，Python网络爬虫之三种数据解析方式
回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据 ...
《Python网络爬虫之三种数据解析方式》
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
Python网络爬虫之三种数据解析方式 (xpath, 正则, bs4)
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
Python爬虫之三种数据解析方式
一.引入二.回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需 ...
Python网络爬虫实战(二)数据解析
上一篇说完了如何爬取一个网页,以及爬取中可能遇到的几个问题.那么接下来我们就需要对已经爬取下来的网页进行解析,从中提取出我们想要的数据. 根据爬取下来的数据,我们需要写不同的解析方式,最常见的一般都是 ...
Python爬虫的三种数据解析方式
数据解析方式 - 正则 - xpath - bs4 数据解析的原理: 标签的定位提取标签中存储的文本数据或者标签属性中存储的数据正则 # 正则表达式单字符: . : 除换行以外所有字符 [] : ...
python网络爬虫数据中的三种数据解析方式
一.正则解析常用正则表达式回顾: 单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字.字母.下划线 ...
Python多线程爬虫与多种数据存储方式实现(Python爬虫实战2)
1. 多进程爬虫对于数据量较大的爬虫,对数据的处理要求较高时,可以采用python多进程或多线程的机制完成,多进程是指分配多个CPU处理程序,同一时刻只有一个CPU在工作,多线程是指进程内部有多个类 ...

随机推荐

解决js复制在安卓和ios兼容问题
var clipboard = new ClipboardJS('.fr', { // target: function() { // return document.querySelector('d ...
苹果手机iOS11中fixed弹出框中input光标错位问题
最近遇到了一个移动前端的BUG:手机弹出框中的输入框focus时光标可能会错位. 刚开始时我完全不知道错误原因是什么,在电脑上调试时完全没有问题,手机上出现问题时也没有找到规律.后来在网上搜索了大量的 ...
Spring Cloud使用样例
Spring Cloud Demo 项目地址:https://github.com/hackyoMa/spring-cloud-demo 组件基于Spring Boot 2.0.4.Spring C ...
docker下安装mysql
docker run -d -p 3306:3306 -v /root/docker/mysql/conf/mysql.cnf:/etc/mysql/conf.d/mysql.cnf -v /root ...
第十节：数据批注(DataAnnotationModel)和自定义验证(包括Model级别的验证)
一. 简介写完上一个章节MVC中的常用特性,迫不及待将该系列补全,该章节主要介绍数据批注(也叫:注解). 一听[数据批注],好高大上的名字,但仔细一看,它们其实是[System.ComponentM ...
SQL Server 常用的系统函数
Ø 简介本文主要列举 SQL Server 中常用的一些系统函数,帮助我们在编写 SQL 时忘了某个函数的用法方便查阅.主要分为以下几类函数,更多函数可参考官网. 1. 字符串函数 2. ...
NightWatch端到端测试
NightWatch http://nightwatchjs.org/ Nightwatch.js Browser automated testing done easy. Write End-to- ...
如果在ie上报错又找不到问题原因该怎么办？
我司项目需要兼容IE浏览器 QQ浏览器 360浏览器,调了几天发现QQ跟360都没问题了然后只剩下一个问题就是IE上报错了!!! 然后去百度找了各种原因最后发现在IE浏览器这种引入方式无法解析会报 ...
JavaSE笔记-注释
Annotation Annotation是一个接口,可以把Annotation当成一个修饰符 Annotation的定义注解通过@interface定义 public @interface Tes ...
Chrome 远程代码执行漏洞CVE-2019-5786-EXP
0x01 漏洞原理 CVE-2019-5786是位于FileReader中的UAF漏洞,由Google's Threat Analysis Group的Clement Lecigne于2019-02- ...

Python网络爬虫之三种数据解析方式

1. 正则解析

2. xpath

2.1 格式

3.bs4解析

Python网络爬虫之三种数据解析方式的更多相关文章

随机推荐

热门专题