本篇针对的数据是已经存在在页面上的数据，不包括动态生成的数据，今天是对HTML中提取对我们有用的数据，去除无用的数据

Python爬虫教程-18-页面解析和数据提取

结构化数据：先有的结构，再谈数据
- json数据
  - 1.处理此类数据，通常使用JSON Path
  - 2.转换成python类型的数据，再进行操作（json类）
- XML文件
  - 转换成python类型（xmltodict）
  - XPath
  - CSS选择器
  - 正则表达式
非结构化数据：先有的数据，再谈结构
- 文本
- 电话号码
- 邮箱地址
  - 处理此类数据，通常使用正则表达式
- HTML代码
  - 正则表达式
  - XPath
  - CSS选择器

具体内容文章链接

正则表达式点我链接
- match：从开始位置开始查找，一次匹配，即1次匹配成功则退出
- search：从任何位置开始查找，一次匹配
- findall：全部匹配，返回列表
- finditer：全部匹配，返回迭代器
- split：分割字符串，返回列表
- sub：替换
xml 点我链接
x-path 点我链接

更多文章链接：Python 爬虫随笔

本笔记不允许任何个人和组织转载

Python爬虫教程-18-页面解析和数据提取的更多相关文章

Python爬虫爬取豆瓣电影之数据提取值xpath和lxml模块
工具:Python 3.6.5.PyCharm开发工具.Windows 10 操作系统.谷歌浏览器目的:爬取豆瓣电影排行榜中电影的title.链接地址.图片.评价人数.评分等网址:https:// ...
Python爬虫教程-01-爬虫介绍
Spider-01-爬虫介绍 Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求爬虫准备工作参考资料精通Python爬虫框架Scrap ...
Python爬虫教程-00-写在前面
鉴于好多人想学Python爬虫,缺没有简单易学的教程,我将在CSDN和大家分享Python爬虫的学习笔记,不定期更新基础要求 Python 基础知识 Python 的基础知识,大家可以去菜鸟教程进行 ...
Python爬虫(九)_非结构化数据与结构化数据
爬虫的一个重要步骤就是页面解析与数据提取.更多内容请参考:Python学习指南页面解析与数据提取实际上爬虫一共就四个主要步骤: 定(要知道你准备在哪个范围或者网站去搜索) 爬(将所有的网站的内容全 ...
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)（下）
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用co ...
Python爬虫教程-12-爬虫使用cookie爬取登录后的页面(人人网)（上）
Python爬虫教程-12-爬虫使用cookie(上) 爬虫关于cookie和session,由于http协议无记忆性,比如说登录淘宝网站的浏览记录,下次打开是不能直接记忆下来的,后来就有了cooki ...
Python爬虫教程-30-Scrapy 爬虫框架介绍
从本篇开始学习 Scrapy 爬虫框架 Python爬虫教程-30-Scrapy 爬虫框架介绍框架:框架就是对于相同的相似的部分,代码做到不出错,而我们就可以将注意力放到我们自己的部分了常见爬虫框 ...
Python爬虫之Beautiful Soup解析库的使用（五）
Python爬虫之Beautiful Soup解析库的使用 Beautiful Soup-介绍 Python第三方库,用于从HTML或XML中提取数据官方:http://www.crummv.com/ ...
Python爬虫教程-34-分布式爬虫介绍
Python爬虫教程-34-分布式爬虫介绍分布式爬虫在实际应用中还算是多的,本篇简单介绍一下分布式爬虫什么是分布式爬虫分布式爬虫就是多台计算机上都安装爬虫程序,重点是联合采集.单机爬虫就是只在一 ...

随机推荐

标准结构篇：4）EMC电磁兼容
本章目的:电磁兼容EMC概念,及预防控制手段. 1.前言:电磁兼容EMC概述电磁兼容是一门新兴的综合性学科.电磁兼容学科主要研究的是如何使在同一电磁环境下工作的各种电气电子设备和元器件都能正常工作, ...
windbg调试驱动程序
不正确之处欢迎指正,高手勿喷~ 配置windbg路径 Symbol path:SRV*F:\Windows\symbolxp3*http://msdl.microsoft.com/download/s ...
linux的yum报错
yum makecache Loaded plugins: fastestmirror Could not retrieve mirrorlist http://mirrorlist.centos.o ...
Maven 编译报错
[ERROR] Failed to execute goal org.apache.maven.plugins:maven-surefire-plugin:2.12.4:test (default-t ...
PIXI FlappyBird详解（9）
本文为了学习及使用pixi参考该文,使用pixi实现这个实方式跟玉兔太空类似, 这里介绍下实现步骤 1.创建舞台及应用大小根据实际去定义 2.创建背景素材,可以采取纹理图集,在前边有提过或是看官网了 ...
signed char型内存位bit表示
signed char型内存 80 81 82 83 84 85 86 87 88 89 8a 8b 8c 8d 8e 8f 90 91 92 93 94 95 96 97 98 99 9a 9b 9 ...
浅谈Cordova优缺点与环境部署(转载)
浅谈Cordova优缺点与环境部署作者:苏华杰简介 Cordova是一个用基于HTML.CSS和JavaScript的,用于创建跨平台移动应用程序的快速开发平台.它使开发者能够利用iPhone.A ...
【随笔】 MyEclipse2014的安装和破解
MyEclipse,是在eclipse 基础上加上了自己的插件.MyEclipse,是在eclipse 基础上加上自己的插件开发而成的功能强大的企业级集成开发环境,主要用于Java.Java EE以及 ...
Jquery中和ajax有关的方法
Jquery关于ajax有一系列的方法函数,单单知道$.ajax()显然是不够的,接下来我们对该系列的方法函数逐一研究下. ajaxComplete(callback).ajaxError(callb ...
preg_match_all使用实例
<?php $str = <<<EOT <!DOCTYPE html><html><head><meta charset=" ...

Python爬虫教程-18-页面解析和数据提取

Python爬虫教程-18-页面解析和数据提取

具体内容文章链接

更多文章链接：Python 爬虫随笔

Python爬虫教程-18-页面解析和数据提取的更多相关文章

随机推荐

热门专题