爬虫系列(五) re的基本使用

【爬虫系列(五) re的基本使用】的更多相关文章

爬虫系列(五) re的基本使用

1.简介究竟什么是正则表达式 (Regular Expression) 呢?可以用下面的一句话简单概括: 正则表达式是一组特殊的字符序列,由一些事先定义好的字符以及这些字符的组合形成,常常用于匹配字符串在 Python 中,re 模块就是一个用于处理正则表达式的模块,详细信息可以参考官方文档另外,这里再给大家推荐一个博主常用的测试正则表达式的网站:http://tool.oschina.net/regex,不妨一试 2.特殊符号上面说过,正则表达式实际上是由一些事先定义好的字符以…

爬虫系列(三) urllib的基本使用

一.urllib 简介 urllib 是 Python3 中自带的 HTTP 请求库,无需复杂的安装过程即可正常使用,十分适合爬虫入门 urllib 中包含四个模块,分别是 request:请求处理模块 parse:URL 处理模块 error:异常处理模块 robotparser:robots.txt 解析模块以下我们将会分别讲解 urllib 中各模块的使用方法,但是由于篇幅问题,本文只会涉及模块中比较常用的内容详细内容可以参考官方文档:https://docs.python.org/3…

爬虫系列(九) xpath的基本使用

一.xpath 简介究竟什么是 xpath 呢?简单来说,xpath 就是一种在 XML 文档中查找信息的语言而 XML 文档就是由一系列节点构成的树,例如,下面是一份简单的 XML 文档: <html> <body> <div> <p>Hello world<p> <a href="/home">Click here</a> </div> </body> </html…

爬虫系列(二) Chrome抓包分析

在这篇文章中,我们将尝试使用直观的网页分析工具(Chrome 开发者工具)对网页进行抓包分析,更加深入的了解网络爬虫的本质与内涵 1.测试环境浏览器:Chrome 浏览器浏览器版本:67.0.3396.99 (正式版本) (32 位) 网页分析工具:开发者工具 2.网页分析 (1)网页源代码分析我们知道,网页有静态网页和动态网页之分,很多人会误认为静态网页就是没有动态效果的网页,其实这种说法是不对的静态网页是指没有后台数据库的不可交互网页 ,常以 .htm..html..xml 为后缀…

爬虫系列(四) 用urllib实现英语翻译

这篇文章我们将以百度翻译为例,分析网络请求的过程,然后使用 urllib 编写一个英语翻译的小模块 1.准备工作首先使用 Chrome 浏览器打开百度翻译,这里,我们选择 Chrome 浏览器自带的开发者工具对网站进行抓包分析 2.抓包分析打开 Network 选项卡进行监控,并选择 XHR 作为 Filter 进行过滤然后,我们在输入框中输入待翻译的文字进行测试,可以看到列表中出现三个数据包分别是 sug.v2transapi 和 langdetect,下面我们一个一个进行分析…

爬虫系列(六) 用urllib和re爬取百度贴吧

这篇文章我们将使用 urllib 和 re 模块爬取百度贴吧,并使用三种文件格式存储数据,下面先贴上最终的效果图 1.网页分析 (1)准备工作首先我们使用 Chrome 浏览器打开百度贴吧,在输入栏中输入关键字进行搜索,这里示例为 "计算机吧" (2)分析 URL 规律接下来我们开始分析网站的 URL 规律,以便于通过构造 URL 获取网站中所有网页的内容第一页:http://tieba.baidu.com/f?kw=%E8%AE%A1%E7%AE%97%E6%9C%BA&am…

爬虫系列(七) requests的基本使用

一.requests 简介 requests 是一个功能强大.简单易用的 HTTP 请求库,可以使用 pip install requests 命令进行安装下面我们将会介绍 requests 中常用的方法,详细内容请参考官方文档二.requests 使用在开始讲解前,先给大家提供一个用于测试的网站,http://www.httpbin.org/ 这个网站可以在页面上返回所发送请求的相关信息,十分适合练习使用好了,下面正式开始! 1.get 方法该方法用于向目标网址发送请求,接收响…

爬虫系列(八) 用requests实现天气查询

这篇文章我们将使用 requests 调用天气查询接口,实现一个天气查询的小模块,下面先贴上最终的效果图 1.接口分析虽然现在网络上有很多免费的天气查询接口,但是有很多网站都是需要注册登陆的,过程比较繁琐几经艰辛,博主终于找到一个不用注册可以直接使用的天气查询接口,以下是该接口的使用说明: 接口查询格式: https://www.sojson.com/open/api/weather/json.shtml?city={cityName} 其中 cityName 为待查询城市的名称,可以直接使…

爬虫系列(十) 用requests和xpath爬取豆瓣电影

这篇文章我们将使用 requests 和 xpath 爬取豆瓣电影 Top250,下面先贴上最终的效果图: 1.网页分析 (1)分析 URL 规律我们首先使用 Chrome 浏览器打开豆瓣电影 Top250,很容易可以判断出网站是一个静态网页然后我们分析网站的 URL 规律,以便于通过构造 URL 获取网站中所有网页的内容首页:https://movie.douban.com/top250 第二页:https://movie.douban.com/top250?start=25&filt…

爬虫系列(十一) 用requests和xpath爬取豆瓣电影评论

这篇文章,我们继续利用 requests 和 xpath 爬取豆瓣电影的短评,下面还是先贴上效果图: 1.网页分析 (1)翻页我们还是使用 Chrome 浏览器打开豆瓣电影中某一部电影的评论进行分析,这里示例为<一出好戏> 和之前一样,我们可以通过构造 URL 获取全部网页的内容,但是这次我们尝试使用一种新的方法 -- 翻页使用快捷键 Ctrl+Shift+I 打开开发者工具,然后使用快捷键 Ctrl+Shift+C 打开元素选择工具此时用鼠标点击网页中的后页,就会在源代码中自动定位到…