Python 开发轻量级爬虫

(imooc总结08--爬虫实例--分析目标)

怎么开发一个爬虫？开发一个爬虫包含哪些步骤呢？

1.确定要抓取得目标，即抓取哪些网站的哪些网页的哪部分数据。

本实例确定抓取Python百度百科词条页面以及相关词条页面的标题和简介。

2.分析这个目标，即需要确定抓取这些网站数据的策略。

有三部分需要分析。

1）需要分析这些目标页面的url格式，用来限定我们要抓取页面的范围。

    如果这个范围不进行限定的话，我们的爬虫就会抓取互联网上很多不相关的网页，造成资源的浪费。

2）我们需要分析要抓取得数据格式。

    在本实例中就要分析，每一个词条页面中标题和简介。这两个数据在标签中的格式。

3）分析页面的编码。

    在我们代码的解析器这部分，需要指定网页的编码，才能够正确的解析。在分析完目标格式以后，

我们进行代码的编写。在代码的解析器这部分，就需要使用到前面分析目标这个步骤所得到的抓取策略结果。

3.执行爬虫，进行数据的抓取。

从这些步骤中，我们可以看到分析目标，即制定抓取目标数据的策略是非常重要的一部分。打开我们爬虫的

入口页，也就是python百度百科词条页面。

我们来分析一下抓取这个页面以及相关页面的数据，它的抓取策略是什么？

首先这个页面的url是 http://baike.baidu.com/view/21087.htm

我们来看一下，相关词条页面的url是什么形式？

    在这个页面中，任意的词条之上，右键审查元素，可以看到都是/view/xxxx.htm，这是一个不完整的url，

在代码中需要在其前面加上baike.baidu.com，把它拼成一个完整的url，才能进行后续的访问。这就是我们得

到的url格式。

然后，我们来看一下要抓取的标题和简介数据标签格式？

    首先我们在python标题上右键审查元素？简介上右键？查看编码格式？通过右键审查元素这种方式，我们就

得到了抓取python以及相关词条网页的url格式、数据格式、网页编码，即得到了抓取这些网站数据的抓取策略。

目标：百度百科python词条相关词条网页 – 标题和简介

入口页： http://baike.baidu.com/view/21087.htm

url格式：

    词条页面url：/view/125370.htm

数据格式：

    标题：

        <dd class="lemmaWgt-lemmaTitle-title">

        <h1>Python</h1>

        </dd>

    简介：

        <div class="lemma-summary" label-module="lemmaSummary"></div>

    页面编码：utf-8

以上就是我们获得抓取python和相关词条网页的抓取策略，这里需要提醒大家的是，每一个互联网的网站

都会不停升级它的格式。作为一个定向爬虫来说，如果一个网站的格式发生了升级，我们的抓取策略随即升

级。

本实例给出的代码，如果运行出错的话可能是网站的格式发生了升级，我们需要打开目标网站，重新制定新

的策略，修改代码后才能够重新运行。

调度程序

    编写实例代码，爬取百度百科python词条页面以及相关1000个页面数据。

创建一个 baike_spider来存放python代码，创建所需要的模块。

创建spider_main.py  -- 爬虫的总调度程序

url_manager  -- url管理器

html_downloader – 下载器

html_parser – 解析器

html_outputer

    – 本代码将所有搜集好的数据写出到一个html页面中，打开一个页面就可以看到所有已经爬取好的数据

spider_main.py

    爬虫总调度程序，会以一个入口的url作为参数来爬取所有的相关的页面。

编写main函数，在main函数中，设置下要爬取的入口url  http://baike.baidu.com/view/21087.htm

创建一个obj_spider = SpiderMain()

首先我们将入口url添加到url管理器，url管理器中已经有了待爬取的url。

当url管理器已经有了待爬取的url的时候，获取一个待爬取的url。

获取之后，我们启动一个下载器下载这个页面， 结果存储在html_cont中。

下载好了页面。我们调用解析器解析这个页面数据，得到新的url列表和新的数据。

解析器

    我们传入两个参数，当前爬取的url和下载好的页面数据。

    解析出来的两个数据 url和数据，进行分别处理。

    将url添加进url管理器，将数据输出并收集。

    这样如果有一个待爬取的url，我们的爬虫就能够爬取所有的url。

最后调用输出收集好的数据。

Python 开发轻量级爬虫08的更多相关文章

Python 开发轻量级爬虫07
Python 开发轻量级爬虫 (imooc总结07--网页解析器BeautifulSoup) BeautifulSoup下载和安装使用pip install 安装:在命令行cmd之后输入,pip i ...
Python 开发轻量级爬虫06
Python 开发轻量级爬虫 (imooc总结06--网页解析器) 介绍网页解析器将互联网的网页获取到本地以后,我们需要对它们进行解析才能够提取出我们需要的内容. 也就是说网页解析器是从网页中提取有 ...
Python 开发轻量级爬虫05
Python 开发轻量级爬虫 (imooc总结05--网页下载器) 介绍网页下载器网页下载器是将互联网上url对应的网页下载到本地的工具.因为将网页下载到本地才能进行后续的分析处理,可以说网页下载器 ...
Python 开发轻量级爬虫04
Python 开发轻量级爬虫 (imooc总结04--url管理器) 介绍抓取URL管理器 url管理器用来管理待抓取url集合和已抓取url集合. 这里有一个问题,遇到一个url,我们就抓取它的内容 ...
Python 开发轻量级爬虫03
Python 开发轻量级爬虫 (imooc总结03--简单的爬虫架构) 现在来看一下一个简单的爬虫架构. 要实现一个简单的爬虫,有哪些方面需要考虑呢? 首先需要一个爬虫调度端,来启动爬虫.停止爬虫.监 ...
Python 开发轻量级爬虫02
Python 开发轻量级爬虫 (imooc总结02--爬虫简介) 爬虫简介首先爬虫是什么?它是一段自动抓取互联网信息的程序. 什么意思呢? 互联网由各种各样的的网页组成,每一个网页都有对应的url, ...
Python 开发轻量级爬虫01
Python 开发轻量级爬虫 (imooc总结01--课程目标) 课程目标:掌握开发轻量级爬虫为什么说是轻量级的呢?因为一个复杂的爬虫需要考虑的问题场景非常多,比如有些网页需要用户登录了以后才能够访 ...
Python开发轻量级爬虫
这两天自学了python写爬虫,总结一下: 开发目的:抓取百度百科python词条页面的1000个网页设计思路: 1,了解简单的爬虫架构: 2,动态的执行流程: 3,各部分的实现: URL管理器:p ...
Python开发简单爬虫 - 慕课网
课程链接:Python开发简单爬虫环境搭建: Eclipse+PyDev配置搭建Python开发环境 Python入门基础教程用Eclipse编写Python程序课程目录第1章课程介绍 ...

随机推荐

sql server cross/outer apply 用法
这是 sql server 帮助文档关于apply的描述: 使用 APPLY 运算符(2005或以上版本)可以为实现查询操作的外部表表达式返回的每个行调用表值函数.表值函数作为右输入,外部表表达式作为 ...
浅谈Struts2
学过SSH框架很长一段时间了,一直没有很系统的总结一下,这里先简单谈谈Struts2. 为什么要用Struts2? 这里列举一些Servlet的缺点: 1.每写一个servlet在web.xml中都要 ...
react.js 生命周期componentDidUpdate的另类用法：防止页面过渡刷新
场景:数据新增成功之后,需要返回原来的查询表,这时候的查询,需要使用react的生命周期:componentDidUpdate componentDidUpdate() 这个生命周期的作用是当prop ...
【USACO 2.4】Cow Tours （最短路）
题意:给你n(最多150)个点的坐标,给出邻接矩阵,并且整个图至少两个联通块,现在让你连接一条边,使得所有可联通的两点的最短距离的最大值最小. 题解:先dfs染色,再用floyd跑出原图的直径O($n ...
动态树之LCT(link-cut tree)讲解
动态树是一类要求维护森林的连通性的题的总称,这类问题要求维护某个点到根的某些数据,支持树的切分,合并,以及对子树的某些操作.其中解决这一问题的某些简化版(不包括对子树的操作)的基础数据结构就是LCT( ...
Alpha阶段第一次Scrum Meeting
Scrum Meeting Alpha 情况简述 Alpha阶段第一次Scrum Meeting 敏捷开发起始时间 2016/10/18 00:00 敏捷开发终止时间 2016/10/20 00: ...
Java内存模型深度解读
Java内存模型规范了Java虚拟机与计算机内存是如何协同工作的.Java虚拟机是一个完整的计算机的一个模型,因此这个模型自然也包含一个内存模型——又称为Java内存模型. 如果你想设计表现良好的并发 ...
Linux命令：查看登录用户
查看所有用户: # w 查看当前用户: # who am i 结束用户进程:# pkill -9 -t pts/0
面试题目——《CC150》栈与队列
面试题3.1:描述如何只用一个数组来实现三个栈. 方法1:固定分割方法2:弹性分割(较难) package cc150; public class ArrayStack { public stati ...
微博RPC框架motan入门笔记
Motan 是一套高性能.易于使用的分布式远程服务调用(RPC)框架. 功能支持通过spring配置方式集成,无需额外编写代码即可为服务提供分布式调用能力. 支持集成consul.zookeeper ...

Python 开发轻量级爬虫08

Python 开发轻量级爬虫

(imooc总结08--爬虫实例--分析目标)

Python 开发轻量级爬虫08的更多相关文章

随机推荐

热门专题