爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索。常见的爬虫框架有Scrapy等。

　　自定义爬虫程序一般包含：URL管理器、网页下载器、网页解析器、输出处理器。

　　以下我写了一个爬取百度百科词条的实例。

爬虫主程序入口

from crawler_test.html_downloader import UrlDownLoader

from crawler_test.html_outer import HtmlOuter

from crawler_test.html_parser import HtmlParser

from crawler_test.url_manager import UrlManager

# 爬虫主程序入口

class MainCrawler():

    def __init__(self):

        # 初始值，实例化四大处理器：url管理器，下载器，解析器，输出器

        self.urls = UrlManager()

        self.downloader = UrlDownLoader()

        self.parser = HtmlParser()

        self.outer = HtmlOuter()

    # 开始爬虫方法

    def start_craw(self, main_url):

        print('爬虫开始...')

        count = 1

        self.urls.add_new_url(main_url)

        while self.urls.has_new_url():

            try:

                new_url = self.urls.get_new_url()

                print('爬虫%d,%s' % (count, new_url))

                html_cont = self.downloader.down_load(new_url)

                new_urls, new_data = self.parser.parse(new_url, html_cont)

                # 将解析出的url放入url管理器，解析出的数据放入输出器中

                self.urls.add_new_urls(new_urls)

                self.outer.conllect_data(new_data)

                if count >= 10:　　# 控制爬取的数量

                    break

                count += 1

            except:

                print('爬虫失败一条')

        self.outer.output()

        print('爬虫结束。')

if __name__ == '__main__':

    main_url = 'https://baike.baidu.com/item/Python/407313'

    mc = MainCrawler()

    mc.start_craw(main_url)

URL管理器

# URL管理器

class UrlManager():

    def __init__(self):

        self.new_urls = set()  # 待爬取

        self.old_urls = set()  # 已爬取

    # 添加一个新的url

    def add_new_url(self, url):

        if url is None:

            return

        elif url not in self.new_urls and url not in self.old_urls:

            self.new_urls.add(url)

    # 批量添加url

    def add_new_urls(self, urls):

        if urls is None or len(urls) == 0:

            return

        else:

            for url in urls:

                self.add_new_url(url)

    # 判断是否有url

    def has_new_url(self):

        return len(self.new_urls) != 0

    # 从待爬取的集合中获取一个url

    def get_new_url(self):

        new_url = self.new_urls.pop()

        self.old_urls.add(new_url)

        return new_url

网页下载器

from urllib import request

# 网页下载器

class UrlDownLoader():

    def down_load(self, url):

        if url is None:

            return None

        else:

            with request.urlopen(url) as rp:                 # 发请求，打开网页

                if rp.status != 200:

                    return None

                else:

                    return rp.read()                        # 读取网页内容

网页解析器

import re

from urllib import request

from bs4 import BeautifulSoup

# 网页解析器，使用BeautifulSoup

class HtmlParser():

    # 每个词条中，可以有多个超链接

    # main_url指url公共部分，如“https://baike.baidu.com/”

    def _get_new_url(self, main_url, soup):

        # baike.baidu.com/

        # <a target="_blank" href="/item/%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%A8%8B%E5%BA%8F%E8%AE%BE%E8%AE%A1%E8%AF%AD%E8%A8%80">计算机程序设计语言</a>

        new_urls = set()

        # 解析出main_url之后的url部分

        child_urls = soup.find_all('a', href=re.compile(r'/item/(\%\w{2})+'))

        for child_url in child_urls:

            new_url = child_url['href']

            # 再拼接成完整的url

            full_url = request.urljoin(main_url, new_url)

            new_urls.add(full_url)

        return new_urls

    # 每个词条中，只有一个描述内容，解析出数据（词条，内容）

    def _get_new_data(self, main_url, soup):

        new_datas = {}

        new_datas['url'] = main_url

        # <dd class="lemmaWgt-lemmaTitle-title"><h1>计算机程序设计语言</h1>...

        new_datas['title'] = soup.find('dd', class_='lemmaWgt-lemmaTitle-title').find('h1').get_text()

        # class="lemma-summary" label-module="lemmaSummary"...

        new_datas['content'] = soup.find('div', attrs={'label-module': 'lemmaSummary'},

                                         class_='lemma-summary').get_text()

        return new_datas

    # 解析出url和数据（词条，内容）

    def parse(self, main_url, html_cont):

        if main_url is None or html_cont is None:

            return

        soup = BeautifulSoup(html_cont, 'lxml', from_encoding='utf-8')

        new_url = self._get_new_url(main_url, soup)

        new_data = self._get_new_data(main_url, soup)

        return new_url, new_data

输出处理器

# 输出器

class HtmlOuter():

    def __init__(self):

        self.datas = []

    # 先收集数据

    def conllect_data(self, data):

        if data is None:

            return

        self.datas.append(data)

        return self.datas

    # 输出为HTML

    def output(self, file='output_html.html'):

        with open(file, 'w', encoding='utf-8') as fh:

            fh.write('<html>')

            fh.write('<head>')

            fh.write('<meta charset="utf-8"></meta>')

            fh.write('<title>爬虫数据结果</title>')

            fh.write('</head>')

            fh.write('<body>')

            fh.write(

                '<table style="border-collapse:collapse; border:1px solid gray; width:80%; word-wrap:break-word; margin:20px auto;">')

            fh.write('<tr>')

            fh.write('<th style="border:1px solid black; width:35%;">URL</th>')

            fh.write('<th style="border:1px solid black; width:15%;">词条</th>')

            fh.write('<th style="border:1px solid black; width:50%;">内容</th>')

            fh.write('</tr>')

            for data in self.datas:

                fh.write('<tr>')

                fh.write('<td style="border:1px solid black">{0}</td>'.format(data['url']))

                fh.write('<td style="border:1px solid black">{0}</td>'.format(data['title']))

                fh.write('<td style="border:1px solid black">{0}</td>'.format(data['content']))

                fh.write('</tr>')

            fh.write('</table>')

            fh.write('</body>')

            fh.write('</html>')

效果（部分）：　　

　　至此，转载请注明出处。

Python 爬虫实例(爬百度百科词条)的更多相关文章

python_爬百度百科词条
如何爬取? 明确目标:爬取百度百科,定初始百度词条:python,初始URL:http://baike.baidu.com/item/Python,爬取数据量为1000条,值爬取简介,标题,和简介中u ...
[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒
前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒,同样可以通过Spider获取网站内容,最近学习了Selenium+Phantomjs后,准备利用它们获取百度百科的旅游景点消息盒(I ...
python爬虫实例——爬取歌单
学习自<<从零开始学python网络爬虫>> 爬取酷狗歌单,保存入csv文件直接上源代码:(含注释) import requests #用于请求网页获取网页数据 from b ...
Python爬虫(一)爬百度贴吧
简单的GET请求: # python2 import urllib2 response = urllib2.urlopen('http://www.baidu.com') html = respons ...
Python爬虫(二)爬百度贴吧楼主发言
爬取电影吧一个帖子里的所有楼主发言: # python2 # -*- coding: utf-8 -*- import urllib2 import string import re class Ba ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
python 使用selenium模块实现自动搜索百度百科词条（模拟人工搜索）
目标:模拟人工搜索百度百科词条,爬取相关信息,自动删除上一个关键词,输入新关键词,继续搜索,直到循环结束. 代码: from selenium import webdriver from seleni ...

随机推荐

mysql 开发进阶篇系列 44 物理备份与恢复( 热备份xtrabackup 工具介绍)
一.概述物理备份和恢复又分为冷备份和热备份.与逻辑备份相比,它最大优点是备份和恢复的速度更快.因为物理备份的原理都是基于文件的cp. 1.1 冷备份冷备份就是停掉数据库服务.这种物理备份一般很少使 ...
关于tensorflow conv2d卷积备忘的一点理解
**************input************** [[[[-0.36166722 0.04847232 1.20818889 -0.1794038 -0.53244466] [ ...
leetcode — jump-game-ii
/** * // Source : https://oj.leetcode.com/problems/jump-game-ii/ * * Created by lverpeng on 2017/7/1 ...
Mybatis学习（五）————— 延迟加载和缓存机制(一级二级缓存)
一.延迟加载延迟加载就是懒加载,先去查询主表信息,如果用到从表的数据的话,再去查询从表的信息,也就是如果没用到从表的数据的话,就不查询从表的信息.所以这就是突出了懒这个特点.真是懒啊. Mybati ...
【Go】优雅的读取http请求或响应的数据
[Go]优雅的读取http请求或响应的数据原文链接:https://blog.thinkeridea.com/201901/go/you_ya_de_du_qu_http_qing_qiu_huo_ ...
C#中关闭子窗口而不释放子窗口对象的方法
1 在主窗口中实例化子窗口在主窗口中实例化子窗口,而不是在按钮中实例化子窗口对象. Form2 f2 = new Form2(); 2 通过按钮来显示主窗口在按钮中需要实现的是窗口的显示 priv ...
[nodejs] nodejs开发个人博客（五）分配数据
使用回掉大坑进行取数据能看明白的就看,看不明白的手动滑稽 /** * 首页控制器 */ var router=express.Router(); /*每页条数*/ var pageSize=5; r ...
PATH环境变量
PATH是环境变量,要大写那几个目录是你放置linux命令的目录,输入命令后系统会去PATH中寻找是否存在该命令查看当前环境变量: echo $PATH 也可以用set命令看一下设置: expo ...
Java中的匿名内部类及内部类的二三事
匿名内部类适合创建那些只需要使用一次的类,它的语法有些奇怪,创建匿名内部类会立即创建一个该类的实例,这个类定义立即消失,且不能重复使用. 定义匿名类的格式如下: new 实现接口() |父类构造器(实 ...
Laravel篇二之本地版本库关联github
以往的工作中都是使用svn作为版本控制,对git分布式的有些陌生,本篇主要记录的本地存储myWeb-laravel的git版本库与github建立关联. 1.首先进入本地myWeb-laravel,执 ...

Python 爬虫实例(爬百度百科词条)

爬虫主程序入口

URL管理器

网页下载器

网页解析器

输出处理器

效果（部分）：

Python 爬虫实例(爬百度百科词条)的更多相关文章

随机推荐

热门专题

效果（部分）：