开发环境

基础语法那章的内容我是在Docker容器中玩的，但是真正做项目的时候，没有IDE的强大辅助功能来协助的话是很累人的一件事。因此本文中，我选择使用Jetbrain的Pycharm这个IDE来开发、调试代码。IDE的好处多多，比如：

强大的智能提示
强大的断点调试
性能追踪
方便好用的各种插件
各种自定义配置

需求

为了实践Python，最先想到的就是要完成一个爬虫程序，大概需求如下：

实施

可配置化我本身是计划通过DI（Dependency Injection）这个技术来完成，不过查了下资料，由于Python和其他语言不太一样，Python是可以多父类继承，并且遵循Duck Typing原则，因此DI在Python中并不实用（Python也是没有Interface概念的）。但可以通过如下方式实现类似的逻辑：

# 假设a-class-name这个类包含在xxx.py文件中，首先引入这个文件中的内容

from xxx import *

# 然后执行以下这行代码，这将初始化一个a-class-name类的实例

(lambda x: globals()[x])('a-class-name')

入口程序文件main.py

main.py主要有几个功能：

通过交互让用户输入：项目名称、网站首页、线程数三个初始化变量
初始化数据库访问对象
初始化爬虫对象
初始化线程池
执行程序

核心代码如下：

from db_queue import *

...

def execute():

    ...

    (lambda x: globals()[x])(project_settings.DB_CLASS_NAME)(home_page, project_name + '_pages')

    Spider(project_name, home_page, DomainHelpers.get_domain_name(home_page), project_settings.HTML_RESOLVER_NAME)

    worker = Worker(thread_count, project_name)

    worker.create_threads()

    worker.crawl()

execute()

逻辑解释：

(lambda x: globals()[x])(project_settings.DB_CLASS_NAME)(home_page, project_name + '_pages')，本例中DB_CLASS_NAME = 'MongoDbQueue'，因此Python将在当前页面的应用中查找名为MongoDbQueue的类来执行初始化并传入构造函数的参数：home_page和project_name + '_pages'
初始化Spider类，以便在线程中执行爬取页面
初始化指定数量的现成作为线程池以备后续使用，main.py执行完毕，线程将被自动回收
开始执行爬虫程序

线程创建类worker.py文件

from db_queue import *

class Worker:

    ...

	def __init__(self, thread_count, project_name):

        Worker.DB = (lambda x: globals()[x])(project_settings.DB_CLASS_NAME)

        ...

    def create_threads(self):

        for _ in range(self.thread_count):

            t = threading.Thread(target=self.__run_thread)

            t.daemon = True

            t.start()

    def __run_thread(self):

        while True:

            url = self.queue.get()

            Spider.crawl_page(threading.current_thread().name, url)

            self.queue.task_done()

    def __create_jobs(self):

        for link in Worker.DB.get_pending_queue():

            self.queue.put(link)

        self.queue.join()

        self.crawl()

    def crawl(self):

        urls = Worker.DB.get_pending_queue()

        if len(urls) > 0:

            self.__create_jobs()

逻辑解释：

__init__中将数据库连接类保存到全局变量DB中
create_threads将初始化指定数量的线程数，设置为datmon=true以便线程被创建之后一直存在，随时可以被调用
crawl将获取待爬列表之后，将其放入Spider所需的待爬队列中
self.queue.join()是用来阻塞队列，这样队列中的每一项都将只被调用一次
__run_thread和__create_jobs这两个方法是Worker内部调用的方法，不需要公开给其他人，因此加上前缀__（两个下划线）

数据库操作基础类

由于需要将数据库操作做成可替换，因此必须实现数据库操作的接口，而Python没有Interface，但是可以使用abc(Abstract Based Class)来实现类似于Interface所需的功能。

代码如下：

from abc import ABCMeta, abstractmethod

class DbBase(metaclass=ABCMeta):

    @abstractmethod

    def __init__(self, file_name):

        pass

    @staticmethod

    @abstractmethod

    def get_pending_queue():

        pass

    @staticmethod

    @abstractmethod

    def is_page_in_queue():

        pass

    @staticmethod

    @abstractmethod

    def save_pending_queue():

        pass

    @staticmethod

    @abstractmethod

    def set_page_crawled():

        pass

逻辑解释：

class DbBase(metaclass=ABCMeta)表示DbBase类的元类为ABCMeta
@abstractmethod则表明该方法在继承了DbBase的类中必须被实现，如果没有被实现，执行时将会报错：TypeError: Can't instantiate abstract class XXXX with abstract methods xxxx

数据库存储操作db_queue.py文件

from pymongo import *

from abc_base.db_base import DbBase

...

class MongoDbQueue(DbBase):

    def __init__(self, home_page, tbl_name='pages'):

		...

        MongoDbQueue.db = MongoClient(project_settings.DB_CONNECTION_STRING)[project_settings.DB_REPOSITORY_NAME]

      	...

        # create unique index

        MongoDbQueue.db[MongoDbQueue.tbl_name].create_index('url', unique=True)

    @staticmethod

    def get_pending_queue():

        ...

    @staticmethod

    def is_page_in_queue(url):

        ...

    @staticmethod

    def save_pending_queue(urls):

        ...

    @staticmethod

    def set_page_crawled(url):

        ...

逻辑解释：

class MongoDbQueue(DbBase):表示该类继承了DbBase，因此必须实现DbBase中定义的几个方法__init__、get_pending_queue、is_page_in_queue、save_pending_queue及set_page_crawled
为了确保相同的url绝对不会重复，在数据库层也增加一个Unique Index以便从数据库层面也做好验证
get_pending_queue将所有未被爬过的页面列表返回
is_page_in_queue判断是否页面在待爬列表中
save_pending_queue，这个方法是在爬取某个页面，抓取了该页面上所有新的代码链接之后，将数据库中不存在的连接保存为待爬页面
set_page_crawled，这个方法将数据库中已存在，且状态为未爬过的页面，设置为已爬，该方法将在爬虫爬好某个页面之后被调用

爬虫文件spider.py文件

...

class Spider:

	...

    def __init__(self, base_url, domain_name, html_resolver):

        ...

        Spider.crawl_page('First spider', Spider.BASE_URL)

    @staticmethod

    def crawl_page(thread_name, page_url):

        if Spider.DB.is_page_in_queue(page_url):

            ...

            urls = Spider.add_links_to_queue(Spider.gather_links(page_url))

            Spider.DB.save_pending_queue(urls)

            Spider.DB.set_page_crawled(page_url)

    @staticmethod

    def gather_links(page_url):

        html_string = ''

		...

		# to make self-signed ssl works, pass variable 'context' to function 'urlopen'

		context = ssl._create_unverified_context()

		response = urlopen(page_url, context=context)

		...

		finder = (lambda x: globals()[x])(Spider.HTML_RESOLVER)(Spider.BASE_URL, page_url)

        return finder.page_links()

    @staticmethod

    def add_links_to_queue(urls):

        ...

        for url in urls:

            if Spider.DOMAIN_NAME != DomainHelpers.get_domain_name(url):

                continue

		...

逻辑解释：

Spider.DB = (lambda x: globals()[x])(project_settings.DB_CLASS_NAME)这一行依然是动态初始化数据库操作类
context = ssl._create_unverified_context()，有时候有些自签名ssl证书，执行urlopen方法时会报错，需要创建这个context变量来避免这个错误产生
finder = (lambda x: globals()[x])(Spider.HTML_RESOLVER)(Spider.BASE_URL, page_url)这行也是通过动态初始化的方式，按照配置文件中指定的解析类来解析html内容，如果想自定义解析内容，只要重新实现一个解析类即可
add_links_to_queue 这个方法是确保只会将当前域名相关的页面保存起来以便后续继续爬，如果不加这个判断，一旦页面上有一个www.weibo.com这样的链接的话，那爬虫估计会把整个互联网上的内容都爬一遍。。。

html解析html_resolver.py文件

class HtmlResolver(HTMLParser):

	...

    def handle_starttag(self, tag, attrs):

        if tag == 'a':

            for (attribute, value) in attrs:

                if attribute == 'href':

                    url = parse.urljoin(self.base_url, value)

                    self.links.add(url)

    ...

这个类决定了我们爬取页面的逻辑，这里我们只抓去链接（也就是a标签）中的href属性中的内容。

执行过程动图

附录

本Demo完整代码已经放到Github上： https://github.com/fisherdan/crawler。

本文在博客园和我的个人博客www.fujiabin.com上同步发布。转载请注明来源。

Python3学习笔记2：简易Web爬虫的更多相关文章

python3.4学习笔记(十四) 网络爬虫实例代码，抓取新浪爱彩双色球开奖数据实例
python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例新浪爱彩双色球开奖数据URL:http://zst.aicai.com/ssq/openInfo/ 最终输出结果格 ...
ASP.NET MVC Web API 学习笔记---第一个Web API程序
http://www.cnblogs.com/qingyuan/archive/2012/10/12/2720824.html GetListAll /api/Contact GetListBySex ...
Python3学习笔记（urllib模块的使用）转http://www.cnblogs.com/Lands-ljk/p/5447127.html
Python3学习笔记(urllib模块的使用) 1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, ...
Python3学习笔记 - 准备环境
前言最近乘着项目不忙想赶一波时髦学习一下Python3.由于正好学习了Docker,并深深迷上了Docker,所以必须趁热打铁的用它来创建我们的Python3的开发测试环境.Python3的中文教程 ...
python3学习笔记(7)_listComprehensions-列表生成式
#python3 学习笔记17/07/11 # !/usr/bin/env python3 # -*- conding:utf-8 -*- #通过列表生成式可以生成格式各样的list,这种list 一 ...
python3学习笔记(6)_iteration
#python3 学习笔记17/07/10 # !/usr/bin/env python3 # -*- coding:utf-8 -*- #类似其他语言的for循环,但是比for抽象程度更高 # f ...
python3学习笔记(5)_slice
#python3 学习笔记17/07/10 # !/usr/bin/env python3 # -*- coding:utf-8 -*- #切片slice 大大简化对于指定索引的操作 fruits ...
Spring实战第八章学习笔记————使用Spring Web Flow
Spring实战第八章学习笔记----使用Spring Web Flow Spring Web Flow是一个Web框架,它适用于元素按规定流程运行的程序. 其实我们可以使用任何WEB框架写流程化的应 ...
Spring实战第五章学习笔记————构建Spring Web应用程序
Spring实战第五章学习笔记----构建Spring Web应用程序 Spring MVC基于模型-视图-控制器(Model-View-Controller)模式实现,它能够构建像Spring框架那 ...
第3次作业-MOOC学习笔记：Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 4.提供图片或网站显示的学习进 ...

随机推荐

System.getProperty参数大全
System.getProperty()参数大全 #java.version Java Runtime Environment v ...
深度学习系列 Part(3)
这是<GPU学习深度学习>系列文章的第三篇,主要是接着上一讲提到的如何自己构建深度神经网络框架中的功能模块,进一步详细介绍 Tensorflow 中 Keras 工具包提供的几种深度神经网 ...
Apache和Tomcat整合（一个Apache 不同域名处理多个不同业务）
一.简介在项目中,几乎任何一个项目都包括静态资源和动态请求两大部分.特别对于门户网站这样的项目,静态内容资源会更多,我们使用一般的 Tomcat 部署时,Tomcat 对静态资源的处理能力比较慢,至 ...
2017 多校训练 1002 Balala Power!
Balala Power! Time Limit: 4000/2000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Others)T ...
解决mysql启动失败报1067错误
最近做项目使用 mysql 数据库 ,因为卸载了鲁大师造成了数据库文件缺失.重装mysql数据库后启动出现了1067错误,详情如下在网上查了错误原因,将my.ini文件下的默认搜索引擎换成了 myi ...
Python做的第一个小项目-模拟登陆
1. 用户输入帐号密码进行登陆 2. 用户信息保存在文件内 3. 用户密码输入错误三次后锁定用户主要采用循环语句和条件语句进行程序流程的控制,加入文件的读写操作 while True: choice ...
Navi.Soft31.产品.登录器(永久免费)
1系统简介 1.1功能简述电商平台和传统店铺相比,确实方便不少,直接在网上下单,快递直接送货到家.这其中,做电商平台的童鞋表示压力很大,因为可能同时开很多店铺,每个店铺都要登录.查看订单量.发货拣货 ...
C# 中英文符号互转
/// 转全角的函数(SBC case) /// ///任意字符串 /// 全角字符串 /// ///全角空格为12288,半角空格为32 ///其他字符半角(33 ...
K-Means和图片压缩
通俗的介绍这种压缩方式,就是将原来很多的颜色用少量的颜色去表示,这样就可以减小图片大小了.下面首先我先介绍下K-Means,当你了解了K-Means那么你也很容易的可以去理解图片压缩了,最后附上图片压 ...
python logging模块+ 个人总结
原文地址:http://www.cnblogs.com/sislcb/archive/2008/11/25/1340627.html 从Python2.3版本中开始引入的logging模块为应用提供了 ...

Python3学习笔记2：简易Web爬虫

开发环境

需求

实施

入口程序文件main.py

线程创建类worker.py文件

数据库操作基础类

数据库存储操作db_queue.py文件

爬虫文件spider.py文件

html解析html_resolver.py文件

执行过程动图

附录

Python3学习笔记2：简易Web爬虫的更多相关文章

随机推荐

热门专题