近段时间，笔者发现一个神奇的网站：http://www.allitebooks.com/ ，该网站提供了大量免费的编程方面的电子书，是技术爱好者们的福音。其页面如下：

![](https://images2018.cnblogs.com/blog/1219272/201806/1219272-20180606210130947-1510322589.png)

那么我们是否可以通过Python来制作爬虫来帮助我们实现自动下载这些电子书呢？答案是yes.
笔者在空闲时间写了一个爬虫，主要利用urllib.request.urlretrieve()函数和多线程来下载这些电子书。
首先呢，笔者的想法是先将这些电子书的下载链接网址储存到本地的txt文件中，便于永久使用。其Python代码（Ebooks_spider.py）如下，该代码仅下载第一页的10本电子书作为示例：
```Python
# -*- coding:utf-8 -*-
# 本爬虫用来下载http://www.allitebooks.com/中的电子书
# 本爬虫将需要下载的书的链接写入txt文件，便于永久使用
# 网站http://www.allitebooks.com/提供编程方面的电子书

导入必要的模块

import urllib.request

from bs4 import BeautifulSoup

获取网页的源代码

def get_content(url):

html = urllib.request.urlopen(url)

content = html.read().decode('utf-8')

html.close()

return content

将762个网页的网址储存在list中

base_url = 'http://www.allitebooks.com/'

urls = [base_url]

for i in range(2, 762):

urls.append(base_url + 'page/%d/' % i)

电子书列表，每一个元素储存每本书的下载地址和书名

book_list =[]

控制urls的数量,避免书下载过多导致空间不够!!!

本例只下载前3页的电子书作为演示

读者可以通过修改url[:3]中的数字,爬取自己想要的网页书，最大值为762

for url in urls[:1]:

try:

# 获取每一页书的链接

content = get_content(url)

soup = BeautifulSoup(content, 'lxml')

book_links = soup.find_all('div', class_="entry-thumbnail hover-thumb")

book_links = [item('a')[0]['href'] for item in book_links]

print('\nGet page %d successfully!' % (urls.index(url) + 1))

except Exception:

book_links = []

print('\nGet page %d failed!' % (urls.index(url) + 1))

# 如果每一页书的链接获取成功

if len(book_links):

    for book_link in book_links:

        # 下载每一页中的电子书

        try:

            content = get_content(book_link)

            soup = BeautifulSoup(content, 'lxml')

            # 获取每本书的下载网址

            link = soup.find('span', class_='download-links')

            book_url = link('a')[0]['href']

            # 如果书的下载链接获取成功

            if book_url:

                # 获取书名

                book_name = book_url.split('/')[-1]

                print('Getting book: %s' % book_name)

                book_list.append(book_url)

        except Exception as e:

            print('Get page %d Book %d failed'

                  % (urls.index(url) + 1, book_links.index(book_link)))

文件夹

directory = 'E:\Ebooks\'

将书名和链接写入txt文件中，便于永久使用

with open(directory+'book.txt', 'w') as f:

for item in book_list:

f.write(str(item)+'\n')

print('写入txt文件完毕!')

可以看到，上述代码主要爬取的是静态页面，因此效率非常高！运行该程序，显示结果如下：

<center>

![](https://img-blog.csdn.net/20180606140520353?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2pjbGlhbjkx/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

</center>

在book.txt文件中储存了这10本电子书的下载地址，如下：

<center>

![](https://img-blog.csdn.net/2018060614064249?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2pjbGlhbjkx/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

</center>

&emsp;&emsp;接着我们再读取这些下载链接，用urllib.request.urlretrieve()函数和多线程来下载这些电子书。其Python代码（download_ebook.py）如下：

-- coding:utf-8 --

本爬虫读取已写入txt文件中的电子书的链接，并用多线程下载

import time

from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED

import urllib.request

利用urllib.request.urlretrieve()下载PDF文件

def download(url):

# 书名

book_name = 'E:\Ebooks\'+url.split('/')[-1]

print('Downloading book: %s'%book_name) # 开始下载

urllib.request.urlretrieve(url, book_name)

print('Finish downloading book: %s'%book_name) #完成下载

def main():

start_time = time.time() # 开始时间

file_path = 'E:\\Ebooks\\book.txt' # txt文件路径

# 读取txt文件内容，即电子书的链接

with open(file_path, 'r') as f:

    urls = f.readlines()

urls = [_.strip() for _ in urls]

# 利用Python的多线程进行电子书下载

# 多线程完成后，进入后面的操作

executor = ThreadPoolExecutor(len(urls))

future_tasks = [executor.submit(download, url) for url in urls]

wait(future_tasks, return_when=ALL_COMPLETED)

# 统计所用时间

end_time = time.time()

print('Total cost time:%s'%(end_time - start_time))

main()

运行上述代码，结果如下：

<center>

![](https://img-blog.csdn.net/20180606140906158?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2pjbGlhbjkx/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

</center>

再去文件夹中查看文件：

<center>

![](https://img-blog.csdn.net/20180606141000106?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2pjbGlhbjkx/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

</center>

可以看到这10本书都已成功下载，总共用时327秒，每本书的平均下载时间为32.7，约半分钟，而这些书的大小为87.7MB，可见效率相当高的！

&emsp;&emsp;怎么样，看到爬虫能做这些多有意思的事情，不知此刻的你有没有心动呢？心动不如行动，至理名言~~

&emsp;&emsp;本次代码已上传github, 地址为： https://github.com/percent4/Examples-of-Python-Spiders .

***注意：***本人现已开通两个微信公众号： 用Python做数学（微信号为：python_math）以及轻松学会Python爬虫（微信号为：easy_web_scrape）， 欢迎大家关注哦~~

Python爬虫之多线程下载程序类电子书的更多相关文章

Python爬虫之多线程下载豆瓣Top250电影图片
爬虫项目介绍本次爬虫项目将爬取豆瓣Top250电影的图片,其网址为:https://movie.douban.com/top250, 具体页面如下图所示: 本次爬虫项目将分别不使用多线程和使 ...
python爬虫之多线程、多进程+代码示例
python爬虫之多线程.多进程使用多进程.多线程编写爬虫的代码能有效的提高爬虫爬取目标网站的效率. 一.什么是进程和线程引用廖雪峰的官方网站关于进程和线程的讲解: 进程:对于操作系统来说,一个任 ...
Python之FTP多线程下载文件之分块多线程文件合并
Python之FTP多线程下载文件之分块多线程文件合并欢迎大家阅读Python之FTP多线程下载系列之二:Python之FTP多线程下载文件之分块多线程文件合并,本系列的第一篇:Python之FTP ...
Python之FTP多线程下载文件之多线程分块下载文件
Python之FTP多线程下载文件之多线程分块下载文件 Python中的ftplib模块用于对FTP的相关操作,常见的如下载,上传等.使用python从FTP下载较大的文件时,往往比较耗时,如何提高从 ...
Python爬虫实战批量下载高清美女图片
彼岸图网站里有大量的高清图片素材和壁纸,并且可以免费下载,读者也可以根据自己需要爬取其他类型图片,方法是类似的,本文通过python爬虫批量下载网站里的高清美女图片,熟悉python写爬虫的基本方法: ...
利用python爬虫关键词批量下载高清大图
前言在上一篇写文章没高质量配图?python爬虫绕过限制一键搜索下载图虫创意图片!中,我们在未登录的情况下实现了图虫创意无水印高清小图的批量下载.虽然小图能够在一些移动端可能展示的还行,但是放到pc ...
Python爬虫之多线程
详情点我跳转关注公众号"轻松学编程"了解更多. 多线程在介绍Python中的线程之前,先明确一个问题,Python中的多线程是假的多线程! 为什么这么说,我们先明确一个概念,全 ...
Python爬虫开发与项目实战pdf电子书|网盘链接带提取码直接提取|
Python爬虫开发与项目实战从基本的爬虫原理开始讲解,通过介绍Pthyon编程语言与HTML基础知识引领读者入门,之后根据当前风起云涌的云计算.大数据热潮,重点讲述了云计算的相关内容及其在爬虫中的应 ...
Python爬虫入门教程 11-100 行行网电子书多线程爬取
行行网电子书多线程爬取-写在前面最近想找几本电子书看看,就翻啊翻,然后呢,找到了一个叫做周读的网站 ,网站特别好,简单清爽,书籍很多,而且打开都是百度网盘可以直接下载,更新速度也还可以,于是乎, ...

随机推荐

Samba简介与配置(匿名&本地用户验证)
Samba简介 Samba是在Linux和UNIX系统上实现SMB协议的一个免费软件,由服务器及客户端程序构成. 在此之前我们已经了解了NFS,NFS与samba一样,也是在网络中实现文件共享的一种实 ...
关于loadtxt编码问题的解决方法
I am trying to load data with numpy.loadtxt... The file im trying to read is using cp1252 coding. Is ...
HDMI EDID 处理过程
DDC的参数 EDID是一种VESA 标准数据格式,其中包含有关监视器及其性能的参数,包括供应商信息.最大图像大小.颜色设置.厂商预设置.频率范围的限制以及显示器名和序列号的字符串.EDID数据标准: ...
Nginx unit 源码安装初体验
Nginx unit 源码安装初体验上次介绍了从yum的安装方法(https://www.cnblogs.com/wang-li/p/9684040.html),这次将介绍源码安装,目前最新版为1. ...
《Pro git》
可以通过阅读 CODING 工程师参与翻译的 <Pro Git> 进一步掌握 Git 版本控制系统. https://git-scm.com/book/zh/v2
分布式系统中 Unique ID 的生成方法
http://darktea.github.io/notes/2013/12/08/Unique-ID Snowflake 生成的 unique ID 的组成 (由高位到低位): 41 bits: T ...
Javascript高级编程学习笔记（13）—— 引用类型（2）Array类型
除了Object类型之外ECMA中最常用的引用类型可能就是Array类型了并且ECMA中的数组类型和其他大多数编程语言的数组类型存在着很大的区别今天就介绍一下JS中的Array的特别之处区别 1 ...
什么是RDD？
顾名思义,从字面理解RDD就是 Resillient Distributed Dataset,即弹性分布式数据集. 它是Spark提供的核心抽象. RDD在抽象上来讲是一种抽象的分布式的数据集.它是被 ...
ElasticSearch权威指南学习（分布式搜索）
查询阶段在初始化查询阶段(query phase),查询被向索引中的每个分片副本(原本或副本)广播. 每个分片在本地执行搜索并且建立了匹配document的优先队列(priority queue). ...
keepalived-1
keepalived所执行的外部脚本命令建议使用绝对路径 vrrp 广播 keepalived的主要功能 1,管理LVS负载均衡软件 2,对LVS集群节点健康检查功能.Healthcheck 3,

Python爬虫之多线程下载程序类电子书