使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~

上次写了爬取这个网站的程序，有一些地方不完善，而且爬取速度较慢，今天完善一下并开启多进程爬取，速度就像坐火箭。。

# 需要的库

from lxml import etree

import requests

from multiprocessing import Pool

# 请求头

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'

}

# 保存文本的地址

pathname=r'E:\爬虫\诗词名句网\\'

# 获取书籍名称的函数

def get_book(url):

    try:

        response = requests.get(url,headers)

        etrees = etree.HTML(response.text)

        url_infos = etrees.xpath('//div[@class="bookmark-list"]/ul/li')

        urls = []

        for i in url_infos:

            url_info = i.xpath('./h2/a/@href')

            book_name = i.xpath('./h2/a/text()')[0]

            print('开始下载.'+book_name)

            urls.append('http://www.shicimingju.com' + url_info[0])

            # print('http://www.shicimingju.com'+url_info[0])

            # get_index('http://www.shicimingju.com'+url_info[0])

        # 开启多进程

        pool.map(get_index,urls)

    except Exception:

        print('get_book failed')

# 获取书籍目录的函数

def get_index(url):

    try:

        response = requests.get(url, headers)

        etrees = etree.HTML(response.text)

        url_infos = etrees.xpath('//div[@class="book-mulu"]/ul/li')

        for i in url_infos:

            url_info = i.xpath('./a/@href')

            # print('http://www.shicimingju.com' + url_info[0])

            get_content('http://www.shicimingju.com' + url_info[0])

    except Exception as e:

        print(e)

# 获取书籍内容并写入.txt文件

def get_content(url):

    try:

        response = requests.get(url, headers)

        etrees = etree.HTML(response.text)

        title = etrees.xpath('//div[@class="www-main-container www-shadow-card "]/h1/text()')[0]

        content = etrees.xpath('//div[@class="chapter_content"]/p/text()')

        if not content:

            content = etrees.xpath('//div[@class="chapter_content"]/text()')

            content = ''.join(content)

            book_name = etrees.xpath('//div[@class="nav-top"]/a[3]/text()')[0]

            with open(pathname + book_name + '.txt', 'a+', encoding='utf-8') as f:

                f.write(title + '\n\n' + content + '\n\n\n')

                print(title + '..下载完成')

        else:

            content = ''.join(content)

            book_name=etrees.xpath('//div[@class="nav-top"]/a[3]/text()')[0]

            with open(pathname+book_name+'.txt','a+',encoding='utf-8') as f:

                f.write(title+'\n\n'+content+'\n\n\n')

                print(title+'..下载完成')

    except Exception:

        print('get_content failed')

# 程序入口

if __name__ == '__main__':

    url = 'http://www.shicimingju.com/book/'

    # 开启进程池

    pool = Pool()

    # 启动函数

    get_book(url)

控制台输出；

查看文件夹，可以发现文件是多个多个的同时在下载；

done。

使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~的更多相关文章

使用Xpath爬虫库下载诗词名句网的史书典籍类所有文章。
# 需要的库 from lxml import etree import requests # 请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows ...
xpath+多进程爬取网易云音乐热歌榜。
用到的工具,外链转换工具网易云网站直接打开源代码里面并没有对应的歌曲信息,需要对url做处理, 查看网站源代码路径:发现把里面的#号去掉会显示所有内容, 右键打开的源代码路径:view-source ...
xpath+多进程爬取全书网纯爱耽美类别的所有小说。
# 需要的库 import requests from lxml import etree from multiprocessing import Pool import os # 请求头 heade ...
xpath+多进程爬取八零电子书百合之恋分类下所有小说。
代码 # 需要的库 import requests from lxml import etree from multiprocessing import Pool import os # 请求头 he ...
爬取斗图网图片,使用xpath格式来匹配内容,对请求伪装成浏览器, Referer 防跨域请求
6.21自我总结一.爬取斗图网 1.摘要使用xpath匹配规则查找对应信息文件将请求伪装成浏览器 Referer 防跨域请求 2.爬取代码 #导入模块 import requests #爬取网址 ...
python爬虫基础应用----爬取校花网视频
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
selenium爬取煎蛋网
selenium爬取煎蛋网直接上代码 from selenium import webdriver from selenium.webdriver.support.ui import WebDriv ...
Scrapy实战篇（一）之爬取链家网成交房源数据（上）
今天,我们就以链家网南京地区为例,来学习爬取链家网的成交房源数据. 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便. ...
Python Scrapy 爬取煎蛋网妹子图实例（一）
前面介绍了爬虫框架的一个实例,那个比较简单,这里在介绍一个实例爬取煎蛋网妹子图,遗憾的是上周煎蛋网还有妹子图了,但是这周妹子图变成了随手拍, 不过没关系,我们爬图的目的是为了加强实战应用,管 ...

随机推荐

WIN10设置notepad++默认打开txt文件
修改txt的默认打开方式为notepad++.效果如下图所示修改方式: 1.新建名称为OpenFromNotepad++的txt文档,并将后缀名修改为reg格式(注册表格式),在文件中输入以下内容. ...
c# – Asp.Net Core MVC中Request.IsAjaxRequest()在哪里？
要了解有关新的令人兴奋的Asp.Net-5框架的更多信息,我正在使用最新发布的Visual Studio 2015 CTP-6来构建一个Web应用程序. 大多数事情看起来真的很有希望,但我似乎找不到R ...
Windows版的OpenJDK下载(Red Hat 提供)
OpenJDK 在linux下安装很简单(yum安装),但是OpenJDK的官网没有为我们提供Windows版的安装软件.庆幸的是,Red Hat(红帽)为我们提供了windows版的安装软件. 下载 ...
Git - ignore过滤文件
Git - ignore 官网:https://git-scm.com/docs/gitignore 今天在初始化仓库的时候,考虑到如何过滤不需要的文件进入版本控制系统.所以去查阅了一番官方文档. 想 ...
Spring security oauth2 password flow
Spring security oauth2 包含以下两个endpoint来实现Authorization Server: AuthorizationEndpoint: 授权请求访问端点, 默认url ...
17 SpringMVC response响应
1.Model.ModelMap和ModelAndView的使用详解 Spring-MVC在请求处理方法可出现和返回的参数类型中,最重要就是Model和ModelAndView了,对于MVC框架,控制 ...
Java开发笔记（一百四十三）FXML布局的基本格式
前面介绍了JavaFX的常见控件用法,虽然JavaFX控件比起AWT与Swing要好用些,但是一样通过代码编写控件界面,并没有提高什么开发效率.要想浏览界面的展示效果,都必须运行测试程序才能观看,即使 ...
Linux下嵌入式Web服务器BOA和CGI编程开发
**目录**一.环境搭建二.相关配置(部分)三.调试运行四.测试源码参考五.常见错误六.扩展(CCGI,SQLite) # 一.环境搭建操作系统:Ubuntu12.04 LTSboa下载地址(但是我找 ...
用python批量添加保护站点
最近在测试的过程中,由于一个bug的复现需要添加1600个保护站点,手工添加谁知到要何年何月,因此想到了用python进行自动化批量添加保护站点! 具体代码如下: #!/usr/bin/env pyt ...
《三》大话 Typescript 接口
> 前言: 本文章为 TypeScript 系列文章. 旨在利用碎片时间快速入门 Typescript. 或重新温故 Typescript 查漏补缺.在官方 api 的基础上, 加上一些日常使用 ...

使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~

使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~的更多相关文章

随机推荐

热门专题