使用Xpath爬虫库下载诗词名句网的史书典籍类所有文章。

# 需要的库

from lxml import etree

import requests

# 请求头

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'

}

# 保存文本的地址

pathname=r'E:\爬虫\诗词名句网\\'

# 获取书籍名称的函数

def get_book(url):

    response = requests.get(url,headers)

    etrees = etree.HTML(response.text)

    url_infos = etrees.xpath('//div[@class="bookmark-list"]/ul/li')

    for i in url_infos:

        url_info = i.xpath('./h2/a/@href')

        book_name = i.xpath('./h2/a/text()')[0]

        print('开始下载.'+book_name)

        # print('http://www.shicimingju.com'+url_info[0])

        get_index('http://www.shicimingju.com'+url_info[0])

# 获取书籍目录的函数

def get_index(url):

    response = requests.get(url, headers)

    etrees = etree.HTML(response.text)

    url_infos = etrees.xpath('//div[@class="book-mulu"]/ul/li')

    for i in url_infos:

        url_info = i.xpath('./a/@href')

        # print('http://www.shicimingju.com' + url_info[0])

        get_content('http://www.shicimingju.com' + url_info[0])

# 获取书籍内容并写入.txt文件

def get_content(url):

    response = requests.get(url, headers)

    etrees = etree.HTML(response.text)

    title = etrees.xpath('//div[@class="www-main-container www-shadow-card "]/h1/text()')[0]

    content = etrees.xpath('//div[@class="chapter_content"]/p/text()')

    content = ''.join(content)

    book_name=etrees.xpath('//div[@class="nav-top"]/a[3]/text()')[0]

    with open(pathname+book_name+'.txt','a+',encoding='utf-8') as f:

        f.write(title+'\n\n'+content+'\n\n\n')

        print(title+'..下载完成')

# 程序入口

if __name__ == '__main__':

    url = 'http://www.shicimingju.com/book/'

    get_book(url)

控制台查看下载过程；

打开文件夹查看是否下载成功；

done.

使用Xpath爬虫库下载诗词名句网的史书典籍类所有文章。的更多相关文章

使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~
上次写了爬取这个网站的程序,有一些地方不完善,而且爬取速度较慢,今天完善一下并开启多进程爬取,速度就像坐火箭.. # 需要的库 from lxml import etree import reques ...
python3爬虫.4.下载煎蛋网妹子图
开始我学习爬虫的目标 ----> 煎蛋网通过设置User-Agent获取网页,发现本该是图片链接的地方被一个js函数代替了于是全局搜索到该函数 function jandan_load_im ...
Python爬虫实例（六）多进程下载金庸网小说
目标任务:使用多进程下载金庸网各个版本(旧版.修订版.新修版)的小说代码如下: # -*- coding: utf-8 -*- import requests from lxml import et ...
python爬虫三大解析库之XPath解析库通俗易懂详讲
目录使用XPath解析库 @(这里写自定义目录标题) 使用XPath解析库 1.简介 XPath(全称XML Path Languang),即XML路径语言,是一种在XML文档中查找信息的语言. ...
从0开始学爬虫11之使用requests库下载图片
从0开始学爬虫11之使用requests库下载图片 # coding=utf-8 import requests def download_imgage(): ''' demo: 下载图片 ''' h ...
Python3 常用爬虫库的安装
Python3 常用爬虫库的安装 1 简介 Windows下安装Python3常用的爬虫库:requests.selenium.beautifulsoup4.pyquery.pymysql.pymon ...
xpath爬虫实例，爬取图片网站百度盘地址和提取码
某套图网站,套图以封面形式展现在页面,需要依次点击套图,点击广告盘链接,最后到达百度网盘展示页面. 这一过程通过爬虫来实现,收集百度网盘地址和提取码,采用xpath爬虫技术 1.首先分析图片列表页,该 ...
[转载]AxureRP 7超强部件库下载
很多刚刚开始学习Axure的朋友都喜欢到网上搜罗各种部件库(组件库)widgets library ,但是网络中真正实用的并且适合你使用的少之又少,最好的办法就是自己制作适合自己工作内容的部件库. 这 ...
【Android 应用开发】Android 开发环境下载地址 -- 百度网盘 adt-bundle android-studio sdk adt 下载
19af543b068bdb7f27787c2bc69aba7f Additional Download (32-, 64-bit) Package r10 STL debug info androi ...

随机推荐

🐯 php项目中类的自动加载
主要函数:spl_autoload_register() — 注册给定的函数作为 __autoload() 的实现将函数注册到SPL __autoload函数队列中.如果该队列中的函数尚未激活,则激 ...
Kubernetes 使用 Weave Scope 监控集群(十七)
目录一.安装二.使用 Scope 2.1.拓扑结构 2.2.在线操作 2.3.强大的搜索功能创建 Kubernetes 集群并部署容器化应用只是第一步.一旦集群运行起来,我们需要确保一起正常,所 ...
ThinkPHP3验证码、文件上传、缩略图、分页（自定义工具类、session和cookie）
验证码 TP框架中自带了验证码类位置:Think/verify.class.php 在LoginController控制器中创建生存验证码的方法 login.html登陆模板中在LoginCont ...
ThinkPHP3开发模式，控制器操作，配置文件，框架语法
ThinkPHP的开发模式 tp框架有两种使用模式:开发模式(调试模式),一种是生产模式(运行模式) define('APP_DEBUG', true); //调试模式 define('APP_DE ...
jiaba
分布式事务的 N 种实现
转自:http://myfjdthink.com/2019/04/26/%E5%88%86%E5%B8%83%E5%BC%8F%E4%BA%8B%E5%8A%A1%E7%9A%84-n-%E7%A7% ...
strlen（）与sizeof（）
一.strlen() strlen()为计算字符串长度的函数,以‘\0’为字符串结束标志.注意:其传入参数必须是字符串指针(char*), 当传入的是数组名时,实际上数组退化成指针了. 二.sizeo ...
Flask源码之：路由加载
路由加载整体思路: 1. 将 url = /index 和 methods = [GET,POST] 和 endpoint = "index"封装到Rule对象 2. 将Ru ...
collections模块之defaultdict()与namedtuple()方法简单介绍
一.defaultdict() 作用:根据数据创建字典时,需要为一些数据生成字典,而且对值得类型进行限定的时候,考虑defaultdict from collections import defaul ...
【数据结构】6.java源码ArrayList
关于ArrayList的源码关注点 1.从底层数据结构,扩容策略2.ArrayList的增删改查3.特殊处理重点关注4.遍历的速度,随机访问和iterator访问效率对比 1.从底层数据结构,扩容策略 ...

使用Xpath爬虫库下载诗词名句网的史书典籍类所有文章。

使用Xpath爬虫库下载诗词名句网的史书典籍类所有文章。的更多相关文章

随机推荐

热门专题