晋江年下文爬取【xpath】

'''

@Modify Time      @Author   目标：晋江年下文 爬取6页

------------      ------- http://www.jjwxc.net/search.php?kw=%C4%EA%CF%C2&t=1&p=1

2019/8/31 15:19   laoalo

'''

import requests

from lxml import etree

head = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134',

    'Host':'www.jjwxc.net',

}

def get_page_detail(url):

    # 得到当前页面中每本书的url

    response = requests.get(url=url,headers=head,timeout=50).text

    book = etree.HTML(response).xpath('//h3[@class="title"]/a/@href')

    # print(etree.tostring(book,encoding='gbk').decode('gbk'))

    return book

def get_book_detial(book_url):

    # 得到每本书的详细信息

    try:

        response = requests.get(url=book_url, headers=head, timeout=50).text

        book_detail = etree.HTML(response)

        book = {}

        title = book_detail.xpath("//span[@itemprop='articleSection']//text()")[0].encode('ISO-8859-1').decode('gbk')

        book['title'] = title

        author = book_detail.xpath("//span[@itemprop='author']//text()")[0].encode('ISO-8859-1').decode('gbk')

        book['author'] = author

        information = book_detail.xpath("string(//div[@id='novelintro'])").encode('ISO-8859-1').decode('gbk')

        book['information'] = information

        return book

    except IndexError as e:

        print(e,'下标越界')

    # targets = book_detail.xpath("//text()")

    # for index,target in enumerate(targets):

    #     print(index,'*'*30,target.encode('ISO-8859-1').decode('gbk'))

    # '''

    # 标签爬不出来

    # '''

def spider():

    bookshelf = []

    for i in range(1,5):

        print("这是第{index}页的信息\n\n\n".format(index=i))

        url = 'http://www.jjwxc.net/search.php?kw=%C4%EA%CF%C2&t=1&p={page_num}'.format(page_num=i)

        book_list = get_page_detail(url)

        for i in book_list:

            # print(get_book_detial(i))

            bookshelf.append(get_book_detial(i))

    return bookshelf

        # print(url)

if __name__ == '__main__':

    # print(get_book_detial("http://www.jjwxc.net/onebook.php?novelid=3402626"))

    print(spider())

时常会有："list index out of range 下标越界"，或是"TimeoutError: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败"，有的师傅说是因为访问过快，导致list的赋值没附上……代码有待优化

晋江年下文爬取【xpath】的更多相关文章

requests+xpath+map爬取百度贴吧
# requests+xpath+map爬取百度贴吧 # 目标内容:跟帖用户名,跟帖内容,跟帖时间 # 分解: # requests获取网页 # xpath提取内容 # map实现多线程爬虫 impo ...
一起学爬虫——使用xpath库爬取猫眼电影国内票房榜
之前分享了一篇使用requests库爬取豆瓣电影250的文章,今天继续分享使用xpath爬取猫眼电影热播口碑榜 XPATH语法 XPATH(XML Path Language)是一门用于从XML文件中 ...
爬虫系列4：Requests+Xpath 爬取动态数据
爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...
爬虫系列3：Requests+Xpath 爬取租房网站信息并保存本地
数据保存本地 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文爬虫系列2:https://www ...
爬虫系列2：Requests+Xpath 爬取租房网站信息
Requests+Xpath 爬取租房网站信息 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 ...
爬虫系列1：Requests+Xpath 爬取豆瓣电影TOP
爬虫1:Requests+Xpath 爬取豆瓣电影TOP [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]: ...
爬取伯乐在线文章（二）通过xpath提取源文件中需要的内容
爬取说明以单个页面为例,如:http://blog.jobbole.com/110287/ 我们可以提取标题.日期.多少个评论.正文内容等 Xpath介绍 1. xpath简介 (1) xpath使 ...
利用xpath爬取招聘网的招聘信息
爬取招聘网的招聘信息: import json import random import time import pymongo import re import pandas as pd impor ...
Scrapy基础(六)————Scrapy爬取伯乐在线一通过css和xpath解析文章字段
上次我们介绍了scrapy的安装和加入debug的main文件,这次重要介绍创建的爬虫的基本爬取有用信息通过命令(这篇博文)创建了jobbole这个爬虫,并且生成了jobbole.py这个文件,又写 ...

随机推荐

python接口自动化：https请求，取消警告
实现代码如下: import requests r=requests.get('https://www.baidu.com',verify=False) rr=r.content.decode() p ...
05.vue-resource的基本使用
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
应用安全 - 渗透测试 - .net网站
注入注入单引号检测 - 多数使用MSSQL数据库常规注入绕过 "or''=' | 'or''=' 'or'='or' | 'or'='or'" 上传加图片头GIF89A
利用Redisson实现分布式锁及其底层原理解析
Redis介绍参考地址:https://blog.csdn.net/turbo_zone/article/details/83422215 redis是一个key-value存储系统.和Memcac ...
jfinal+H5的websocket 实现同一账户在不同地点不同电脑只能登陆一个（互相踢下线）
jfinal+H5的websocket 实现同一账户在不同地点不同电脑只能登陆一个(互相踢下线):https://blog.csdn.net/liuyifeng1920/article/details ...
极*Java速成教程 - (3)
Java语言基础访问权限控制 Java是一个面向对象的语言,当你不是它所设计的要面向的对象时,它就不会给你看你不该看到的东西,也就是"访问权限控制". 亲疏有别,才能权限控制包 ...
浅谈格雷码（Grey Code)在信息学竞赛中的应用
1.格雷码的概念 1.性质格雷码(Grey Code),又叫循环二进制码或反射二进制码,是一种编码方式,它的基本特点是任意两个相邻的格雷码只有一位二进制数不同. 常用的二进制数与格雷码间的转换关系如 ...
BZOJ 4987 (树形DP)
###题面 https://www.lydsy.com/JudgeOnline/problem.php?id=4987 ###分析先考虑贪心,显然k个节点形成一棵树求出树的直径,显然直径应该只被经 ...
IMAP协议学习笔记（一）
IMAP IMAP(Internet Mail Access Protocol,Internet邮件访问协议)以前称作交互邮件访问协议(Interactive Mail Access Protocol ...
JavaScript 的执行机制
一.关于javascript javascript是一门单线程语言,在最新的HTML5中提出了Web Worker,但javascript是单线程这一核心仍未改变. 为什么js是单线程的语言?因为最初 ...

晋江年下文爬取【xpath】

晋江年下文爬取【xpath】的更多相关文章

随机推荐

热门专题