scrapy 圣墟

# -*- coding: utf-8 -*-

import scrapy

from sx.items import SxItem

class SkSpider(scrapy.Spider):

    name = 'sk'

    allowed_domains = ['biqiuge.com']

    start_urls = ['https://www.biqiuge.com/book/4772/']

    def parse(self, response):

        for box in response.xpath("//div[@class='listmain']/dl/dd"):

            #print(box)

            a = box.xpath('./a/@href')

            b = box.xpath('./a/text()')

            url =  'https://www.biqiuge.com' + a.extract()[0]

            yield scrapy.Request(url,callback=self.parse_2)

    def parse_2(self, response):

        item = SxItem()

        title = content = response.xpath('//div[@class="content"]/h1/text()').extract()

        item['title']=title[0]

        content = response.xpath('//div[@id="content"]/text()').extract()

        allcontent = ''

        for i in content:

            allcontent = allcontent + i + '\n'

        item['content'] = allcontent

        yield item

settings.py配置文件，要加延迟设置

BOT_NAME = 'sx'

SPIDER_MODULES = ['sx.spiders']

NEWSPIDER_MODULE = 'sx.spiders'

ROBOTSTXT_OBEY = False

DOWNLOAD_DELAY = 3

DEFAULT_REQUEST_HEADERS = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',

    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

    'Accept-Language': 'en',

}

ITEM_PIPELINES = {

    'sx.pipelines.SxPipeline': 300,

}

class SxPipeline(object):

    def __init__(self):

        self.file = open('圣墟.txt','a+')

    def process_item(self, item, spider):

        str = item['content']

        self.file.write(item['title']+'\n')

        self.file.write(str)

        return item

scrapy 圣墟的更多相关文章

Python的scrapy之爬取6毛小说网的圣墟
闲来无事想看个小说,打算下载到电脑上看,找了半天,没找到可以下载的网站,于是就想自己爬取一下小说内容并保存到本地圣墟第一章沙漠中的彼岸花 - 辰东 - 6毛小说网 http://www.6ma ...
使用scrapy框架做武林中文网的爬虫
一.安装首先scrapy的安装之前需要安装这个模块:wheel.lxml.Twisted.pywin32,最后在安装scrapy pip install wheel pip install lxml ...
Javascript数组(1)--基本属性及方法
数组Array是Javascript语言中非常重要的两种引用类型数据之一,另外一种为对象Object.Array的数据模型可分为两种进行存储:堆栈结构.队列结构. 昨天,确切说是前天了,去和大学同学见 ...
几个常用的文本处理shell 命令：find、grep、sort、uniq、sed、awk
find 文件查找查找txt和pdf文件 find . \( -name "*.txt" -o -name "*.pdf" \) -print 查找所有字母开 ...
HttpClient读取数据乱码的解决方案
博主是一个近十年的老书虫了,从高中那会儿就开始看网络小说.每天半天看晚上看啊,终于眼睛也近视了,成绩也下降了(....好像说远了) 最近在追辰东的<圣墟>,最近写到精彩部分了,一直等更新. ...
搜索引擎（Solr-搜索详解）
学习目标 1.掌握SOLR的搜索工作流程: 2.掌握solr搜索的表示语法及查询解析器 3.熟悉solr搜索的JSON格式 API Solr搜索流程介绍回顾,使用 lucene进行搜索的步骤: So ...
Python之路day12 web 前端（HTML+ css）
HTML文档文档树: Doctype Doctype告诉浏览器使用什么样的html或xhtml规范来解析html文档有和无的区别 BackCompat:标准兼容模式未开启(或叫怪异模式[Quirk ...
初次玩耍lucene.net，一个小小的记录
lucene.net虽说是强大,但是我还是一年前第一次玩耍,然后就没有然后了,最近准备养成记录博客的习惯了,所以又玩了玩,回来记录一下首先新建一个类,便于调用 public class Lucene ...
SpringBoot学习笔记(9)----SpringBoot中使用关系型数据库以及事务处理
在实际的运用开发中,跟数据库之间的交互是必不可少的,SpringBoot也提供了两种跟数据库交互的方式. 1. 使用JdbcTemplate 在SpringBoot中提供了JdbcTemplate模板 ...

随机推荐

Codeforces Round #364 (Div. 2) C
Description Sergei B., the young coach of Pokemons, has found the big house which consists of n flat ...
AnkhSVN使用手册
(一) 安装: Subversion客户端安装------AnkhSVN AnkhSVN是一款在VS中管理Subversion的插件,您可以在VS中轻松的提交.更新.添加文件,而不用在命令行或资源管理 ...
Django2.0里model外键和一对一的on_delete参数
在django2.0后,定义外键和一对一关系的时候需要加on_delete选项,此参数为了避免两个表里的数据不一致问题,不然会报错: TypeError: __init__() missing 1 r ...
mybatis持久化操作“无效的类型111解决”
mybatis持久化操作时,如果插入数据为null的情况下,由于内部机制问题,会导致报错,导致出现:“无效的类型:1111”示例如下: org.springframework.jdbc.Uncateg ...
C#获得字符串首字符字母（大写）
/// <summary> /// 获得字符串首字符字母(大写): /// </summary> /// <param name="cnChar"&g ...
金三银四面试季节之Java 核心面试技术点 - JVM 小结
原文:https://github.com/linsheng9731/notebook/blob/master/java/JVM.md 描述一下 JVM 的内存区域程序计数器(PC,Program ...
JAVA4大线程池
不知不觉中我们电脑的硬件设施越来越好,从双核四线程普及到如今四核八线比比皆是.互联网发展至今,讲究的就是快,less is more,而且大数据的诞生和各种种类繁多的需求处理,单线程的程序逐渐不能满足 ...
wcf post
服务端: 1.接口 [OperationContract] [ServiceKnownType(typeof(CreatMicroBlogFeedViewModel))] [WebInvoke(Bod ...
Python之简易计算器
思路:学会运用正则表达式把需要先进行计算的匹配出来,然后再一步步的去算,把先算出来的值替换原来的值,再进一步的把++,--等号变成我们正常的数学上的符号,然后再进行一步步的替换,最终把带括号的都计算出 ...
MATLAB之易经卜卦程序+GUI
MATLAB之易经卜卦程序+GUI 日月为易,刚柔相推. 是故易有太极,是生两仪,两仪生四象,四象生八卦,八卦定吉凶,吉凶生大业.是故法象莫大乎天地,变通莫大乎四时,悬象著明莫大乎日月. 本文 ...

scrapy 圣墟

scrapy 圣墟的更多相关文章

随机推荐

热门专题