使用scrapy框架做武林中文网的爬虫

一、安装

首先scrapy的安装之前需要安装这个模块：wheel、lxml、Twisted、pywin32，最后在安装scrapy

pip install wheel

pip install lxml

这个地址是一个下载python包的好地方

https://www.lfd.uci.edu/~gohlke/pythonlibs/下载twisted

pip install Twisted

pip install pywin32

pip install scrapy

安装完成后

输入scrapy 能够执行，并能提示版本，说明安装没问题

二、Scrapy项目的创建（获取武林中文网）https://m.50zw.la/

1、在前面输入 scrapy 的时候有个选项是 startproject，这个选项是创建scrapy项目，我们在命令提示符中输入：

scrapy startproject wlzw (wlzw)

2、生成基础爬虫文件

cd wlzw

scrapy genspider spiderwlzw m.50zw.la 前一个是py文件名名后一个是要爬取的url

生成一个名为spiderwlzw.py文件

3、打开pycharm-->file-->open 找到建好的项目，显示项目结构

init.py 保持默认，不修改

items.py 保存爬取到的数据的容器

middlewares.py 中间件配置文件

settings.py 项目的设置文件，延迟等。

pipelines.py 项目管道文件，对传入的项目类中的数据进行一个清理和入库

spiders目录该目录下有一个init.py 文件，和第2步生成spiderwlzw.py文件

三、设计数据库

1、确认保存什么数据

数据库为:novel

表名

Novel

字段名

title 圣墟

author 作者：辰东

type 类别：玄幻小说

status 状态：连载中

update_last 更新：2019-07-05 14:35:32

update_last_status 最新：第1407章女帝君临世间！

brief_introduction 小说简介

2、创建数据库和表

1)、pycharm下方的Terminal输入

python

    import sqlite3

    novel=sqlite3.connect("novel.sqlite")

    createtablesql="create table novel(title varchar(100),author varchar(50),type varchar(50),status varchar(50),update_last varchar(50),update_last_status varchar(100),brief_introduction varchar(500))"

    novel.execute(createtablesql);

    2)、完成创建数据库和表

    3)、按住这个文件拖动到右侧的Database中

四、修改代码

1、根据第三步定义的数据库表结构修改items.py代码

import scrapy

class WlzwItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    title = scrapy.Field()

    author = scrapy.Field()

    type = scrapy.Field()

    status = scrapy.Field()

    update_last = scrapy.Field()

    update_last_status = scrapy.Field()

    brief_introduction = scrapy.Field()

    pass

2、修改spiderwlzw.py文件

    主要为三部分

        本页内的小说连接

        本页内的下一页连接

        打开每篇小说后的采集具体的数据

import scrapy

from wlzw.items import *

#武林中文网

class SpiderwlzwSpider(scrapy.Spider):

    name = 'wlzw'  #这里要和项目名称保持一致

    allowed_domains = ['m.50zw.la']

    start_urls = ['http://m.50zw.la/wapsort/1_1.html'] #这里只处理玄幻类小说

    #主站链接 用来拼接

    base_site = 'http://m.50zw.la'

    def parse(self, response):

        book_urls = response.xpath('//table[@class="list-item"]//a/@href').extract()

        print(book_urls)

        for book_url in book_urls:

            url = self.base_site + book_url

            yield scrapy.Request(url, callback=self.getInfo)

        #获取下一页

        next_page_url = self.base_site + response.xpath('//table[@class="page-book"]//a[contains(text(),"下一页")]/@href').extract()[0]

        yield scrapy.Request(next_page_url, callback=self.parse)

    def getInfo(self, response):

        item = WlzwItem()

        #提取信息

        item['text_id'] = response.url.split('_')[1].replace('/', '')

        item['title'] = response.xpath('//table[1]//p/strong/text()').extract()[0]

        item['author'] = response.xpath('//table[1]//p/a/text()').extract()[0]

        item['type'] = response.xpath('//table[1]//p/a/text()').extract()[1]

        item['status'] = response.xpath('//table[1]//p/text()').extract()[2][3:]

        item['update_last'] = response.xpath('//table[1]//p[5]/text()').extract()[0][3:]

        item['update_last_status'] = response.xpath('//table[1]//p[6]/a/text()').extract()[0][3:]

        item['brief_introduction'] = response.xpath('//div[@class="intro"]/text()').extract()[0]

        yield item

3、修改pipeline.py

    import sqlite3

    class WlzwPipeline(object):

        def open_spider(self, spider):

            self.con = sqlite3.connect("novel.sqlite")

            self.cn = self.con.cursor()

        def process_item(self, item, spider):

            print(item)

            insert_sql = 'insert into novel(title ,author,type,status,update_last,update_last_status,brief_introduction) values("{}", "{}", "{}", "{}", "{}", "{}", "{}")'.format(item["title"], item["author"], item["type"], item["status"], item["update_last"], item["update_last_status"], item["brief_introduction"])

            print(insert_sql)

            self.cn.execute(insert_sql)

            self.con.commit()

            return item

        def spider_close(self, spider):

            self.con.close()

4、修改setting.py

    ITEM_PIPELINES = {

       'wlzw.pipelines.WlzwPipeline': 300,

    }

五、执行爬虫（项目目录下执行）退到与工程同一目录下：

scrapy crawl wlzw

使用scrapy框架做武林中文网的爬虫的更多相关文章

使用scrapy框架做赶集网爬虫
使用scrapy框架做赶集网爬虫一.安装首先scrapy的安装之前需要安装这个模块:wheel.lxml.Twisted.pywin32,最后在安装scrapy pip install wheel ...
Python 爬虫之Scrapy框架
Scrapy框架架构 Scrapy框架介绍: 写一个爬虫,需要做很多的事情.比如:发送网络请求.数据解析.数据存储.反反爬虫机制(更换ip代理.设置请求头等).异步请求等.这些工作如果每次都要自己从零 ...
Python逆向爬虫之scrapy框架,非常详细
爬虫系列目录目录 Python逆向爬虫之scrapy框架,非常详细一.爬虫入门 1.1 定义需求 1.2 需求分析 1.2.1 下载某个页面上所有的图片 1.2.2 分页 1.2.3 进行下载图片 ...
Scrapy框架——CrawlSpider类爬虫案例
Scrapy--CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类. 此案例采用的是CrawlSpider类实现爬虫. 它是Spider的派生类,Spide ...
基于Scrapy框架的Python新闻爬虫
概述该项目是基于Scrapy框架的Python新闻爬虫,能够爬取网易,搜狐,凤凰和澎湃网站上的新闻,将标题,内容,评论,时间等内容整理并保存到本地详细代码下载:http://www.demoda ...
Python爬虫进阶之Scrapy框架安装配置
Python爬虫进阶之Scrapy框架安装配置初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此 ...
scrapy框架的命令行解释
scrapy框架的命令解释创建爬虫项目 scrapy startproject 项目名例子如下: scrapy startproject test1 这个时候爬虫的目录结构就已经创建完成了,目录结构 ...
Scrapy框架——CrawlSpider爬取某招聘信息网站
CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类. 它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页, 而Craw ...
Python爬虫Scrapy框架入门（2）
本文是跟着大神博客,尝试从网站上爬一堆东西,一堆你懂得的东西附上原创链接: http://www.cnblogs.com/qiyeboy/p/5428240.html 基本思路是,查看网页元素,填写 ...

随机推荐

很全的vue插件汇总，赶紧收藏下(转)
Vue是一个构建数据驱动的 web 界面的渐进式框架.Vue.js 的目标是通过尽可能简单的 API 实现响应的数据绑定和组合的视图组件特别整理了常用的vue插件,来了个大汇总,方便查找使用,便于工作 ...
linux echo命令颜色显示
echo命令颜色显示: echo: -n: 不换行. -e:让转移符生效. \t(tab) \n (换行) 实例: $ echo -e "\033[34mabcd\03 ...
springboot 启动停止脚本
https://www.cnblogs.com/lovychen/p/6211209.html 参考 centos 转码解决方案: yum install dos2unix dos2unix ** ...
I still have a dream!
当聊起梦想时,哥总会说别跟我谈梦想,我已经戒了!现在的我对梦想并不感冒,总是冷眼旁观很多事情,那些经不起时间检验的事和人,总会消散在历史云烟中,若干年后,又有谁还会记得那些遗弃在历史尘埃中,琐碎的芝麻 ...
爬取豆瓣电影Top250
目标学习爬虫,爬豆瓣榜单,获取爬取静态页面信息的能力豆瓣电影 Top 250 https://movie.douban.com/top250 代码 import requests from bs ...
【转】Pandas学习笔记（五）合并 concat
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学 ...
搜索 - 广度优先搜索(BFS)普通模板
bfs广度优先搜索模板本人蒟蒻,为响应号召写下bfs模板一篇可以适用于求最短步数,等最优解问题.如有不足或者不对的地方请各位大佬及时指出 ^-^ 欢迎来戳具体实现代码(C++) 各个模块功能和 ...
libpcap工具包使用go交叉编译开发android
命令使用 libpcap交叉编译 cd /tmpwget http://www.tcpdump.org/release/libpcap-1.8.1.tar.gztar xvf libpcap-1.8. ...
opencart中文版checkout设置city和county为非必选
opencart中文版在opencart原版进行了一些修改,添加了适合国内使用的设置,但是并不适合国外用户,比如订单页面的收货地址添加了国内的城市和区县,而国外的city和county被删减了,这两项 ...
第二章 linux不为人知的命令
文件和目录命令 cd /home 进入 home目录' cd ..返回上一级目录 pwd显示当前工作路径 ls查看目录中的文件 ls -l 显示文件和目录的详细资料(可简写为ll),后可跟具体文件名 ...

使用scrapy框架做武林中文网的爬虫

使用scrapy框架做武林中文网的爬虫的更多相关文章

随机推荐

热门专题