小说免费看！python爬虫框架scrapy 爬取纵横网

前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者：风，又奈何

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun

准备

python3
scrapy

项目创建：

cmd命令行切换到工作目录创建scrapy项目两条命令 scarpy startproject与scrapy genspider 然后用pycharm打开项目

D:\pythonwork>scrapy startproject zongheng

New Scrapy project 'zongheng', using template directory 'c:\users\11573\appdata\local\programs\python\python36\lib\site-packages\scrapy\templates\project', created in:

    D:\pythonwork\zongheng



You can start your first spider with:

    cd zongheng

    scrapy genspider example example.com



D:\pythonwork>cd zongheng



D:\pythonwork\zongheng>cd zongheng



D:\pythonwork\zongheng\zongheng>scrapy genspider xuezhong http://book.zongheng.com/chapter/189169/3431546.html

Created spider 'xuezhong' using template 'basic' in module:

  zongheng.spiders.xuezhong

确定内容

首先打开网页看下我们需要爬取的内容

其实小说的话结构比较简单只有三大块卷章节内容

因此 items.py代码：

内容提取spider文件编写

还是我们先创建一个main.py文件方便我们测试代码

然后我们可以在spider文件中先编写

运行main.py看看有没有输出

发现直接整个网页的内容都可以爬取下来，说明该网页基本没有反爬机制，甚至不用我们去修改user-agent那么就直接开始吧

打开网页 F12查看元素位置并编写xpath路径然后编写spider文件

需要注意的是我们要对小说内容进行一定量的数据清洗，因为包含某些html标签我们需要去除

有时候我们会发现无法进入下个链接，那可能是被allowed_domains过滤掉了我们修改下就可以

唉突然发现了到第一卷的一百多章后就要VIP了那我们就先只弄一百多章吧不过也可以去其他网站爬取免费的这次我们就先爬取一百多章吧

内容保存

接下来就是内容的保存了，这次就直接保存为本地txt文件就行了

首先去settings.py文件里开启 ITEM_PIPELINES

然后编写pipelines.py文件

由于选址失误导致了我们只能爬取免费的一百多章节，尴尬，不过我们可以类比运用到其他网站爬取全文免费的书籍

怎么样使用scrapy爬取是不是很方便呢

如果你处于想学Python或者正在学习Python，Python的教程不少了吧，但是是最新的吗？说不定你学了可能是两年前人家就学过的内容，在这小编分享一波2020最新的Python教程。获取方式，私信小编 “ 资料 ”，即可免费获取哦！

小说免费看！python爬虫框架scrapy 爬取纵横网的更多相关文章

【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
Python爬虫框架Scrapy教程(1)—入门
最近实验室的项目中有一个需求是这样的,需要爬取若干个(数目不小)网站发布的文章元数据(标题.时间.正文等).问题是这些网站都很老旧和小众,当然也不可能遵守 Microdata 这类标准.这时候所有网页 ...
Python爬虫框架Scrapy安装使用步骤
一.爬虫框架Scarpy简介Scrapy 是一个快速的高层次的屏幕抓取和网页爬虫框架,爬取网站,从网站页面得到结构化的数据,它有着广泛的用途,从数据挖掘到监测和自动测试,Scrapy完全用Python ...
Python爬虫框架Scrapy实例（三）数据存储到MongoDB
Python爬虫框架Scrapy实例(三)数据存储到MongoDB任务目标:爬取豆瓣电影top250,将数据存储到MongoDB中. items.py文件复制代码# -*- coding: utf-8 ...
Linux 安装python爬虫框架 scrapy
Linux 安装python爬虫框架 scrapy http://scrapy.org/ Scrapy是python最好用的一个爬虫框架.要求: python2.7.x. 1. Ubuntu14.04 ...
《Python3网络爬虫开发实战》PDF+源代码+《精通Python爬虫框架Scrapy》中英文PDF源代码
下载:https://pan.baidu.com/s/1oejHek3Vmu0ZYvp4w9ZLsw <Python 3网络爬虫开发实战>中文PDF+源代码下载:https://pan. ...
《精通Python爬虫框架Scrapy》学习资料
<精通Python爬虫框架Scrapy>学习资料百度网盘:https://pan.baidu.com/s/1ACOYulLLpp9J7Q7src2rVA
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...

随机推荐

JVM年轻代，老年代，永久代详解
前言最近被问到了这个问题,解释的不是很清晰,有一些概念略微模糊,在此进行整理和记录,分享给大家.本篇文章主要讲解内存区域的年轻代,老年代和永久代,略微提及一些垃圾回收算法,下面是正文. 堆整体堆主 ...
Redis 缓存更新一致性
当执行写操作后,需要保证从缓存读取到的数据与数据库中持久化的数据是一致的,因此需要对缓存进行更新. 因为涉及到数据库和缓存两步操作,难以保证更新的原子性. 在设计更新策略时,我们需要考虑多个方面的问题 ...
OSLab:实模式与保护模式
日期:2019/5/18 12:00 内容:操作系统实验作业:x86:IA-32:实模式与保护模式. PS:如果我们上的是同一门课,有借鉴代码的铁汁请留言告知嗷.只是作业笔记,不推荐学习. 一.实模式 ...
数据挖掘入门系列教程（八）之使用神经网络（基于pybrain）识别数字手写集MNIST
目录数据挖掘入门系列教程(八)之使用神经网络(基于pybrain)识别数字手写集MNIST 下载数据集加载数据集构建神经网络反向传播(BP)算法进行预测 F1验证总结参考数据挖掘入门系 ...
A 工艺
时间限制 : - MS 空间限制 : - KB 评测说明 : 1s,128m 问题描述小敏和小燕是一对好朋友. 他们正在玩一种神奇的游戏,叫Minecraft. 他们现在要做一个由方块构成的长 ...
O - 推箱子 HDU - 1254(bfs_box + bfs_man)
O - 推箱子 HDU - 1254 推箱子是一个很经典的游戏.今天我们来玩一个简单版本.在一个M*N的房间里有一个箱子和一个搬运工,搬运工的工作就是把箱子推到指定的位置,注意,搬运工只能推箱子而不能 ...
MySQL手工注入进阶篇——突破过滤危险字符问题
当我们在进行手工注入时,有时候会发现咱们构造的危险字符被过滤了,接下来,我就教大家如何解决这个问题.下面是我的实战过程.这里使用的是墨者学院的在线靶场.咱们直接开始. 第一步,判断注入点. 通过测试发 ...
【Redis】集群NetCore实战
环境准备 1. Redis集群(Windows集群搭建) 启动Redis集群,给每个节点加上Title start .conf start .conf start .conf start .conf ...
微信小程序将外部数据从父组件中传入到子组件
小程序组件开发遇到一个组件内嵌两个组件,而这两个子组件所使用的数据来自于同一个API,如下图所示. 如果这时候两个子组件各自导入同一个接口就会显得多余.另外的办法是由父组件导入接口数据,再从父组件将接 ...
Python语言上机题实现方法（持续更新...）
Python语言上机题实现方法(持续更新...) 1.[字符串循环左移]给定一个字符串S,要求把S的前k个字符移动到S的尾部,如把字符串"abcdef"前面的2个字符'a'.'b' ...

小说免费看！python爬虫框架scrapy 爬取纵横网

前言

准备

内容保存

小说免费看！python爬虫框架scrapy 爬取纵横网的更多相关文章

随机推荐

热门专题