基于nodeJS的小说爬虫实战

背景与需求分析

最近迷恋于王者荣耀、斗鱼直播与B站吃播视频，中毒太深，下班之后无心看书。

为了摆脱现状，能习惯看书，我开始看小说了，然而小说网站广告多而烦，屌丝心态不愿充钱，于是想到了爬虫。

功能分析

为了将网上小说内容获取到本地，进行了功能分析：

1、获取每个章节列表地址
2、更加每个章节地址，获取每个章节的内容
3、将获取的各个章节内容有序的写入文件

技术调研

作为一个前端er，实现爬虫nodeJS必须是首选，虽然数据挖掘Python才是真理

npm依赖如下

1、爬取内容 superagent
2、分析爬取的内容 cheerio
3、并发 async
4、文件写入 fs

编码实现

xiaoshuo.js代码如下

const cheerio = require('cheerio')

const superagent = require('superagent')

require('superagent-charset')(superagent)

const async = require('async');

const fs = require('fs');

let baseUrl = 'http://www.xxx.com/book/14435/';

let infos = [];

let urls = [];

let titles = [];

let fileName = '';

superagent.get(baseUrl).charset('UTF-8').end((err,res)=>{

    var $ = cheerio.load(res.text);

    // 读取章节列表页面

    $('.am-book-list').eq(1).find('.am-u-lg-4 a').each((i, v) => {

        let link = 'http://www.xxx.com' + $(v).attr('href')

        urls.push(link);

        fileName = $('.am-book-info h2').text()+'.txt';

    })

    let id = 0;

    //获取每个章节列表

    async.mapLimit(urls,urls.length,(url,callback)=>{

        id++

        fetchUrl(url,callback,id);

    },(err,results)=>{

        //将文件写入本地

        fs.existsSync(fileName);

        for(var i = 0;i<results.length-1;i++){

            fs.appendFileSync(fileName, results[i].title) //

            fs.appendFileSync(fileName, results[i].content)

        }

    })

})

function fetchUrl(url,callback,id){

    superagent.get(url)

        .charset('UTF-8')

        .end(function(err,res){

            let $ = cheerio.load(res.text);

            let arr = []

            let content = reconvert($("#am-read-centent").text())

            const obj = {

                id: id,

                err: 0,

                title: '\n'+$('#am-book-h3').text(), //标题

                content: '\n'+trim(content.toString()) //内容

            }

            callback(null,obj)

        })

}

function reconvert(str) {

  str = str.replace(/(&#x)(\w{1,4});/gi, function ($0) {

    return String.fromCharCode(parseInt(escape($0).replace(/(%26%23x)(\w{1,4})(%3B)/g, "$2"), 16));

  });

  return str

}

function trim(str){

  return str.replace(/(^\s*)|(\s*$)/g, '').replace(/&nbsp;/g, '')

}

为了避免坐牢，站点使用xxx代替，

运行效果

在命令行运行 node xiaoshuo，试验了本小说，好像还是ok的，哈哈哈

基于nodeJS的小说爬虫实战的更多相关文章

python 基于aiohttp的异步爬虫实战
钢铁知识库,一个学习python爬虫.数据分析的知识库.人生苦短,快用python. 之前我们使用requests库爬取某个站点的时候,每发出一个请求,程序必须等待网站返回响应才能接着运行,而在整个爬 ...
基于NodeJs的网页爬虫的构建（二）
好久没写博客了,这段时间已经忙成狗,半年时间就这么没了,必须得做一下总结否则白忙.接下去可能会有一系列的总结,都是关于定向爬虫(干了好几个月后才知道这个名词)的构建方法,实现平台是Node.JS. 背 ...
基于NodeJs的网页爬虫的构建（一）
好久没写博客了,这段时间已经忙成狗,半年时间就这么没了,必须得做一下总结否则白忙.接下去可能会有一系列的总结,都是关于定向爬虫(干了好几个月后才知道这个名词)的构建方法,实现平台是Node.JS. 背 ...
浏览器自动刷新——基于Nodejs的Gulp LiveReload与VisualStudio完美结合。
本文版权桂博客园和作者吴双共同所有,转载和爬虫请注明原文地址 http://www.cnblogs.com/tdws/p/6016055.html 写在前面大家好我是博客园的蜗牛,博客园的蜗牛就是我 ...
基于nodejs模拟浏览器post请求爬取json数据
今天想爬取某网站的后台传来的数据,中间遇到了很多阻碍,花了2个小时才请求到数据,所以我在此总结了一些经验. 首先,放上我所爬取的请求地址http://api.chuchujie.com/api/?v= ...
爬虫实战：爬虫之 web 自动化终极杀手 ( 上）
欢迎大家前往腾讯云技术社区,获取更多腾讯海量技术实践干货哦~ 作者:陈象导语: 最近写了好几个简单的爬虫,踩了好几个深坑,在这里总结一下,给大家在编写爬虫时候能给点思路.本次爬虫内容有:静态页面的爬 ...
iKcamp团队制作｜基于Koa2搭建Node.js实战项目教学（含视频）☞ 环境准备
安装搭建项目的开发环境视频地址:https://www.cctalk.com/v/15114357764004 文章 Koa 起手 - 环境准备由于 koa2 已经开始使用 async/await ...
32个Python爬虫实战项目，满足你的项目慌
爬虫项目名称及简介一些项目名称涉及企业名词,小编用拼写代替 1.[WechatSogou]- weixin公众号爬虫.基于weixin公众号爬虫接口,可以扩展成其他搜索引擎的爬虫,返回结果是列表,每 ...
Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...

随机推荐

集合(五) TreeMap
4.TreeMap SortedMap接口继承Map接口,是排序键值对的接口,实现排序的的方法是Comparator.而NavigableMap接口继承于SortedMap,新增了一些导航方法.而Tr ...
Acwing-196-质数距离(素数区间筛法)
链接: https://www.acwing.com/problem/content/198/ 题意: 给定两个整数L和U,你需要在闭区间[L,U]内找到距离最接近的两个相邻质数C1和C2(即C2-C ...
JavaStript基础 —— JavaStript语法
JavaStript 简介 JavaScript诞生于 1995年.当然,它的主要目的是处理以前由服务器端语言负责的一些输入验证操作. 如今,JavaStript的用途早就不再局限于简单的数据验证,而 ...
logback导入依赖 NoSuchMethodException
1.我遇到的问题是Spring版本和logback低版本冲突的问题如何解决:把logback.classic和logback.core等依赖换成1.2.2以上版本的依赖
npoi 导出
npoi 导出 public void Output(DataTable table, string SheetName, string reportName) { string result = s ...
jquery image选择器语法
jquery image选择器语法作用::image 选择器选取类型为 image 的 <input> 元素.无锡大理石测量平台语法:$(":image") jq ...
TTTTTTTTTTTTTTTT #7 div1 A Breadth-First Search by Foxpower 在线LCA（倍增）,模拟
A - Breadth-First Search by Foxpower Time Limit:2000MS Memory Limit:131072KB 64bit IO Format ...
java中jsp的EL的定义以及使用
1.定义: EL(Expression Language) 是为了使JSP写起来更加简单.表达式语言的灵感来自于 ECMAScript 和 XPath 表达式语言,它提供了在 JSP 中简化表达式的方 ...
部分和问题（dfs）
部分和问题描述给定整数a1.a2........an,判断是否可以从中选出若干数,使它们的和恰好为K. 输入首先,n和k,n表示数的个数,k表示数的和.接着一行n个数.(1<=n<= ...
Python 读文件：IOError: [Errno 0] Error
Windows系统下,这种情况发生在读取文件,再写入过程中出现. 原因是读完文件后python不知道当前文件位置在哪里. 方法一是:在关闭文件前只做读或者写一种操作. 方法二是:在写入文件前使用fil ...