node爬虫扒小说

Step 1: 万年不变的初始化项目，安装依赖

cnpm i express cheerio superagent superagent-charset async -S

express 就不用多说了，比较流行的node框架

cheerio 页面数据解析模块。一般都习惯称它node版的jquery,专门用来操作网页dom元素，使用方式和jquery基本相同。

superagent superagent是nodejs里一个非常方便的客户端请求代码模块，superagent是一个轻量级的，渐进式的ajax API，可读性好，学习曲线低，内部依赖nodejs原生的请求API,适用于nodejs环境下。

superagent-charset 很明显，处理编码的。

async 见名知意，node的异步模块。

Step 2: 编写node程序

/*

   以爬取起点小说某文为例

*/

// 1. 首先引入模块

const cheerio = require('cheerio')

const express = require('express')

const app = express()

const superagent = require('superagent')

require('superagent-charset')(superagent)

const async = require('async');

let total = 0 // 总章节数

let id = 0 // 计数器

const chapter = 10 // 爬取多少章

const url = 'https://book.qidian.com/info/1011146676#Catalog' // 章节列表页面


// 处理请求

app.get('/',(req,response,next)=>{

    superagent.get(url).charset('UTF-8').end((err,res)=>{

        var $ = cheerio.load(res.text); // 读取章节列表页面

        let urls = []

        total = $(".volume-wrap li").length // 获取所以章节元素拿到总章节数
　　　　　// 循环获取每个章节的页面url并push进urls

        $('.volume-wrap li').each(function(i,v){

            if(i < chapter){

                urls.push('http:' + $(v).find("a").attr('href'))

            }

        })

　　　　　// 通过async去请求urls里的地址，并通过fetchUrl方法拆分数据。这里的async.mapLimit方法有点类似es6里的promise.all　

        async.mapLimit(urls,chapter,(url,callback)=>{

            id++

            fetchUrl(url,callback,id);

        },(err,results)=>{

            response.send(results);

        })

    })

})

// 去空格和空格转义字符

function trim(str){

  return str.replace(/(^\s*)|(\s*$)/g, '').replace(/&nbsp;/g, '')

}

// 将Unicode转汉字

function reconvert(str) {

  str = str.replace(/(&#x)(\w{1,4});/gi, function ($0) {

    return String.fromCharCode(parseInt(escape($0).replace(/(%26%23x)(\w{1,4})(%3B)/g, "$2"), 16));

  });

  return str

}

// 加载每个章节并拆分数据返回

function fetchUrl(url,callback,id){

    superagent.get(url)

        .charset('UTF-8')

        .end(function(err,res){

            let $ = cheerio.load(res.text);

            let arr = []

            let content = reconvert($(".read-content").html())

            const obj = {

                id: id,

                err: 0,

                bookName: $('.text-info a').eq(0).text().substring(1),

                title: $('.j_chapterName').text(),

                content: content.toString()

            }

            callback(null,obj)

        })

}

// 监听窗口

const PORT = 8080

app.listen(PORT,function(){

    console.log("server listening on " + PORT)

})

最后，运行node程序，本地打开localhost:8080 就可以看到数据了

node爬虫扒小说的更多相关文章

继续node爬虫 — 百行代码自制自动AC机器人日解千题攻占HDOJ
前言不说话,先猛戳 Ranklist 看我排名. 这是用 node 自动刷题大概半天的 "战绩",本文就来为大家简单讲解下如何用 node 做一个 "自动AC机&quo ...
Node爬虫
Node爬虫参考 http://www.cnblogs.com/edwardstudy/p/4133421.html 所谓的爬虫就是发送请求,并将响应的数据做一些处理只不过不用浏览器来发送请求需 ...
python爬虫之小说网站--下载小说(正则表达式)
python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/244 ...
node爬虫gbk中文乱码问题
刚入坑node 写第二个node爬虫时,遇到了这个坑,记录一下. 主要步骤: 1.安装iconv-lite 输入npm install iconv-lite 2.将接收到的网页源码以二进制的方式存储下 ...
简单的node爬虫练手，循环中的异步转同步
简单的node爬虫练手,循环中的异步转同步转载:https://blog.csdn.net/qq_24504525/article/details/77856989 看到网上一些基于node做的爬虫 ...
node爬虫（简版）
做node爬虫,首先像如何的去做这个爬虫,首先先想下思路,我这里要爬取一个页面的数据,要调取网页的数据,转换成页面格式(html+div)格式,然后提取里面独特的属性值,再把你提取的值,传送给你的页面 ...
node 爬虫 --- 批量下载图片
步骤一:创建项目 npm init 步骤二:安装 request,cheerio,async 三个模块 request 用于请求地址和快速下载图片流. https://github.com/reque ...
node爬虫的几种简易实现方式
说到爬虫大家可能会觉得很NB的东西,可以爬小电影,羞羞图,没错就是这样的.在node爬虫方面,我也是个新人,这篇文章主要是给大家分享几种实现node 爬虫的方式.第一种方式,采用node,js中的 s ...
有趣的Node爬虫，数据导出成Excel
最近一直没更新了诶,因为学习Backbone好头痛,别问我为什么不继续AngularJs~因为2.0要出来了啊,妈蛋!好,言归正传,最近帮我的好基友扒数据,他说要一些股票债券的数据.我一听,那不就是要 ...

随机推荐

程序员进阶之算法练习：LeetCode专场
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由落影发表前言 LeetCode上的题目是大公司面试常见的算法题,今天的目标是拿下5道算法题: 题目1是基于链表的大数加法,既考察基本 ...
maven -maven.test.skip skipTests
-DskipTests,不执行测试用例,但编译测试用例类生成相应的class文件至target/test-classes下. -Dmaven.test.skip=true,不执行测试用例,也不编译测试 ...
[转] can not find module @angular/animations/browser
本文转自:https://blog.csdn.net/yaerfeng/article/details/68956298 angularjs4升级了,原来的animations现在被单独出来一个包. ...
Java基础——Oracle（五）
一.Oracle 中的分页 1) select * from emp; 2)select * ,rownum from emp; //这样写不行 3)select ename,job,sal,row ...
tomcat启动时卡住
tomcat启动时卡住进入jdk/jre/lib/security/java.security文件找到securerandom.source将这一行隐藏并在下面一行加入securerandom. ...
canvas-star0.html
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
在EXT框架中，使用JS文件设置UEditor文本框，出现新增内容很多，页面变型，不出现滚动条，导致无法进行操作。
找到UEditor的配置文件:ueditor.config.js(这是我的项目的UEditor的配置文件名) 找到参数设置 autoHeightEnabled 是否自动增长参数,默认为TRUE 当默认 ...
linux定时任务调度定系统——opencron
linux定时任务调度定系统——opencron https://gitee.com/terrytan/opencron/#%E8%BF%90%E8%A1%8C%E7%8E%AF%E5%A2%83 一 ...
安卓开发_深入理解Content Provider
一.Content Provider概述 Content Provider用于保存和获取数据,并使其对所有应用程序可见,这是不同应用程序之间共享数据的唯一方式,因为在Android中没有提供所有应用可 ...
android.support不统一的问题
今天supprt28遇到的问题,由于28还是预览版,还存在一些bug 都是因为如果程序内出现不同的,support或者其他外部引用库的多个版本,Gradle在进行合并的时候会使用本地持有的,最高版本的 ...

node爬虫扒小说

node爬虫扒小说的更多相关文章

随机推荐

热门专题